资讯丨首个支持多主体一致性的大模型Vidu 1.5,在302.AI上玩到停不下来!

11中旬,生数科技推出了最新AI视频生成模型Vidu 1.5版本,并声称这一版本模型为“全球首个支持多主体一致性的大模型”。

先简单理解下多主体一致性的意思,多主体一致性即多个主体如人物、物体、场景等,在不同场景、不同镜头下的形象、特征和行为都是连贯和一致的。更简单地说,就是视频里的每个角色或物体在不同时间和不同地点都能保持他们的特征和行为,使得整个视频看起来流畅自然,没有突兀的变化。

据了解,Vidu 1.5的多主体参考实是一种上下文记忆。模型将多张图片作为输入并理解,把多主体、多特征之间的关系作为上下文进行记忆和关联。Vidu 1.5 支持用户上传1至3张参考图片,并通过模型生成多主体间的交互及主体与场景的无缝融合。


> 在302.AI上使用

【API超市】

为了满足用户的需求,302.AI也接入了Vidu模型。有需要的企业可以通过302.AI的API超市获得这一模型的API,从而快速集成该模型并自行开发产品

以下是在API超市获得Vidu模型的方法:

1、进入302.AI的客户端后,点击“API超市”,在分类中选择“视频生成”,最后点击“Vidu”。

资讯丨首个支持多主体一致性的大模型Vidu 1.5,在302.AI上玩到停不下来!

2、点击“查看文档”进入后,可以看到已经提供了“Vidu”模型的API,并涵盖了不同风格、功能、版本。此外,302.AI的API超市还支持在线调试,开发者可以直接对API进行实时测试和调试,大大节省时间和精力。

资讯丨首个支持多主体一致性的大模型Vidu 1.5,在302.AI上玩到停不下来!

【AI视频生成器】

用户还可以通过302.AI的AI视频生成器直接使用这一模型。302.AI提供按需付费的服务方式,无需订阅,无月费捆绑套餐,更加灵活。

目前,302.AI的AI视频生成器已经开源,用户可以根据需求对这一工具进行二次开发。

开源链接:https://github.com/302ai/302_video_generator/blob/main/README_zh.md

以下是通过302.AI的AI视频生成器使用Vidu模型的详细步骤:

1、创建工具:登录302.AI客户端后,在页面上方的菜单栏中点击“工具超市”,在分类中选择“视频相关”,最后点击“AI视频生成器”。

资讯丨首个支持多主体一致性的大模型Vidu 1.5,在302.AI上玩到停不下来!

2、选择模型:进入工具后,首先我们可以看到302.AI的AI视频生成器提供了多种视频模型,我们这里选择的视频模型是“Vidu”。

资讯丨首个支持多主体一致性的大模型Vidu 1.5,在302.AI上玩到停不下来!

3、选择视频类型:选择完模型后,我们需要选择视频类型,视频类型分为以下三种:

(1)通用:和一般的视频模型相似,可以输入一段文本,生成视频,也可以输入首帧和尾帧图片以及对应的文本描述生成视频;此外,这一视频类型支持通用风格以及动漫风格

(2)参考主体生成视频:包含单主体和多主体生成,单主体即是上传单个主体不同角度的图片,多主体则是上传人、物、景等不同主体的图片,融合生成视频。

(3)生成场景特效视频:这一视频类型是可以上传图片后结合场景效果使用的,比如提供的场景效果有:拥抱、亲吻、圣诞老人送礼等。

今天给大家展示的是多主体生成效果,所以我们选择的风格类型是”参考主体生成视频

资讯丨首个支持多主体一致性的大模型Vidu 1.5,在302.AI上玩到停不下来!

4、上传图片并输入提示词:接下来需要上传三张不同主体的照片作为参考,并输入提示词,然后选择视频时长以及分辨率,最后点击“生成视频”,选择视频比例后等待页面右侧生成视频效果。

参考提示词:一个男人手里拿着茶杯喝茶,坐在客厅的沙发上,镜头拉近

(这里亲测按照人+物+景的顺序上传,视频生成效果会更好)

资讯丨首个支持多主体一致性的大模型Vidu 1.5,在302.AI上玩到停不下来!

5、进一步操作视频:生成后的视频可以进一步操作,比如给视频配音、调整视频分辨率、调整比例、下载等。

资讯丨首个支持多主体一致性的大模型Vidu 1.5,在302.AI上玩到停不下来!

> 效果展示

下面来看下生成的效果:

(以下主体参考图片以及视频均由302.AI生成)

效果一:多主体生成

主体参考照片:

资讯丨首个支持多主体一致性的大模型Vidu 1.5,在302.AI上玩到停不下来!

视频生成效果:

效果二:场景特效生成

资讯丨首个支持多主体一致性的大模型Vidu 1.5,在302.AI上玩到停不下来!

主体参考照片:

资讯丨首个支持多主体一致性的大模型Vidu 1.5,在302.AI上玩到停不下来!

视频生成效果:

> 总结

Vidu 1.5版本除了在多主体一致性方面的突破,根据官方介绍,其在生成质量、语义理解等方面也都有了提升。这些改进使得Vidu 1.5的应用场景更加广泛。具体来说,Vidu 1.5能够支持包括社交媒体互动玩法的双人拥抱、与圣诞老人拥抱等多种有趣效果的生成。这种功能不仅增强了用户在社交平台上的互动体验,同时也带来了更多创新的表达方式。此外,Vidu 1.5还适用于虚拟IP的日常互动宣传内容制作等。

尽管Vidu 1.5在多个方面取得了进展,AI视频模型的市场竞争依然非常激烈。各大公司和团队都在不断努力推出更加先进的技术和应用,以满足用户需求并引领行业发展。我们或许可以期待在视频生成领域能够见证更多创新性的突破!


👉立即注册免费试用302.AI,开启你的AI之旅!👈

为什么选择302.AI?

● 灵活付费:无需月费,按需付费,成本可控
● 丰富功能:从文字、图片到视频,应有尽有,满足多种场景需求
● 开源生态:支持开发者深度定制,打造专属AI应用
● 易用性:界面友好,操作简单,快速上手

资讯丨首个支持多主体一致性的大模型Vidu 1.5,在302.AI上玩到停不下来!
All Rights Reserved by 302.AI
Like (0)
302.AI302.AI
Previous 2024 年 12 月 18 日 下午7:07
Next 2024 年 12 月 23 日 下午6:59

相关推荐

  • 302.AI 基准实验室丨最新国产视频模型实测对比:Kling 2.0 vs. Vidu Q1

    4月,可灵(Kling)AI 推出了视频模型 2.0 版本。与此前版本相比,Kling 2.0 拥有更强的语义响应、更优的动态质量和更好的画面美学。 同月,生数科技正式发布新一代视频大模型 Vidu Q1 。据官方宣称,Vidu Q1 在生成逼真度、美学质量、对象/场景生成精准度以及视频语义一致性等方面均展现出令人惊叹的效果。 为了让用户能更直观地了解这两款…

    2025 年 5 月 15 日 基准实验室
    1231
  • 302.AI 基准实验室 | 四大场景对比Gen-4 vs. Kling-1.6图生视频效果,这次谁破防了?!

    4月1日,Runway 推出了新视频模型:Gen-4。 据官方介绍,Gen-4 与上一版本 Gen-3 Alpha 模型相比有显著改进。它能够生成具有逼真动作的高度动态视频,并且主题、对象和风格一致,具有出色的即时一致性和一流的世界理解能力。 4月8日,Runway再次宣布推出新版本 :Gen-4 Turbo。官方称Gen-4 Turbo是其迄今为止最强大的…

    2025 年 4 月 10 日 基准实验室
    2161
  • 302.AI 新品发布 | 视频竞技场:模型PK+视频生成,打造AI视频新玩法

    当AI视频模型同台竞技,谁将获得最终胜利? 目前,AI视频生成领域涌现出越来越多的新模型,作为使用者是不是常常会面临这样的困惑:“哪个视频模型最符合我的需求?哪个模型的效果更佳?” 为了帮助用户解开这些疑惑,302.AI最新推出了一款工具:视频竞技场。这是一个集成了多种功能的竞技场,用户不仅能够在视频竞技场进行AI模型视频生成能力的比拼,还可以根据自己的需求…

    2025 年 3 月 29 日 新品发布
    1760
  • 302.AI 基准实验室 | 通义万相2.1模型实测绝了!汉字竟在视频里“活”了

    继豆包图像模型攻克汉字生成的难题后,国内AI视频生成领域在中文生成方面再次来了新突破! 今年年初,阿里云推出了全新升级的的视频生成模型——通义万相2.1。据了解,这是⌈ 首个具备中文文字生成能力的视频生成模型 ⌋ 。 通义万相2.1视频模型一经推出,便以 84.70% 总分登顶权威评测榜单VBench榜首。除了中文文字生成的创新,该模型在复杂运动、大幅度动作…

    2025 年 2 月 21 日 基准实验室
    7860

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注