资讯丨首个支持多主体一致性的大模型Vidu 1.5,在302.AI上玩到停不下来!

11中旬,生数科技推出了最新AI视频生成模型Vidu 1.5版本,并声称这一版本模型为“全球首个支持多主体一致性的大模型”。

先简单理解下多主体一致性的意思,多主体一致性即多个主体如人物、物体、场景等,在不同场景、不同镜头下的形象、特征和行为都是连贯和一致的。更简单地说,就是视频里的每个角色或物体在不同时间和不同地点都能保持他们的特征和行为,使得整个视频看起来流畅自然,没有突兀的变化。

据了解,Vidu 1.5的多主体参考实是一种上下文记忆。模型将多张图片作为输入并理解,把多主体、多特征之间的关系作为上下文进行记忆和关联。Vidu 1.5 支持用户上传1至3张参考图片,并通过模型生成多主体间的交互及主体与场景的无缝融合。

> 在302.AI上使用

【API超市】

为了满足用户的需求,302.AI也接入了Vidu模型。有需要的企业可以通过302.AI的API超市获得这一模型的API,从而快速集成该模型并自行开发产品

以下是在API超市获得Vidu模型的方法:

1、进入302.AI的客户端后,点击“API超市”,在分类中选择“视频生成”,最后点击“Vidu”。

资讯丨首个支持多主体一致性的大模型Vidu 1.5,在302.AI上玩到停不下来!

2、点击“查看文档”进入后,可以看到已经提供了“Vidu”模型的API,并涵盖了不同风格、功能、版本。此外,302.AI的API超市还支持在线调试,开发者可以直接对API进行实时测试和调试,大大节省时间和精力。

资讯丨首个支持多主体一致性的大模型Vidu 1.5,在302.AI上玩到停不下来!

【AI视频生成器】

用户还可以通过302.AI的AI视频生成器直接使用这一模型。302.AI提供按需付费的服务方式,无需订阅,无月费捆绑套餐,更加灵活。

目前,302.AI的AI视频生成器已经开源,用户可以根据需求对这一工具进行二次开发。

开源链接:https://github.com/302ai/302_video_generator/blob/main/README_zh.md

以下是通过302.AI的AI视频生成器使用Vidu模型的详细步骤:

1、创建工具:登录302.AI客户端后,在页面上方的菜单栏中点击“工具超市”,在分类中选择“视频相关”,最后点击“AI视频生成器”。

资讯丨首个支持多主体一致性的大模型Vidu 1.5,在302.AI上玩到停不下来!

2、选择模型:进入工具后,首先我们可以看到302.AI的AI视频生成器提供了多种视频模型,我们这里选择的视频模型是“Vidu”。

资讯丨首个支持多主体一致性的大模型Vidu 1.5,在302.AI上玩到停不下来!

3、选择视频类型:选择完模型后,我们需要选择视频类型,视频类型分为以下三种:

(1)通用:和一般的视频模型相似,可以输入一段文本,生成视频,也可以输入首帧和尾帧图片以及对应的文本描述生成视频;此外,这一视频类型支持通用风格以及动漫风格

(2)参考主体生成视频:包含单主体和多主体生成,单主体即是上传单个主体不同角度的图片,多主体则是上传人、物、景等不同主体的图片,融合生成视频。

(3)生成场景特效视频:这一视频类型是可以上传图片后结合场景效果使用的,比如提供的场景效果有:拥抱、亲吻、圣诞老人送礼等。

今天给大家展示的是多主体生成效果,所以我们选择的风格类型是”参考主体生成视频

资讯丨首个支持多主体一致性的大模型Vidu 1.5,在302.AI上玩到停不下来!

4、上传图片并输入提示词:接下来需要上传三张不同主体的照片作为参考,并输入提示词,然后选择视频时长以及分辨率,最后点击“生成视频”,选择视频比例后等待页面右侧生成视频效果。

参考提示词:一个男人手里拿着茶杯喝茶,坐在客厅的沙发上,镜头拉近

(这里亲测按照人+物+景的顺序上传,视频生成效果会更好)

资讯丨首个支持多主体一致性的大模型Vidu 1.5,在302.AI上玩到停不下来!

5、进一步操作视频:生成后的视频可以进一步操作,比如给视频配音、调整视频分辨率、调整比例、下载等。

资讯丨首个支持多主体一致性的大模型Vidu 1.5,在302.AI上玩到停不下来!

> 效果展示

下面来看下生成的效果:

(以下主体参考图片以及视频均由302.AI生成)

效果一:多主体生成

主体参考照片:

资讯丨首个支持多主体一致性的大模型Vidu 1.5,在302.AI上玩到停不下来!

视频生成效果:

效果二:场景特效生成

资讯丨首个支持多主体一致性的大模型Vidu 1.5,在302.AI上玩到停不下来!

主体参考照片:

资讯丨首个支持多主体一致性的大模型Vidu 1.5,在302.AI上玩到停不下来!

视频生成效果:

> 总结

Vidu 1.5版本除了在多主体一致性方面的突破,根据官方介绍,其在生成质量、语义理解等方面也都有了提升。这些改进使得Vidu 1.5的应用场景更加广泛。具体来说,Vidu 1.5能够支持包括社交媒体互动玩法的双人拥抱、与圣诞老人拥抱等多种有趣效果的生成。这种功能不仅增强了用户在社交平台上的互动体验,同时也带来了更多创新的表达方式。此外,Vidu 1.5还适用于虚拟IP的日常互动宣传内容制作等。

尽管Vidu 1.5在多个方面取得了进展,AI视频模型的市场竞争依然非常激烈。各大公司和团队都在不断努力推出更加先进的技术和应用,以满足用户需求并引领行业发展。我们或许可以期待在视频生成领域能够见证更多创新性的突破!

Like (0)
302.AI302.AI
Previous 3天前
Next 2024 年 11 月 28 日 下午7:49

相关推荐

  • 英伟达微调Llama3很强?来302竞技场跑跑分!

    10月17日,英伟达(Nvidia)开源了微调后的Llama3.1——Llama-3.1-Nemotron-70B-Instruct。 Llama-3.1-Nemotron-70B-Instruct 是 NVIDIA 使用私有数据集微调后的Llama3.1,旨在提高 LLM 生成的响应对用户查询的帮助性。 根据官方Tech Report,Llama-3.1-…

    2024 年 10 月 22 日
    16900
  • OpenAI更新模型ChatGPT-4o-latest,与GPT-4o对比不同在哪里?

    8月12日,ChatGPT官方账号在社交媒体平台发文称ChatGPT推出了新的GPT-4o模型,但同时也明确,这次推出的GPT-4o模型是对GPT-4o的改进,而不是新的前沿模型。而且,ChatGPT官方表示这次的更新“难以明确说明”。 然而,这一最新的模型ChatGPT-4o-latest在LMSYS的LLM竞技场排行榜中,已经以1314的综合分数超越曾经…

    2024 年 8 月 20 日
    22600
  • 资讯丨OpenAI发布GPT-4o更新版本,竟能轻松拿捏《再见爱人4》经典语录?

    上周,OpenAI公司发布了GPT-4o的更新版本GPT-4o-2024-11-20。这一更新全面提升了模型的创意写作水平、让写作更加自然、引人入胜且量身定制,以提高相关性和可读性。此外,它还可以更好地处理上传的文件,提供更深入的见解和更全面的响应。 GPT-4o-2024-11-20具有128K个tokens 的上下文窗口,输入价格为每百万tokens 2…

    2024 年 11 月 25 日
    18700
  • AI PPT工具一键搞定PPT,帮你缓解职场”PPT恐惧症”

    在8月底的《脱口秀和Ta的朋友们》节目中,脱口秀演员赵晓卉的淘汰发言再次出圈,表现甚至比她在脱口秀比赛中的表现更为精彩,被观众称为“淘汰感言区的统治王者” ,在短短几分钟的淘汰感言中接连涌现出的金句,令人印象深刻: “上过班的人,都不会想做 PPT” “我对PPT已经 PPTSD 了” “昨天赢不了PPT、今天交不了 PPT” …… …

    2024 年 9 月 24 日
    22400
  • Luma AI——引领AI行业进入高质量视频内容

    时隔不到一年,Luma AI又有新动作!!! Luma AI在当地时间6月12日官宣并发布新模型——Dream Machine。Dream Machine可以在120秒内生成120帧的视频,具备流畅的运动、电影摄影和戏剧效果。 去年11月,Luma AI在Discord服务器上推出了文生3D模型Genie,冲击了AI行业的一大突破口——3D生成。Luma A…

    2024 年 7 月 11 日
    31100

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注