资讯丨首个支持多主体一致性的大模型Vidu 1.5,在302.AI上玩到停不下来!

11中旬,生数科技推出了最新AI视频生成模型Vidu 1.5版本,并声称这一版本模型为“全球首个支持多主体一致性的大模型”。

先简单理解下多主体一致性的意思,多主体一致性即多个主体如人物、物体、场景等,在不同场景、不同镜头下的形象、特征和行为都是连贯和一致的。更简单地说,就是视频里的每个角色或物体在不同时间和不同地点都能保持他们的特征和行为,使得整个视频看起来流畅自然,没有突兀的变化。

据了解,Vidu 1.5的多主体参考实是一种上下文记忆。模型将多张图片作为输入并理解,把多主体、多特征之间的关系作为上下文进行记忆和关联。Vidu 1.5 支持用户上传1至3张参考图片,并通过模型生成多主体间的交互及主体与场景的无缝融合。

> 在302.AI上使用

【API超市】

为了满足用户的需求,302.AI也接入了Vidu模型。有需要的企业可以通过302.AI的API超市获得这一模型的API,从而快速集成该模型并自行开发产品

以下是在API超市获得Vidu模型的方法:

1、进入302.AI的客户端后,点击“API超市”,在分类中选择“视频生成”,最后点击“Vidu”。

资讯丨首个支持多主体一致性的大模型Vidu 1.5,在302.AI上玩到停不下来!

2、点击“查看文档”进入后,可以看到已经提供了“Vidu”模型的API,并涵盖了不同风格、功能、版本。此外,302.AI的API超市还支持在线调试,开发者可以直接对API进行实时测试和调试,大大节省时间和精力。

资讯丨首个支持多主体一致性的大模型Vidu 1.5,在302.AI上玩到停不下来!

【AI视频生成器】

用户还可以通过302.AI的AI视频生成器直接使用这一模型。302.AI提供按需付费的服务方式,无需订阅,无月费捆绑套餐,更加灵活。

目前,302.AI的AI视频生成器已经开源,用户可以根据需求对这一工具进行二次开发。

开源链接:https://github.com/302ai/302_video_generator/blob/main/README_zh.md

以下是通过302.AI的AI视频生成器使用Vidu模型的详细步骤:

1、创建工具:登录302.AI客户端后,在页面上方的菜单栏中点击“工具超市”,在分类中选择“视频相关”,最后点击“AI视频生成器”。

资讯丨首个支持多主体一致性的大模型Vidu 1.5,在302.AI上玩到停不下来!

2、选择模型:进入工具后,首先我们可以看到302.AI的AI视频生成器提供了多种视频模型,我们这里选择的视频模型是“Vidu”。

资讯丨首个支持多主体一致性的大模型Vidu 1.5,在302.AI上玩到停不下来!

3、选择视频类型:选择完模型后,我们需要选择视频类型,视频类型分为以下三种:

(1)通用:和一般的视频模型相似,可以输入一段文本,生成视频,也可以输入首帧和尾帧图片以及对应的文本描述生成视频;此外,这一视频类型支持通用风格以及动漫风格

(2)参考主体生成视频:包含单主体和多主体生成,单主体即是上传单个主体不同角度的图片,多主体则是上传人、物、景等不同主体的图片,融合生成视频。

(3)生成场景特效视频:这一视频类型是可以上传图片后结合场景效果使用的,比如提供的场景效果有:拥抱、亲吻、圣诞老人送礼等。

今天给大家展示的是多主体生成效果,所以我们选择的风格类型是”参考主体生成视频

资讯丨首个支持多主体一致性的大模型Vidu 1.5,在302.AI上玩到停不下来!

4、上传图片并输入提示词:接下来需要上传三张不同主体的照片作为参考,并输入提示词,然后选择视频时长以及分辨率,最后点击“生成视频”,选择视频比例后等待页面右侧生成视频效果。

参考提示词:一个男人手里拿着茶杯喝茶,坐在客厅的沙发上,镜头拉近

(这里亲测按照人+物+景的顺序上传,视频生成效果会更好)

资讯丨首个支持多主体一致性的大模型Vidu 1.5,在302.AI上玩到停不下来!

5、进一步操作视频:生成后的视频可以进一步操作,比如给视频配音、调整视频分辨率、调整比例、下载等。

资讯丨首个支持多主体一致性的大模型Vidu 1.5,在302.AI上玩到停不下来!

> 效果展示

下面来看下生成的效果:

(以下主体参考图片以及视频均由302.AI生成)

效果一:多主体生成

主体参考照片:

资讯丨首个支持多主体一致性的大模型Vidu 1.5,在302.AI上玩到停不下来!

视频生成效果:

效果二:场景特效生成

资讯丨首个支持多主体一致性的大模型Vidu 1.5,在302.AI上玩到停不下来!

主体参考照片:

资讯丨首个支持多主体一致性的大模型Vidu 1.5,在302.AI上玩到停不下来!

视频生成效果:

> 总结

Vidu 1.5版本除了在多主体一致性方面的突破,根据官方介绍,其在生成质量、语义理解等方面也都有了提升。这些改进使得Vidu 1.5的应用场景更加广泛。具体来说,Vidu 1.5能够支持包括社交媒体互动玩法的双人拥抱、与圣诞老人拥抱等多种有趣效果的生成。这种功能不仅增强了用户在社交平台上的互动体验,同时也带来了更多创新的表达方式。此外,Vidu 1.5还适用于虚拟IP的日常互动宣传内容制作等。

尽管Vidu 1.5在多个方面取得了进展,AI视频模型的市场竞争依然非常激烈。各大公司和团队都在不断努力推出更加先进的技术和应用,以满足用户需求并引领行业发展。我们或许可以期待在视频生成领域能够见证更多创新性的突破!

Like (0)
302.AI302.AI
Previous 2024 年 12 月 18 日 下午7:07
Next 2024 年 12 月 23 日 下午6:59

相关推荐

  • 资讯丨302.AI 代码竞技场:大模型编程能力的“超级擂台”

    一个大模型能力强不强,我们常常会从多个维度去评估,其中编程能力是尤为关键的一项。 对于许多用户而言,想要准确测试大模型的代码能力却常常不知道该从何入手,或者不知道选择哪个平台进行测试。 为了帮助用户解决这一问题,302.AI最新上线了一款工具——代码竞技场,这一工具集结了多种先进模型,为用户提供了一个广阔、便捷、易用的代码测试平台。 工具界面展示: 302.…

    2025 年 2 月 19 日
    19000
  • 资讯丨OpenAI发布GPT-4o更新版本,竟能轻松拿捏《再见爱人4》经典语录?

    上周,OpenAI公司发布了GPT-4o的更新版本GPT-4o-2024-11-20。这一更新全面提升了模型的创意写作水平、让写作更加自然、引人入胜且量身定制,以提高相关性和可读性。此外,它还可以更好地处理上传的文件,提供更深入的见解和更全面的响应。 GPT-4o-2024-11-20具有128K个tokens 的上下文窗口,输入价格为每百万tokens 2…

    2024 年 11 月 25 日
    38400
  • 智谱清影AI视频还在内测阶段,背后的模型CogVideoX 突然宣布开源?!

    近日,国外的AI视频生成模型竞争依然在不断升温,国内的AI视频模型赛道也迎来了前所未有的“内卷”潮。 7月26日,智谱清影(Ying)AI视频生成工具正式上线,这款由智谱AI推出的视频生成工具,允许用户通过输入文本描述或上传图片,在大约30秒内生成一段6秒长的视频。 而在8月6日,智谱AI宣布清影背后的视频生成模型——CogVideoX正式开源。 或许很多人…

    2024 年 8 月 12 日
    40400
  • 资讯丨只需简单几步就能用Suno v4定制专属圣诞歌曲,快来302一键打造节日氛围!

    十一月下旬,Suno在社交媒体平台官宣推出第四代AI音乐生成模型Suno v4。与之前的版本相比,Suno v4提供更优质的音效、更清晰的歌词和更具动感的歌曲结构。 据官方介绍,Suno v4带来了一系列的创新和升级,比如引入了ReMiAI歌词助手,旨在帮助用户创作更具创意的歌词并提升歌曲创作水平。除此之外,还在封面艺术方面,带来了更具创意、更引人注目的设计…

    2024 年 12 月 13 日
    34900
  • 中文大模型多模态理解评测,腾讯混元大模型获榜单国内第一

    8月初,中文多模态大模型SuperCLUE-V基准发布8月榜单,其中腾讯混元大模型斩获国内大模型排名第一。 测评涵盖了国内外最具代表性的12个多模态理解大模型,包含4个海外模型和8个国内代表性多模态模型,评估内容包含基础能力和应用能力,以开放式问题对多模态大模型进行评估。其中,腾讯混元大模型Hunyuan-Vision凭借其卓越的多模态基础能力和出色的应用能…

    2024 年 8 月 26 日
    66500

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注