Genmo推出全球最大开源视频生成模型Mochi V1,实测效果到底行不行?

10月22日,Genmo在社交媒体平台发布消息,推出最新的开源视频生成模型 Mochi V1。Mochi V1采用创新的 Asymmetric Diffusion Transformer(AsymmDiT)架构,拥有高达100亿个参数,是迄今为止公开发布的最大视频生成模型。

Genmo推出全球最大开源视频生成模型Mochi V1,实测效果到底行不行?

根据Genmo官方介绍,Mochi V1模型在提示词遵循和动作质量方面表现十分出色:

Mochi V1 能够准确地将文本提示转化为视频内容,确保视频中的角色、场景和动作与用户的文本指令高度一致。同时,Mochi V1在内部测评中,其准确遵循文本指令、高度忠实于用户意图的能力胜过Runway和Luma等模型。

Genmo推出全球最大开源视频生成模型Mochi V1,实测效果到底行不行?

Mochi V1 模型还具有非常出色的运动质量表现,能够做到以每秒 30 帧的速度生成流畅的视频,持续时间长达 5.4 秒,具有高时间连贯性和逼真的运动动态。从官方提供的运动质量Elo评分图中, Mochi V1 的得分基本与Kling持平,胜于Runway和Luma:

Genmo推出全球最大开源视频生成模型Mochi V1,实测效果到底行不行?

说了这么多优点,接下来要说说不足的地方。Genmo在官网关于Mochi V1模型的文章中提到,Mochi V1目前存在一些已知的限制,比如目前版本只能生成480p的视频,在某些极端运动的边缘情况下,还会出现轻微的扭曲和失真。Mochi V1还针对照片写实风格进行了优化,因此在动画内容方面表现不佳。

使用教程

优缺点都说了这么多,不如直接上手试一试实在。虽然Mochi V1模型开源,但文章的一开头也有提到,Mochi V1 拥有高达100亿个参数,如果想要部署调试使用,需要高性能的GPU和大量的内存来训练和运行模型,比较复杂,也需要耗费一定时间,而302.AI给大家提供了一个快捷、方便的优质选择,目前302.AI工具超市的AI视频生成器中已经更新了Mochi V1模型,而且提供按需付费的使用方式,用户能够有效控制成本预算:

Genmo推出全球最大开源视频生成模型Mochi V1,实测效果到底行不行?

302.AI的AI视频生成器为用户提供了丰富的视频模型选择,包括Luma、Kling、Runway、智谱、Minimax、Mochi V1等热门最新模型,用户可以根据自身需求选择合适的模型,而且302.AI的AI视频生成器操作界面十分简洁,即使是小白也能轻松上手使用。

Genmo推出全球最大开源视频生成模型Mochi V1,实测效果到底行不行?

选择好Mochi V1模型后,只需在视频内容输入框中键入文字,点击【生成视频】按钮,等待片刻后就可以在页面右侧看到生成的视频。

Genmo推出全球最大开源视频生成模型Mochi V1,实测效果到底行不行?

实测案例

接下来,按照以上使用教程分别选择Runway和Mochi V1模型,用同样的提示词生成长度为5秒的视频,对比两个模型的文生视频效果:

首先,这一提示词的信息内容非常多,从生成的视频效果来看,明显Runway更优、整体画面更加流畅,Mochi V1生成的视频中,仔细看会发现,在镜头上移的时候,人物的手部动作出现了几帧的卡顿扭曲现象,而且人物走路姿态略显僵硬,看起来有种不自然的机械感。

Genmo推出全球最大开源视频生成模型Mochi V1,实测效果到底行不行?

再来看看物体运动方面的效果,对比后是Mochi V1生成的视频更优。Runway生成的视频整体画面色彩很好看,但是却脱离了提示词。提示词描述的是汽车加速行驶,轮胎扬起尘土,但Runway生成的视频中汽车加速行驶并不明显,视频的镜头也并不是跟随汽车移动,而Mochi V1生成的视频效果相对更好,不仅汽车行驶时候扬起的尘土等细节都有实现,而且这些细节都符合现实世界的物理规律的,整个视频画面也非常连贯:

Genmo推出全球最大开源视频生成模型Mochi V1,实测效果到底行不行?

除此之外,也有翻车严重的情况,例如在人物脸部特写环节,仅仅一个简单的眨眼动作,Mochi V1生成的视频中出现了人物脸部明显的扭曲情况,这与Runway生成的视频对比更加突出:

Genmo推出全球最大开源视频生成模型Mochi V1,实测效果到底行不行?

总结:通过简单的实测对比可以看到,Mochi V1模型在人物动作生成方面还是存在比较明显的不足,但是一些运动场景、运动镜头中的表现比较不错。同时,在对比以上实测视频后,可以看到Mochi V1模型在480P分辨率下生成的视频与Runway相比,在画质上存在明显的劣势。

API调用

按照惯例,这次上新的Mochi V1模型,在302.AI的API超市也更新了,302.AI API超市提供的在线调试的功能,给开发者提供了一个强大、便捷、高效的开发环境,使得视频生成模型的集成和应用变得更加简单和快捷。

Genmo推出全球最大开源视频生成模型Mochi V1,实测效果到底行不行?

Genmo推出全球最大开源视频生成模型Mochi V1,实测效果到底行不行?

总结

Mochi V1模型使用的AsymmDiT架构,旨在通过轻量化文本处理和动态视觉生成,最大化计算资源的利用,专注于提升视觉细节和时间一致性。这一架构的出现,让更多用户看到了开源视频生成模型的在技术上的创新,尽管我们通过实测发现Mochi V1模型还没完全达到官方宣传的效果,但是就目前来看,Mochi V1模型只是Genmo在视频生成领域的开端,据Genmo公司透露,他们计划在不久的将来推出Mochi 1 HD版本,该版本将支持720P的高清视频生成,或许我们一起期待下!

Like (0)
302.AI302.AI
Previous 2024 年 10 月 25 日 下午7:29
Next 2024 年 10 月 29 日 下午6:08

相关推荐

  • 告别繁琐配置,来302.AI一键部署GraphRAG

    您是否遇到过这样的问题?大语言模型回答答非所问,或者直接在胡说八道。这种情况一般是因为大语言模型产生了幻觉。在开发和实际应用中,幻觉问题是一个常见且严重的问题,因为幻觉的存在,会导致回答的可信度大大降低。 幻觉出现的原因通常是模型对于某些特定领域或最新信息缺乏了解的情况下,而RAG(Retrieval-Augmented Generation)技术通过结合检…

    2024 年 10 月 23 日
    43200
  • 资讯丨只需简单几步就能用Suno v4定制专属圣诞歌曲,快来302一键打造节日氛围!

    十一月下旬,Suno在社交媒体平台官宣推出第四代AI音乐生成模型Suno v4。与之前的版本相比,Suno v4提供更优质的音效、更清晰的歌词和更具动感的歌曲结构。 据官方介绍,Suno v4带来了一系列的创新和升级,比如引入了ReMiAI歌词助手,旨在帮助用户创作更具创意的歌词并提升歌曲创作水平。除此之外,还在封面艺术方面,带来了更具创意、更引人注目的设计…

    2024 年 12 月 13 日
    32200
  • 场景图生成工具的平替选择,超越Magnific的创意可能

    真的太卷了!Magnific AI居然推出了新功能! 2023年年末,一家名为Magnific AI的初创公司带着图像增强工具横空出世,仅半年后,Magnific AI的创始人宣布新功能“Relight ”。 根据相关资料,Magnific AI公司由两位创始人Javi Lopez 和 Emilio Nicolás 组成,于2023 年11月创立。Magni…

    2024 年 7 月 12 日
    35200
  • 资讯丨教育行业AI应用的最佳实践——AI答题机

    AI教育浪潮已经到来,但许多教育工作者还在观望:怎么用?从哪开始? 我们的答案是这个最新制作的工具:AI答题机 —— 一个真实可落地的教育AI应用。它不只是一个demo,而是经过实战检验的最佳实践。简单,但够用;基础,但有效。 区别于普通对话机器人,本工具专注解题场景,配备习题管理系统,让习题解答更简单高效。 界面展示: (以下展示的界面为移动端) 302.…

    2025 年 1 月 21 日
    27000
  • Claude新功能?小白如何体验交互式写编程?

    Anthropic公司在今年3月发布了新模型Claude 3后,同样在今年的6月21日又再次官宣上新Claude 3.5 Sonnet模型,这中间仅仅隔了三个月左右的时间! 但是就今天的主角并不是Claude 3.5 Sonnet,而是与Claude 3.5 Sonnet一同官宣推出的新功能——Artifacts。 Anthropic PBC,是一家美国的人…

    2024 年 7 月 12 日
    46600

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注