Genmo推出全球最大开源视频生成模型Mochi V1,实测效果到底行不行?

10月22日,Genmo在社交媒体平台发布消息,推出最新的开源视频生成模型 Mochi V1。Mochi V1采用创新的 Asymmetric Diffusion Transformer(AsymmDiT)架构,拥有高达100亿个参数,是迄今为止公开发布的最大视频生成模型。

Genmo推出全球最大开源视频生成模型Mochi V1,实测效果到底行不行?

根据Genmo官方介绍,Mochi V1模型在提示词遵循和动作质量方面表现十分出色:

Mochi V1 能够准确地将文本提示转化为视频内容,确保视频中的角色、场景和动作与用户的文本指令高度一致。同时,Mochi V1在内部测评中,其准确遵循文本指令、高度忠实于用户意图的能力胜过Runway和Luma等模型。

Genmo推出全球最大开源视频生成模型Mochi V1,实测效果到底行不行?

Mochi V1 模型还具有非常出色的运动质量表现,能够做到以每秒 30 帧的速度生成流畅的视频,持续时间长达 5.4 秒,具有高时间连贯性和逼真的运动动态。从官方提供的运动质量Elo评分图中, Mochi V1 的得分基本与Kling持平,胜于Runway和Luma:

Genmo推出全球最大开源视频生成模型Mochi V1,实测效果到底行不行?

说了这么多优点,接下来要说说不足的地方。Genmo在官网关于Mochi V1模型的文章中提到,Mochi V1目前存在一些已知的限制,比如目前版本只能生成480p的视频,在某些极端运动的边缘情况下,还会出现轻微的扭曲和失真。Mochi V1还针对照片写实风格进行了优化,因此在动画内容方面表现不佳。

使用教程

优缺点都说了这么多,不如直接上手试一试实在。虽然Mochi V1模型开源,但文章的一开头也有提到,Mochi V1 拥有高达100亿个参数,如果想要部署调试使用,需要高性能的GPU和大量的内存来训练和运行模型,比较复杂,也需要耗费一定时间,而302.AI给大家提供了一个快捷、方便的优质选择,目前302.AI工具超市的AI视频生成器中已经更新了Mochi V1模型,而且提供按需付费的使用方式,用户能够有效控制成本预算:

Genmo推出全球最大开源视频生成模型Mochi V1,实测效果到底行不行?

302.AI的AI视频生成器为用户提供了丰富的视频模型选择,包括Luma、Kling、Runway、智谱、Minimax、Mochi V1等热门最新模型,用户可以根据自身需求选择合适的模型,而且302.AI的AI视频生成器操作界面十分简洁,即使是小白也能轻松上手使用。

Genmo推出全球最大开源视频生成模型Mochi V1,实测效果到底行不行?

选择好Mochi V1模型后,只需在视频内容输入框中键入文字,点击【生成视频】按钮,等待片刻后就可以在页面右侧看到生成的视频。

Genmo推出全球最大开源视频生成模型Mochi V1,实测效果到底行不行?

实测案例

接下来,按照以上使用教程分别选择Runway和Mochi V1模型,用同样的提示词生成长度为5秒的视频,对比两个模型的文生视频效果:

首先,这一提示词的信息内容非常多,从生成的视频效果来看,明显Runway更优、整体画面更加流畅,Mochi V1生成的视频中,仔细看会发现,在镜头上移的时候,人物的手部动作出现了几帧的卡顿扭曲现象,而且人物走路姿态略显僵硬,看起来有种不自然的机械感。

Genmo推出全球最大开源视频生成模型Mochi V1,实测效果到底行不行?

再来看看物体运动方面的效果,对比后是Mochi V1生成的视频更优。Runway生成的视频整体画面色彩很好看,但是却脱离了提示词。提示词描述的是汽车加速行驶,轮胎扬起尘土,但Runway生成的视频中汽车加速行驶并不明显,视频的镜头也并不是跟随汽车移动,而Mochi V1生成的视频效果相对更好,不仅汽车行驶时候扬起的尘土等细节都有实现,而且这些细节都符合现实世界的物理规律的,整个视频画面也非常连贯:

Genmo推出全球最大开源视频生成模型Mochi V1,实测效果到底行不行?

除此之外,也有翻车严重的情况,例如在人物脸部特写环节,仅仅一个简单的眨眼动作,Mochi V1生成的视频中出现了人物脸部明显的扭曲情况,这与Runway生成的视频对比更加突出:

Genmo推出全球最大开源视频生成模型Mochi V1,实测效果到底行不行?

总结:通过简单的实测对比可以看到,Mochi V1模型在人物动作生成方面还是存在比较明显的不足,但是一些运动场景、运动镜头中的表现比较不错。同时,在对比以上实测视频后,可以看到Mochi V1模型在480P分辨率下生成的视频与Runway相比,在画质上存在明显的劣势。

API调用

按照惯例,这次上新的Mochi V1模型,在302.AI的API超市也更新了,302.AI API超市提供的在线调试的功能,给开发者提供了一个强大、便捷、高效的开发环境,使得视频生成模型的集成和应用变得更加简单和快捷。

Genmo推出全球最大开源视频生成模型Mochi V1,实测效果到底行不行?

Genmo推出全球最大开源视频生成模型Mochi V1,实测效果到底行不行?

总结

Mochi V1模型使用的AsymmDiT架构,旨在通过轻量化文本处理和动态视觉生成,最大化计算资源的利用,专注于提升视觉细节和时间一致性。这一架构的出现,让更多用户看到了开源视频生成模型的在技术上的创新,尽管我们通过实测发现Mochi V1模型还没完全达到官方宣传的效果,但是就目前来看,Mochi V1模型只是Genmo在视频生成领域的开端,据Genmo公司透露,他们计划在不久的将来推出Mochi 1 HD版本,该版本将支持720P的高清视频生成,或许我们一起期待下!

All Rights Reserved by 302.AI
Like (0)
302.AI302.AI
Previous 2024 年 10 月 25 日 下午7:29
Next 2024 年 10 月 29 日 下午6:08

相关推荐

  • 资讯丨FLUX 1.1 Pro推出Ultra模式,来302.AI实测揭秘真实效果

    11月6日,BlackForestLabs宣布推出FLUX1.1 pro的Ultra模式,添加了新的高分辨率功能,还增加了一个RAW参数,这一参数提升了生成图片的拟真度,让生成的图片摆脱了“AI味”,为用户带来了新的视觉体验。 据官网介绍,FLUX 1.1 Pro Ultra支持高达4兆像素(4MP)的图像生成,这是标准模式的四倍。这一提升使得生成的图像更加…

    2024 年 11 月 11 日 AI资讯
    6030
  • 资讯丨xAI官宣Grok API开启公测,唯一模型grok-beta表现能否达到预期?

    11月6日,备受瞩目的2024年美国总统选举结果终于揭晓,马斯克公开支持的美国共和党总统候选人特朗普获得最终胜利。 作为特朗普的“榜一大哥”马斯克,是人工智能初创公司xAI的始人之一和主要投资者。在11月4日,xAI刚刚官宣Grok API正式开启公测。 根据xAI公司官方发布的文档,可以看到xAI的API目前只有一个模型——“grok-beta”。 从官方…

    2024 年 11 月 8 日 AI资讯
    3120
  • 资讯丨302.AI已支持Anthropic最新模型Claude 3.5 Haiku,与其他模型对比表现如何?

    11月5日,Anthropic在社交媒体平台宣布Claude 3.5 Haiku可以通过API访问。Claude 3.5 Haiku是Anthropic公司在10月22日发布的新模型,在许多评估中的性能与 Claude 3 Opus不相上下,而成本和速度却与上一代Haiku相当。 根据官方介绍,Claude 3.5 Haiku 在各种编码、工具使用和推理任务…

    2024 年 11 月 6 日 AI资讯
    4220
  • Stable Diffusion 3.5 VS Flux.1 dev,谁才是开源图像生成模型的王者?

    10月22日,Stability AI推出最新图像生成模型Stable Diffusion 3.5,其中包括Stable Diffusion 3.5 Large、Stable Diffusion 3.5 Large Turbo两个版本,并宣布预计在10月29日上线Medium版本。 10月29日,Stable Diffusion 3.5 Medium如期推出…

    2024 年 11 月 5 日 AI资讯
    1.1K0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注