Genmo推出全球最大开源视频生成模型Mochi V1,实测效果到底行不行?

10月22日,Genmo在社交媒体平台发布消息,推出最新的开源视频生成模型 Mochi V1。Mochi V1采用创新的 Asymmetric Diffusion Transformer(AsymmDiT)架构,拥有高达100亿个参数,是迄今为止公开发布的最大视频生成模型。

Genmo推出全球最大开源视频生成模型Mochi V1,实测效果到底行不行?

根据Genmo官方介绍,Mochi V1模型在提示词遵循和动作质量方面表现十分出色:

Mochi V1 能够准确地将文本提示转化为视频内容,确保视频中的角色、场景和动作与用户的文本指令高度一致。同时,Mochi V1在内部测评中,其准确遵循文本指令、高度忠实于用户意图的能力胜过Runway和Luma等模型。

Genmo推出全球最大开源视频生成模型Mochi V1,实测效果到底行不行?

Mochi V1 模型还具有非常出色的运动质量表现,能够做到以每秒 30 帧的速度生成流畅的视频,持续时间长达 5.4 秒,具有高时间连贯性和逼真的运动动态。从官方提供的运动质量Elo评分图中, Mochi V1 的得分基本与Kling持平,胜于Runway和Luma:

Genmo推出全球最大开源视频生成模型Mochi V1,实测效果到底行不行?

说了这么多优点,接下来要说说不足的地方。Genmo在官网关于Mochi V1模型的文章中提到,Mochi V1目前存在一些已知的限制,比如目前版本只能生成480p的视频,在某些极端运动的边缘情况下,还会出现轻微的扭曲和失真。Mochi V1还针对照片写实风格进行了优化,因此在动画内容方面表现不佳。

使用教程

优缺点都说了这么多,不如直接上手试一试实在。虽然Mochi V1模型开源,但文章的一开头也有提到,Mochi V1 拥有高达100亿个参数,如果想要部署调试使用,需要高性能的GPU和大量的内存来训练和运行模型,比较复杂,也需要耗费一定时间,而302.AI给大家提供了一个快捷、方便的优质选择,目前302.AI工具超市的AI视频生成器中已经更新了Mochi V1模型,而且提供按需付费的使用方式,用户能够有效控制成本预算:

Genmo推出全球最大开源视频生成模型Mochi V1,实测效果到底行不行?

302.AI的AI视频生成器为用户提供了丰富的视频模型选择,包括Luma、Kling、Runway、智谱、Minimax、Mochi V1等热门最新模型,用户可以根据自身需求选择合适的模型,而且302.AI的AI视频生成器操作界面十分简洁,即使是小白也能轻松上手使用。

Genmo推出全球最大开源视频生成模型Mochi V1,实测效果到底行不行?

选择好Mochi V1模型后,只需在视频内容输入框中键入文字,点击【生成视频】按钮,等待片刻后就可以在页面右侧看到生成的视频。

Genmo推出全球最大开源视频生成模型Mochi V1,实测效果到底行不行?

实测案例

接下来,按照以上使用教程分别选择Runway和Mochi V1模型,用同样的提示词生成长度为5秒的视频,对比两个模型的文生视频效果:

首先,这一提示词的信息内容非常多,从生成的视频效果来看,明显Runway更优、整体画面更加流畅,Mochi V1生成的视频中,仔细看会发现,在镜头上移的时候,人物的手部动作出现了几帧的卡顿扭曲现象,而且人物走路姿态略显僵硬,看起来有种不自然的机械感。

Genmo推出全球最大开源视频生成模型Mochi V1,实测效果到底行不行?

再来看看物体运动方面的效果,对比后是Mochi V1生成的视频更优。Runway生成的视频整体画面色彩很好看,但是却脱离了提示词。提示词描述的是汽车加速行驶,轮胎扬起尘土,但Runway生成的视频中汽车加速行驶并不明显,视频的镜头也并不是跟随汽车移动,而Mochi V1生成的视频效果相对更好,不仅汽车行驶时候扬起的尘土等细节都有实现,而且这些细节都符合现实世界的物理规律的,整个视频画面也非常连贯:

Genmo推出全球最大开源视频生成模型Mochi V1,实测效果到底行不行?

除此之外,也有翻车严重的情况,例如在人物脸部特写环节,仅仅一个简单的眨眼动作,Mochi V1生成的视频中出现了人物脸部明显的扭曲情况,这与Runway生成的视频对比更加突出:

Genmo推出全球最大开源视频生成模型Mochi V1,实测效果到底行不行?

总结:通过简单的实测对比可以看到,Mochi V1模型在人物动作生成方面还是存在比较明显的不足,但是一些运动场景、运动镜头中的表现比较不错。同时,在对比以上实测视频后,可以看到Mochi V1模型在480P分辨率下生成的视频与Runway相比,在画质上存在明显的劣势。

API调用

按照惯例,这次上新的Mochi V1模型,在302.AI的API超市也更新了,302.AI API超市提供的在线调试的功能,给开发者提供了一个强大、便捷、高效的开发环境,使得视频生成模型的集成和应用变得更加简单和快捷。

Genmo推出全球最大开源视频生成模型Mochi V1,实测效果到底行不行?

Genmo推出全球最大开源视频生成模型Mochi V1,实测效果到底行不行?

总结

Mochi V1模型使用的AsymmDiT架构,旨在通过轻量化文本处理和动态视觉生成,最大化计算资源的利用,专注于提升视觉细节和时间一致性。这一架构的出现,让更多用户看到了开源视频生成模型的在技术上的创新,尽管我们通过实测发现Mochi V1模型还没完全达到官方宣传的效果,但是就目前来看,Mochi V1模型只是Genmo在视频生成领域的开端,据Genmo公司透露,他们计划在不久的将来推出Mochi 1 HD版本,该版本将支持720P的高清视频生成,或许我们一起期待下!

Like (0)
302.AI302.AI
Previous 2024 年 10 月 25 日 下午7:29
Next 2024 年 10 月 29 日 下午6:08

相关推荐

  • Midjourney新版本v6.1上线,人像逼真细节再升级

    7月的最后一天,Midjourney宣布推出最新版本v6.1,这一消息在创意和技术领域引起了广泛关注。那这一新版本对比前一版本对比有什么不同呢,下面一起来看看。 Midjourney v6.1做了一系列升级: 1、更好的生成一致性(人像的手臂、腿、身体,动植物等题材) 2、更高的图像质量(减少伪影、增强纹理等) 3、更准确、更多细节、更精确理解图像里边的细小…

    2024 年 8 月 5 日
    21100
  • 302.AI带来实时语音便捷方案,让你快速体验AI语音通话

    在10月初,OpenAI在旧金山召开了开发者大会。在发布会中,OpenAI推出了Realtime API 的公开测试版。 Realtime API是一种实时多模态API,它允许开发人员构建低延迟、多模态的AI应用体验。这个API背后的技术是GPT-4o模型,它支持音频输入和输出,能够实现超越传统基于文本的AI对话的实时、自然的语音交互。 像Realtime这…

    2024 年 10 月 31 日
    17800
  • 智谱清影AI视频还在内测阶段,背后的模型CogVideoX 突然宣布开源?!

    近日,国外的AI视频生成模型竞争依然在不断升温,国内的AI视频模型赛道也迎来了前所未有的“内卷”潮。 7月26日,智谱清影(Ying)AI视频生成工具正式上线,这款由智谱AI推出的视频生成工具,允许用户通过输入文本描述或上传图片,在大约30秒内生成一段6秒长的视频。 而在8月6日,智谱AI宣布清影背后的视频生成模型——CogVideoX正式开源。 或许很多人…

    2024 年 8 月 12 日
    15300
  • AI老照片修复功能,不止修复了画面也修复了记忆

    随着AI技术的发展,不断突破着传统界限。许多曾经存在想象中的事情变成了现实,这或许就是科技的意义。 最近看到了一个非常令人感动的文章“他用Luma和Suno复活了逝去11年的爱人,给我看破防了。” (参考原文:https://mp.weixin.qq.com/s/DIkPAA-P9P1AWveAFeNtqA) 原文是这样的,作者在X上看到了一个名为Koya …

    2024 年 7 月 17 日
    20100
  • Runway Gen-3 Alpha图生视频上线,图片转视频只需要一步?!

    7月30日凌晨,Runway官方在社交媒体平台宣布,在6月中旬推出的视频模型Gen-3Alpha正式推出图生视频功能。官方表示,图生视频功能将极大提高了生成视频的艺术控制和一致性。 这一更新允许用户将任何图像用作视频生成的第一帧,可以单独使用,也可以与文本提示一起使用。 简单的说就是,用户上传一张图片可以单独生成一个视频,也可以在上传图片后搭配文字描述,再生…

    2024 年 8 月 2 日
    22200

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注