Genmo推出全球最大开源视频生成模型Mochi V1,实测效果到底行不行?

10月22日,Genmo在社交媒体平台发布消息,推出最新的开源视频生成模型 Mochi V1。Mochi V1采用创新的 Asymmetric Diffusion Transformer(AsymmDiT)架构,拥有高达100亿个参数,是迄今为止公开发布的最大视频生成模型。

Genmo推出全球最大开源视频生成模型Mochi V1,实测效果到底行不行?

根据Genmo官方介绍,Mochi V1模型在提示词遵循和动作质量方面表现十分出色:

Mochi V1 能够准确地将文本提示转化为视频内容,确保视频中的角色、场景和动作与用户的文本指令高度一致。同时,Mochi V1在内部测评中,其准确遵循文本指令、高度忠实于用户意图的能力胜过Runway和Luma等模型。

Genmo推出全球最大开源视频生成模型Mochi V1,实测效果到底行不行?

Mochi V1 模型还具有非常出色的运动质量表现,能够做到以每秒 30 帧的速度生成流畅的视频,持续时间长达 5.4 秒,具有高时间连贯性和逼真的运动动态。从官方提供的运动质量Elo评分图中, Mochi V1 的得分基本与Kling持平,胜于Runway和Luma:

Genmo推出全球最大开源视频生成模型Mochi V1,实测效果到底行不行?

说了这么多优点,接下来要说说不足的地方。Genmo在官网关于Mochi V1模型的文章中提到,Mochi V1目前存在一些已知的限制,比如目前版本只能生成480p的视频,在某些极端运动的边缘情况下,还会出现轻微的扭曲和失真。Mochi V1还针对照片写实风格进行了优化,因此在动画内容方面表现不佳。

使用教程

优缺点都说了这么多,不如直接上手试一试实在。虽然Mochi V1模型开源,但文章的一开头也有提到,Mochi V1 拥有高达100亿个参数,如果想要部署调试使用,需要高性能的GPU和大量的内存来训练和运行模型,比较复杂,也需要耗费一定时间,而302.AI给大家提供了一个快捷、方便的优质选择,目前302.AI工具超市的AI视频生成器中已经更新了Mochi V1模型,而且提供按需付费的使用方式,用户能够有效控制成本预算:

Genmo推出全球最大开源视频生成模型Mochi V1,实测效果到底行不行?

302.AI的AI视频生成器为用户提供了丰富的视频模型选择,包括Luma、Kling、Runway、智谱、Minimax、Mochi V1等热门最新模型,用户可以根据自身需求选择合适的模型,而且302.AI的AI视频生成器操作界面十分简洁,即使是小白也能轻松上手使用。

Genmo推出全球最大开源视频生成模型Mochi V1,实测效果到底行不行?

选择好Mochi V1模型后,只需在视频内容输入框中键入文字,点击【生成视频】按钮,等待片刻后就可以在页面右侧看到生成的视频。

Genmo推出全球最大开源视频生成模型Mochi V1,实测效果到底行不行?

实测案例

接下来,按照以上使用教程分别选择Runway和Mochi V1模型,用同样的提示词生成长度为5秒的视频,对比两个模型的文生视频效果:

首先,这一提示词的信息内容非常多,从生成的视频效果来看,明显Runway更优、整体画面更加流畅,Mochi V1生成的视频中,仔细看会发现,在镜头上移的时候,人物的手部动作出现了几帧的卡顿扭曲现象,而且人物走路姿态略显僵硬,看起来有种不自然的机械感。

Genmo推出全球最大开源视频生成模型Mochi V1,实测效果到底行不行?

再来看看物体运动方面的效果,对比后是Mochi V1生成的视频更优。Runway生成的视频整体画面色彩很好看,但是却脱离了提示词。提示词描述的是汽车加速行驶,轮胎扬起尘土,但Runway生成的视频中汽车加速行驶并不明显,视频的镜头也并不是跟随汽车移动,而Mochi V1生成的视频效果相对更好,不仅汽车行驶时候扬起的尘土等细节都有实现,而且这些细节都符合现实世界的物理规律的,整个视频画面也非常连贯:

Genmo推出全球最大开源视频生成模型Mochi V1,实测效果到底行不行?

除此之外,也有翻车严重的情况,例如在人物脸部特写环节,仅仅一个简单的眨眼动作,Mochi V1生成的视频中出现了人物脸部明显的扭曲情况,这与Runway生成的视频对比更加突出:

Genmo推出全球最大开源视频生成模型Mochi V1,实测效果到底行不行?

总结:通过简单的实测对比可以看到,Mochi V1模型在人物动作生成方面还是存在比较明显的不足,但是一些运动场景、运动镜头中的表现比较不错。同时,在对比以上实测视频后,可以看到Mochi V1模型在480P分辨率下生成的视频与Runway相比,在画质上存在明显的劣势。

API调用

按照惯例,这次上新的Mochi V1模型,在302.AI的API超市也更新了,302.AI API超市提供的在线调试的功能,给开发者提供了一个强大、便捷、高效的开发环境,使得视频生成模型的集成和应用变得更加简单和快捷。

Genmo推出全球最大开源视频生成模型Mochi V1,实测效果到底行不行?

Genmo推出全球最大开源视频生成模型Mochi V1,实测效果到底行不行?

总结

Mochi V1模型使用的AsymmDiT架构,旨在通过轻量化文本处理和动态视觉生成,最大化计算资源的利用,专注于提升视觉细节和时间一致性。这一架构的出现,让更多用户看到了开源视频生成模型的在技术上的创新,尽管我们通过实测发现Mochi V1模型还没完全达到官方宣传的效果,但是就目前来看,Mochi V1模型只是Genmo在视频生成领域的开端,据Genmo公司透露,他们计划在不久的将来推出Mochi 1 HD版本,该版本将支持720P的高清视频生成,或许我们一起期待下!

Like (0)
302.AI302.AI
Previous 2024 年 10 月 25 日 下午7:29
Next 2024 年 10 月 29 日 下午6:08

相关推荐

  • 50美金复刻DeepSeek R1?解密背后真正的故事

    一则新闻 今天猛然看到一则新闻标题,大意是李飞飞团队仅用 50 美金就复刻出了一个媲美 R1 的模型。我的第一反应是「不可能,又是什么标题党」;第二反应是「数据应该不是凭空捏造的,索性求证一下?」 然后,我找到了原始论文《s1: Simple test-time scaling》(https://arxiv.org/pdf/2501.19393)。仔细拜读之…

    2025 年 2 月 7 日
    34300
  • 揭秘神秘“小熊猫”模型,实测对比Recraft V3生成效果

    近日,一个名为red_panda的模型在Hugging Face的文本生成图像模型排行榜中位居榜首, 这引起了许多网友对这一神秘“小熊猫”背后公司身份的种种讨论。 有网友猜测小熊猫会不会是Midjourney的新产物,也有网友猜测可能是来自OpenAI: 甚至有网友猜测,因为熊猫生活在亚洲,而中国公司在视频生成方面表现卓越,所以猜测它来自像百度或腾讯这样的中…

    2024 年 11 月 1 日
    60500
  • 资讯丨Meta AI新模型Llama 3.3 70B推理、编程全面评测,真实表现如何?

    12月6日,Meta AI推出了新开源模型Llama 3.3 70B。Meta AI副总裁Ahmad Al-Dahle在社交媒体平台发布的一篇帖子中表示,这款仅支持文本的Llama 3.3 70B模型与Meta最大型模型Llama 3.1 405B的性能相当,但运行起来更简单、更经济高效。 据了解,Llama 3.3 70B上下文长度为128K,是一款自回归…

    2024 年 12 月 10 日
    19900
  • 资讯丨302.AI自定义模型:支持接入第三方模型API,拓展模型新能力,构建开放生态平台!

    近日,302.AI 带来了重磅更新——自定义模型。自定义模型的推出,是为了给用户打造一个更加开放、便捷、实用的平台。 具体来说,自定义模型这一功能实现了将第三方的模型API接入302.AI(例如OpenRouter,硅基流动等),为第三方模型增加了如下几个优势: 1、快速生成聊天机器人:用户可以根据自身需求接入第三方大模型API,不受限于平台内的资源。整个接…

    2025 年 3 月 17 日
    16500
  • 最近爆火的AI播客工具,302.AI竟然开源了!

    最近,随着NotebookLM的爆火,AI播客生成领域迎来了前所未有的热闹。 AI播客生成的兴起并不是偶然的,在信息爆炸的时代,用户往往会被海量的内容所淹没,很难去有效筛选和吸收有价值的内容,从而导致时间和精力的浪费。 而AI播客的出现改变了这一现状,比如曾经需要用3小时的时间才能通读一篇长论文才能提炼有效的关键信息,现在只需要3分钟,获取信息的过程也不再受…

    2024 年 10 月 29 日
    50100

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注