
AI 视频生成的「军备竞赛」再添重磅选手,以图像生成「美学天花板」著称的 Midjourney 正式发布旗下首个视频模型 v1 Video,瞬间点燃行业热情——Twitter/X 相关话题 24 小时内浏览量破亿,技术社区 Hacker News 热榜霸屏超 8 小时,甚至有分析师直言:「这可能是今年最接近‘让普通人用文字拍电影’的一次突破。」
作为 Midjourney 从「静态」向「动态」的关键一跃,v1 Video的技术亮点颇具颠覆性。核心突破在于动态连贯性的底层重构:通过升级「时空注意力机制」,在帧内保持 MJ 标志性的细节锐度,同时通过时序注意力,解决了传统扩散模型易出现的“闪帧”“抖动”问题。官方公开的测试片段为 1024×1024、24fps、最长 8 秒,可循环播放,且对文字提示、参考图、种子号的响应一致性高达 94%,彻底告别早期视频生成中「帧间跳变像PPT」的尴尬。
更值得关注的是其「图像基因」的视频延续性。Midjourney 在图像生成中引以为傲的「光影质感」「风格统一性」被无缝迁移至视频领域:无论是赛博朋克雨夜的霓虹光晕,还是油画风格下的笔触流动,全程保持色彩、肌理、构图的高度一致,甚至支持「一镜到底」的运镜指令(如「从远景缓慢推近至人物面部,保持逆光剪影效果」)。
市场反响已印证其冲击力:发布当日,Discord测试频道涌入超10万用户,#MJvideo 话题浏览量突破 1.2 亿,生成视频中「咖啡拉花过程」「猫咪踩键盘打字」等片段因细节真实度登上热搜;专业创作者发现,模型对「抽象指令」的理解能力显著提升——输入「用宫崎骏风格拍一段‘风穿过麦田带走童年回忆’」,生成视频竟能呈现麦浪起伏与模糊人脸的情绪关联,这种「跨模态语义对齐」能力让不少影视从业者直呼「看到了预演成本的新可能」。
当然,赛道并非 Midjourney 独舞:MiniMax-Hailuo-02(海螺02)模型凭借其「复杂物理场景精准模拟」能力,将创作精度推向新方向,字节跳动的 Seedance-1.0 则以「低门槛中文指令适配」圈粉国内创作者。本次 302.AI 测评将为你揭开 v1 Video 究竟是「行业搅局者」还是「昙花一现的噱头」。
Ⅰ. Midjourney V1 Video模型介绍
1、实测模型价格

2、测评目标&方法:
目标:评估模型在提示词理解能力、美学表现力、一致性保持方面,包括场景、人物、动作、细节,运镜等要素
方法:各案例均使用统一的英文提示词和图片进行生成,展示视频均取第一次生成结果。评测结果仅供参考。
*备注:Midjourney V1 Video 与其生图模式一致,输入一条提示词一次会生成 4 条视频,用户可自由选取最满意的。
2、测评案例
案例1:照镜子系领带的男人
提示词:Generate a video of a young man in a suit, meticulously adjusting his blue tie while looking into a mirror. The video should capture the natural and precise movements of his hands as he ties the knot, with subtle shifts in his facial expression reflecting concentration. Crucially, the mirror reflection must be accurate and consistent with his actions, showing his face and the tie-tying process from a reversed perspective. Ensure the lighting and environment in the reflection accurately match the real-world scene, including the subtle details of the room and any background elements visible in the mirror. The overall effect should be a seamless and believable depiction of a person preparing themselves.
(生成一段视频,展示一位身穿西装的年轻男子,在照镜子时一丝不苟地系着他的蓝色领带。视频需捕捉他打领带时自然而精准的手部动作,以及他脸上因专注而产生的细微表情变化。至关重要的是,镜子里的倒影必须准确且与他的动作保持一致,从反向视角展示他的面部和系领带的过程。请确保镜中光线和环境与真实场景精确匹配,包括房间的细微之处以及镜中可见的任何背景元素。)

Midjourney:(生成4条独立视频;以下形式为后期手动拼接,方便观看)
Seedance-1.0-Pro:
MiniMax-Hailuo-02:

测试小结:3 个模型的出品都基本达到了可直接使用的水准,当年AI的绊脚石:复杂的“手部动作”现在业已完善。MJ的视频有着丰富而生动的表情与动作演绎,视觉观感最好;Seedance 的视频则依旧延续着该模型的显著优点,有着极具真实感的人物肌理,风格一致性保持最佳。Hailuo 则稍显平庸,缺乏亮点。
案例2:淌水的金毛
提示词:Generate a video showcasing a Golden Retriever dog running through shallow water. Focus on the realistic rendering of wet, individual dog hairs, with water droplets clinging to the fur and shaking off dynamically. Emphasize the fluidity and impact of the dog’s motion as it splashes through the water, creating highly detailed water splashes, spray, and ripples. The background should be a natural outdoor environment with trees and grassy terrain, similar to the provided image. The lighting should be bright and natural, highlighting the textures of the fur and water.”
(生成一段视频,展示一只金毛犬在浅水中奔跑。重点在于真实地渲染湿润、分明的狗毛,水滴附着在毛发上并动态地甩落。强调狗狗在水中奔跑时动作的流畅性和冲击力,创造出高度精细的水花、飞溅和涟漪。背景为自然的户外环境,有树木和草地。光线明亮自然,突出毛发和水的质感。)

Midjourney:
Seedance-1.0-Pro:
MiniMax-Hailuo-02:

测试小结:MJ 的视频表现最佳,高速摄影机镜头表现,金毛的动作自然流畅,毛发&水花还原真实,镜头跟随稳定;Seedance 的视频存在明显重复的问题,缺乏生动感;Hailuo 的显著问题是固定镜头机位,并未跟随运动主体导致空镜。
案例3:黑白电影风格的海鸥
提示词:Generate a video that emulates the aesthetic of a vintage black and white film. The scene should feature numerous seagulls in free and natural flight over a dynamic, flowing sea. Crucially, the video must maintain a consistent film grain texture throughout, mimicking the look of analog photography. The movement of the seagulls should be varied and lifelike, with some soaring, some gliding, and others in mid-flap. The sea surface should exhibit realistic, natural undulations and ripples, capturing the movement of water under a slightly overcast sky. The overall mood should be atmospheric and serene, consistent with the provided image.
(生成一段视频,模仿老式黑白电影的美学风格。场景应展示许多海鸥在动态、流动的海面上自由自然地飞翔。至关重要的是,视频必须全程保持一致的胶片颗粒纹理,体现模拟摄影的风格。海鸥的飞行姿态应多样且逼真,有的翱翔,有的滑翔,有的则在拍打翅膀。海面应展现逼真、自然的起伏和涟漪,捕捉阴天海面下的水流动态。整体氛围应是宁静且富有诗意,与提供的图片保持一致。)

Midjourney:
Seedance-1.0-Pro:
MiniMax-Hailuo-02:

测试小结:MJ 的视频仍采用高速摄影机镜头表现,有着明显的镜头推移放大动作,在捕捉跟随画面主体的海鸥,美学表现力强。但是海面表现力最差,缺乏动感,AI 涂抹感也较为明显;Seedance 与 Hailuo 均采用固定机位,客观叙事的场景氛围,而 Seedance 的前中远景以及海面表现更丰富,稍胜一筹。
案例4:火人节的复杂场景
提示词:Generate a video depicting a scene from Burning Man. The central focus should be a massive, humanoid art installation engulfed in intense flames and thick, dark smoke. The fire should be dynamic and realistic, with flickering flames and glowing embers. In the foreground, several people are walking and observing the spectacle. The background should show a crowded desert landscape with other structures and a hazy sky. The video should capture the scale and dramatic intensity of the event, with a sense of movement and activity from both the fire and the people.
(生成一段描绘‘火人节’(Burning Man)场景的视频。核心焦点应是一个巨大的、人形的艺术装置,被强烈的火焰和浓厚的黑烟吞噬。火焰应动态逼真,带有闪烁的火苗和发光的余烬。前景中,几个人正在行走和观赏这一景象。背景应展示拥挤的沙漠景观,包含其他结构和朦胧的天空。视频应捕捉该活动的规模和戏剧性强度,展现火焰和人群的动感与活力。)

Midjourney:
Seedance-1.0-Pro:
MiniMax-Hailuo-02:

测试小结:MJ 的视频 1&2(横向)使用了环绕运动镜头来表现,画面富有动感与立体感,美学表现最佳,但细节人物的动作存在瑕疵。Seedance 与 Hailuo 均采用固定机位,客观叙事的场景氛围,Hailuo 视频出现的碎片激烈飞溅场景与平静观看的人群造成了明显的失真。
Ⅱ.实测总结
实测结果整理:

Midjourney V1 Video测评小结

综合四个测试场景,Midjourney v1 Video 的核心优势可以概括为“两高一稳”:高美学表现、高时空一致性、镜头运用稳健。无论金毛甩水还是环绕人物,模型都善于模拟高速摄影机或轨道环绕镜头,生成流畅的主体动作与富有层次的景深推拉,观感直接拉满。
不足主要体现在复杂背景的动态质感:海面波纹被简化、局部出现涂抹感;环绕镜头下细节人物出现动作失真。虽然这些瑕疵尚未影响整体叙事,但暴露出模型对大面积流体或高速透视畸变的理解仍待加强。
值得肯定的是,v1 Video 延续着Midjourney成本低、上手快,单位质量/价格比在当前 AIGC 视频产品中居于领先。总体而言,v1 Video 已在“可用”层面跨过门槛,并凭借美学调性和性价比,确立了其极具竞争力的头部地位。
III. 如何在 302.AI 上使用:
302.AI 提供按需付费无订阅的服务模式,用户可以根据自身业务需求灵活选择使用。
获得Midjourney视频模型API
相关文档:API→API超市→视频生成→Midjourney→查看文档;

可点击【调试】在线使用模型。

想体验最新视频模型?
👉立即注册免费试用302.AI,开启你的AI之旅!👈
为什么选择302.AI?
● 灵活付费:无需月费,按需付费,成本可控
● 丰富功能:从文字、图片到视频,应有尽有,满足多种场景需求
● 开源生态:支持开发者深度定制,打造专属AI应用
● 易用性:界面友好,操作简单,快速上手
