12 月 16 日,阿里正式发布了新一代万相 Wan 2.6 系列模型,面向专业影视制作和图像创作场景进行了全面升级。全新的 Wan 2.6 是国内首个支持角色扮演功能的视频模型,同时支持音画同步、多镜头生成及声音驱动等功能。

此次升级版本直接对标 Sora2,其核心功能亮点体现在以下几方面:
- 角色扮演:模型能够学习参考视频中角色的外观、神态乃至音色,让同一角色在不同剧本与场景中“稳定出演”,解决了 AI 视频生成中长期存在的角色随机变换、难以延续的核心痛点。
- 智能多镜头叙事:模型可理解复杂文本描述,自动将其分解为包含远景、特写、中景等多个镜头的连贯脚本,并保持镜头间主体、场景的一致性,实现了从“生成单画面”到“执导短片”的跨越。
- 声画同步与长视频生成:支持生成长达 15 秒的 1080P 高清视频,并实现口型、台词与音效的精准同步,能够表现带情感的多人对话甚至歌曲演唱,显著提升叙事的完整度与沉浸感。
其中最值得关注的当属智能多镜头叙事能力。分镜是电影级创作的一个专业标志,恰当处理分镜要求模型在生成的每个镜头中保持画面风格、元素、色调及逻辑的严密一致,极具挑战性。AI 理解了分镜,相当于掌握了影视创作的关键一环——剪辑。不难看出,Wan 系列视频模型从 2.2 的电影级视觉控制,到 2.5 首次实现“音画同步”,再到如今新一轮优化的角色表演与智能分镜叙事,都指向同一进化方向——电影级。
在往期实测文章《Kling Video 2.6:让谷歌“嘴瓢”的中文视频,我不仅说得准,还能演得好!》中,于 12 月初发布的 Kling 2.6 凭借高质量的音画同出能力守住了自己的阵地,那么如今来到万相的 2.6 版本,音效有了,演员有了,甚至连分镜都自动化了,国产 AI 视频的“2.6 时代”已然启幕,一场正面较量不可避免。
话不多说,302.AI 现已接入 Wan 2.6 系列模型 API,死磕电影级创作的 Wan 2.6,与极具竞争力的老对手 Kling 2.6,究竟谁能更胜一筹?我们实测见真章。
I. 实测模型基础信息
(1)各实测模型在 302.AI 的价格:
| 模型名称 | 时长 | 302.AI内的价格 |
| Kling 2.6 | 5s, 10s | 无音频 $0.07/秒 |
| 有音频 $0.14/秒 | ||
| Wan 2.6 | 5s, 10s,15s | 720p $0.1/秒1080p $0.15/秒 |
(2)测评目标:
- 生成质量与真实感:评估各模型在图像生成和图像编辑后的视觉效果,包括提示词遵循、细节表现、以及是否存在伪影或失真等。
- 指令理解与执行准确性:测试模型对文本或图像指令的理解能力,检查编辑结果是否准确反映用户意图。
(3)测评工具:
- 使用 302.AI 的 API 超市→在线调试功能
(4)测评方法:
各案例均使用统一的提示词和图片进行生成,且均取第一次生成结果,评测结果仅供参考。
Ⅱ. 测评案例
案例 1:图生视频-复杂运动
测试点:复杂运动,特定风格,镜头调度,音频质量

提示词:
Cinematic Western scene, medium shot. A young, confident cowboy stands in a dusty Wild West town street under harsh sunlight. He skillfully and rapidly twirls a silver revolver in his hand for several seconds, showing off his dexterity with a cocky smirk. Suddenly, he stops the spin, aims, and fires the gun with a decisive bang and a puff of smoke.
The camera then zooms in quickly to a close-up of his face, capturing a cool, triumphant expression, sweat glistening on his forehead. Cut to a wide shot showing the opponent, another cowboy in the distance, collapsing to the dusty ground in slow motion. The scene has a gritty, high-contrast aesthetic.
(Style: 1990s western movie, film grain, intense atmosphere.)
Audio:Classic Ennio Morricone style western soundtrack, whistling, acoustic guitar strumming, sound of heavy gun spinning mechanical clicks, a loud gunshot echo, body falling on dirt.
翻译:
电影感西部片场景,中景镜头。 一位年轻自信的牛仔站在尘土飞扬的狂野西部小镇街道上,头顶烈日。他带着自信轻蔑的坏笑,熟练且快速地在手中旋转一把银色左轮手枪数秒,炫耀着他的灵巧身手。突然,他停止转枪,瞄准并开火,伴随着干脆利落的枪声和一团烟雾。
镜头随即快速推进至面部特写,捕捉到他冷静、胜利的表情,额头上汗水闪闪发光。切至全景镜头,展示远处的对手——另一名牛仔——以慢动作倒在尘土覆盖的地面上。场景具有粗犷、高对比度的美学风格。
(风格:1990年代西部电影,胶片颗粒感,紧张激烈的氛围。)
音频: 经典的Ennio Morricone风格西部配乐,包含口哨声、原声吉他扫弦、沉重的转枪机械咔哒声、响亮的回声枪响以及身体倒在泥土上的声音。
生成效果:
| 测评点 | Wan 2.6 | 可灵2.6 |
| 动作质量 | ★★ | ★★★ |
| 音频质量 | ★★★ | ★★★★★ |
| 镜头质量 | ★★★ | ★★★★★ |
| 简评 | 可灵2.6胜。核心测试点之一“熟练且快速地在手中旋转一把银色左轮手枪”,Wan呈现了一段猫和老鼠式卡通感的动作,可灵则完全没生成因此扣分;音频上,可灵生成的背景音乐具有典型的老西部风格,开枪,人物倒地的音效也准确真实;镜头方面,可灵完整实现了推拉近景,切换对手倒地的转场镜头,且生成的镜头无论拟真度还是风格还原度上,与参考图高度一致,配得上“电影感”的评价。 | |
案例 2:图生视频-名场面复刻
测试点:主体一致性,人物表情,多人对话,音频质量

提示词:
复刻电影《无间道》在天台对峙的经典场景。
左侧人物: “我以前没得选择,现在我想做一个好人。”
右侧人物: (短暂沉默后,苦笑)“好,跟法官说,看他让不让你做好人。”
生成效果:
| 测评点 | Wan 2.6 | 可灵2.6 |
| 人物表情控制 | ★★★★ | ★★★ |
| 对话音频质量 | ★★★★ | ★★★ |
| 提示词遵循 | ★★★★ | ★★★ |
| 简评 | Wan 2.6胜。两组视频的人物一致性保持效果都尚可,但都未能完全还复刻角色在所处情境下的演技。Wan 2.6胜在人物表情变化更自然,并且除人物对话外还伴有环境音,音频效果明显更佳,可灵2.6后半段似乎自由发挥了陈永仁的动态,人物看向侧面说话,跳出了对话情境。此外背景环境中船只的运动速度,Wan 2.6的处理明显更符合现实。 | |
案例 3:图生视频-产品广告
测试点:主体一致性,智能分镜,文字生成,指令遵循,世界知识

提示词:
A 10-second commercial for the Ricoh GR III HDF camera shown in the picture. Overall Style: Dark, minimalist studio setting with a black background. Cinematic, ultra-realistic 3D rendering. Smooth, slow camera movements. Focus on material textures like matte black metal and textured leather grip. Dramatic key lighting creating sharp highlights and deep shadows. Tech-noir aesthetic.
Shot 1: (0-2s) Start with an extreme close-up, a single sharp rim light glides across the camera’s compact, pocketable silhouette, slow dolly-in.
Shot 2: (2-4s) Then, transition to a macro top-down shot of the mode dial and the green ring on the power button, the camera slowly rotates, the letters “HDF” are in sharp focus.
Shot 3: (4-6s) Then, the camera deconstructs in an exploded view, the visual anchor is the massive APS-C sensor glowing softly in the center, next to the compact GR lens assembly and the new HDF filter module. Shot 4: (6-8s) Then, with an implied “click”, the components instantaneously reassemble; the moment it’s whole, the green power indicator light flashes on.
Shot 5: (8-10s) Finally, the activated camera fades to black, and the white text logo “RICOH” elegantly appears in the center.
翻译:
为图中的理光 GR III HDF 相机生成一段 10s 的产品广告。
整体风格:暗黑极简影棚,纯黑背景。电影级超写实3D渲染,流畅缓慢的运镜。着重表现哑光黑金属与皮革纹理手柄的材质细节。戏剧性主光打造锐利高光与深邃阴影,呈现科技黑色电影美学。
分镜1(0-2秒):
从极致特写开场,一道锋利的轮廓光缓缓滑过相机紧凑的口袋尺寸剪影,摄影机缓慢向前推进。
分镜2(2-4秒):
转场至俯拍微距镜头,对准模式转盘与电源键的绿色圆环。相机缓慢旋转间,“HDF”字符清晰聚焦。
分镜3(4-6秒):
相机以爆炸视图解构,视觉焦点落在中央微微发光的硕大APS-C传感器,旁侧紧凑的GR镜头组件与全新HDF滤镜模块清晰可见。
分镜4(6-8秒):
随着标志性的“咔嗒”声,所有部件瞬间重组完整。在机身合拢刹那,绿色电源指示灯骤亮。
分镜5(8-10秒):
最终,启动的相机渐隐至黑暗,纯白色“RICOH”文字标识优雅浮现在画面中央。
生成效果:
附理光 GR III HDF 机身参考:

| 测评点 | Wan 2.6 | 可灵2.6 |
| 产品一致性 | ★★★★ | ★ |
| 分镜质量 | ★★★★★ | ★★ |
| 提示词遵循 | ★★★★ | ★★ |
| 音频质量 | ★★★★ | ★★★ |
| 简评 | Wan 2.6胜。Wan 2.6肉眼可见地生成了更高质量的广告效果,遵循提示词完整实现了5个分镜,画面、音效与光影协调。展示的机身轮廓较为还原,结尾logo文字也生成准确,细节在于所用字体也神似理光原版logo,唯一不足在于模式转盘上的图标乱码;相比之下可灵则翻车严重,模型未能完成分镜,而是一镜到底的拆解和组装,未能保持机身原貌,最终理光logo也与原版不符。 | |
案例 4:文生视频-中文能力
测试点:人物对话,世界知识
提示词:场景位于摄影棚内,摄影师的POV视角,摄影师手持索尼A7M4,正在为一个时尚品牌拍摄Lookbook.模特为25岁的中国女性,黑色长发,微卷,佩戴浅蓝色的墨镜,穿着具有典型的,山本耀司黑色系宽松衬衫,长裙,点缀有红色的刺绣。摄影师走向这名模特,面对面与她沟通拍摄内容要求,两人使用中文沟通,比如怎么摆造型。画面聚焦在模特的半身,捕捉她在交谈中的动作,笑容。
生成效果:
| 测评点 | Wan 2.6 | 可灵2.6 |
| 人物拟真度 | ★★★ | ★★★★★ |
| 音频质量 | ★★★★ | ★★★ |
| 提示词遵循 | ★★★★ | ★★★★ |
| 简评 | 可灵2.6胜。胜点:1.正确还原了POV视角;2.人物&服装美型,符合提示词要求,画质高清;3.细节上物理更佳,如模特走动时能看到头发会随之抖动;音频上,可灵只生成了模特对白,摄影师对白缺失;但两者的音频能力(对话丰富程度,语气自然度)距离Sora 2还有一定差距。 | |
案例 5:文生视频-镜头调度
测试点:运镜能力,物理运动,音频质量
提示词:
A high-octane Moto GP racing sequence featuring a duel between two elite riders.
[Shot 1] First, a static low-angle shot from the side of the race track, capturing the blurred, high-speed flash of two motorcycles zooming past the camera in a split second.
[Shot 2] The camera cuts to a dynamic medium tracking shot, showing the two riders wheel-to-wheel in a fierce battle, leaning deep into a curve. Both futuristic racing motorcycles are fully visible, sparks flying from their knee sliders grazing the asphalt.
[Shot 3] Finally, a fast FPV drone shot follows them from behind as they accelerate down a long straightaway, speeding off into the distance towards the horizon.
High contrast, motion blur, hyper-realistic 4K broadcast quality, sunny race day.
Audio Prompt
Roaring high-pitched engines of Moto GP bikes screaming past (Doppler effect), the sound of tires screeching on asphalt, wind noise, mechanical gear shifts, cheering crowd in the background, overlaid with high-energy, fast-paced electronic rock sports music.
翻译:
一段充满张力的Moto GP赛车场景,两名顶尖车手正展开激烈对决。
[镜头1] 首先是一个低角度的静态侧拍,从赛道旁捕捉两辆摩托车在瞬间高速飞驰而过的模糊身影。
[镜头2] 紧接着切至动态的中景跟拍镜头,两名车手在弯道中贴身缠斗,车身大幅度倾斜。两辆未来风格的赛车清晰可见,膝部滑块擦过路面,溅起阵阵火星。
[镜头3] 最后以快速的第一视角无人机镜头从后方跟随,拍摄他们沿长直道加速远去,驶向地平线的身影。
画面呈现高对比度、动态模糊效果,采用超真实的4K转播画质,场景设定于晴朗的比赛日。
音频提示:Moto GP赛车呼啸而过的高亢引擎声(伴随多普勒效应)、轮胎摩擦沥青的尖锐声响、风声、机械换挡声、背景中观众的欢呼,并叠加高能量、快节奏的电子摇滚音乐。
生成效果:
| 测评点 | Wan 2.6 | 可灵2.6 |
| 拟真度 | ★★ | ★★★★★ |
| 音频质量 | ★★★★ | ★★★ |
| 镜头质量 | ★★★★ | ★★★ |
| 简评 | 可灵2.6胜,取胜就一点,画面的拟真度完胜。Wan的镜头调度(3组镜头),音频显然更遵循提示词要求(音频生成了高能量、快节奏的背景音乐),但画面拟真度实在太差,明显的3D渲染游戏感。 | |
III. Wan 2.6 视频模型实测结论


在本次与可灵 2.6 的直面对决中,Wan 2.6 的表现可谓喜忧参半。它在画质拟真度上显露出的短板令人遗憾,但在对视频结构、分镜逻辑的理解上,却展现出了超越对手的不俗能力。
- 核心优势:卓越的“导演思维”与分镜执行力
Wan 2.6 最大的惊喜在于它懂电影语言。
智能分镜王者(案例3): 在产品广告测试中,Wan 2.6 展现了统治级的表现。面对复杂的“5个分镜”指令,它没有像竞品那样试图用一个长镜头糊弄过去,而是真正理解了剪辑的概念,完美执行了分镜切换,甚至连片尾 Logo 这种细节都能准确生成。
- 音画协同:更具沉浸感的“氛围营造者”
相比于单纯的对白或音效的生成,Wan 2.6 在环境氛围的构建上更胜一筹。
环境音效丰富(案例2): 它不满足于仅仅让人物说话,而是自动补全了环境音和背景噪音,让视频的听感层次更加丰富。
在镜头调度测试(案例5)中,尽管画面拉胯,但它生成的“高能量、快节奏的背景音乐”精准契合了提示词的情绪要求,证明其多模态理解与生成能力的优秀。
- 致命短板:挥之不去的“游戏感”与“卡通化”
Wan 2.6 目前面临的最大障碍是视觉拟真度(Photorealism)的缺失。
物理动态失真(案例1): 在需要精细物理反馈的“转枪”测试中,它生成的动作呈现出“猫和老鼠式”的卡通感,完全丢失了现实世界的重量感和速度。
质感廉价(案例5): 在文生视频中,一旦涉及复杂场景,其画面往往会退化为“3D渲染游戏感”,缺乏真实摄影的光影质感和颗粒感。这直接导致其在视觉冲击力上大幅落后于可灵 2.6。
Wan 2.6 是一款“脑子很好,但手艺还需打磨”的模型。推荐使用图生视频模式,可以来实现强逻辑叙事、多镜头切换的商业广告分镜(Storyboard)、重视背景音效氛围的故事短片、以及对画质要求不高但对结构要求严格的创意验证。而对于追求极致写实摄影感、需要精细物理动作(如武打、炫技)的画面,目前还有明显不足。
Ⅳ. 如何在 302.AI 上使用
302.AI 提供按需付费无订阅的服务模式,用户可以根据自身业务需求灵活选择使用。
使用模型 API
步骤指引:API超市→视频生成→通义万相→Wan 2.6系列模型

点击【立即体验】在线调用 API

想即刻体验 Wan 2.6 系列模型?
👉立即注册免费试用302.AI,开启你的AI之旅!👈
为什么选择302.AI?
● 灵活付费:无需月费,按需付费,成本可控
● 丰富功能:从文字、图片到视频,应有尽有,满足多种场景需求
● 开源生态:支持开发者深度定制,打造专属AI应用
● 易用性:界面友好,操作简单,快速上手
