影视级模型Wan 2.6 深度评测:做广告脚本的神器,但别用它拍电影丨302.AI 基准实验室

12 月 16 日,阿里正式发布了新一代万相 Wan 2.6 系列模型,面向专业影视制作和图像创作场景进行了全面升级。全新的 Wan 2.6国内首个支持角色扮演功能的视频模型,同时支持音画同步、多镜头生成及声音驱动等功能。

影视级模型Wan 2.6 深度评测:做广告脚本的神器,但别用它拍电影丨302.AI 基准实验室

此次升级版本直接对标 Sora2,其核心功能亮点体现在以下几方面:

  1. 角色扮演:模型能够学习参考视频中角色的外观、神态乃至音色,让同一角色在不同剧本与场景中“稳定出演”,解决了 AI 视频生成中长期存在的角色随机变换、难以延续的核心痛点。
  2. 智能多镜头叙事:模型可理解复杂文本描述,自动将其分解为包含远景、特写、中景等多个镜头的连贯脚本,并保持镜头间主体、场景的一致性,实现了从“生成单画面”到“执导短片”的跨越。
  3. 声画同步与长视频生成:支持生成长达 15 秒的 1080P 高清视频,并实现口型、台词与音效的精准同步,能够表现带情感的多人对话甚至歌曲演唱,显著提升叙事的完整度与沉浸感。

其中最值得关注的当属智能多镜头叙事能力。分镜是电影级创作的一个专业标志,恰当处理分镜要求模型在生成的每个镜头中保持画面风格、元素、色调及逻辑的严密一致,极具挑战性。AI 理解了分镜,相当于掌握了影视创作的关键一环——剪辑。不难看出,Wan 系列视频模型从 2.2 的电影级视觉控制,到 2.5 首次实现“音画同步”,再到如今新一轮优化的角色表演与智能分镜叙事,都指向同一进化方向——电影级。

在往期实测文章《Kling Video 2.6:让谷歌“嘴瓢”的中文视频,我不仅说得准,还能演得好!》中,于 12 月初发布的 Kling 2.6 凭借高质量的音画同出能力守住了自己的阵地,那么如今来到万相的 2.6 版本,音效有了,演员有了,甚至连分镜都自动化了,国产 AI 视频的“2.6 时代”已然启幕,一场正面较量不可避免。

话不多说,302.AI 现已接入 Wan 2.6 系列模型 API,死磕电影级创作的 Wan 2.6,与极具竞争力的老对手 Kling 2.6,究竟谁能更胜一筹?我们实测见真章。


I. 实测模型基础信息

(1) The price of each real model at 302.AI:

模型名称时长302.AI内的价格
Kling 2.65s, 10s无音频 $0.07/秒
有音频 $0.14/秒
Wan 2.65s, 10s,15s720p $0.1/秒1080p $0.15/秒

(2)测评目标:

  • 生成质量与真实感:评估各模型在图像生成和图像编辑后的视觉效果,包括提示词遵循、细节表现、以及是否存在伪影或失真等。
  • 指令理解与执行准确性:测试模型对文本或图像指令的理解能力,检查编辑结果是否准确反映用户意图。

(3)测评工具:

  • 使用 302.AI 的 API 超市→在线调试功能

(4)测评方法:

各案例均使用统一的提示词和图片进行生成,且均取第一次生成结果,评测结果仅供参考。


Ⅱ. 测评案例

案例 1:图生视频-复杂运动

测试点:复杂运动,特定风格,镜头调度,音频质量

影视级模型Wan 2.6 深度评测:做广告脚本的神器,但别用它拍电影丨302.AI 基准实验室

clue

Cinematic Western scene, medium shot. A young, confident cowboy stands in a dusty Wild West town street under harsh sunlight. He skillfully and rapidly twirls a silver revolver in his hand for several seconds, showing off his dexterity with a cocky smirk. Suddenly, he stops the spin, aims, and fires the gun with a decisive bang and a puff of smoke.

The camera then zooms in quickly to a close-up of his face, capturing a cool, triumphant expression, sweat glistening on his forehead. Cut to a wide shot showing the opponent, another cowboy in the distance, collapsing to the dusty ground in slow motion. The scene has a gritty, high-contrast aesthetic.

(Style: 1990s western movie, film grain, intense atmosphere.)

Audio:Classic Ennio Morricone style western soundtrack, whistling, acoustic guitar strumming, sound of heavy gun spinning mechanical clicks, a loud gunshot echo, body falling on dirt.

翻译:

电影感西部片场景,中景镜头。 一位年轻自信的牛仔站在尘土飞扬的狂野西部小镇街道上,头顶烈日。他带着自信轻蔑的坏笑,熟练且快速地在手中旋转一把银色左轮手枪数秒,炫耀着他的灵巧身手。突然,他停止转枪,瞄准并开火,伴随着干脆利落的枪声和一团烟雾。

镜头随即快速推进至面部特写,捕捉到他冷静、胜利的表情,额头上汗水闪闪发光。切至全景镜头,展示远处的对手——另一名牛仔——以慢动作倒在尘土覆盖的地面上。场景具有粗犷、高对比度的美学风格。

(风格:1990年代西部电影,胶片颗粒感,紧张激烈的氛围。)

音频: 经典的Ennio Morricone风格西部配乐,包含口哨声、原声吉他扫弦、沉重的转枪机械咔哒声、响亮的回声枪响以及身体倒在泥土上的声音。

生成效果:

测评点Wan 2.6可灵2.6
动作质量★★★★★
音频质量★★★★★★★★
镜头质量★★★★★★★★
简评可灵2.6胜。核心测试点之一“熟练且快速地在手中旋转一把银色左轮手枪”,Wan呈现了一段猫和老鼠式卡通感的动作,可灵则完全没生成因此扣分;音频上,可灵生成的背景音乐具有典型的老西部风格,开枪,人物倒地的音效也准确真实;镜头方面,可灵完整实现了推拉近景,切换对手倒地的转场镜头,且生成的镜头无论拟真度还是风格还原度上,与参考图高度一致,配得上“电影感”的评价。

案例 2:图生视频-名场面复刻

测试点:主体一致性,人物表情,多人对话,音频质量

影视级模型Wan 2.6 深度评测:做广告脚本的神器,但别用它拍电影丨302.AI 基准实验室

clue

复刻电影《无间道》在天台对峙的经典场景。

左侧人物: “我以前没得选择,现在我想做一个好人。”

右侧人物: (短暂沉默后,苦笑)“好,跟法官说,看他让不让你做好人。”

生成效果:

测评点Wan 2.6可灵2.6
人物表情控制★★★★★★★
对话音频质量★★★★★★★
提示词遵循★★★★★★★
简评Wan 2.6胜。两组视频的人物一致性保持效果都尚可,但都未能完全还复刻角色在所处情境下的演技。Wan 2.6胜在人物表情变化更自然,并且除人物对话外还伴有环境音,音频效果明显更佳,可灵2.6后半段似乎自由发挥了陈永仁的动态,人物看向侧面说话,跳出了对话情境。此外背景环境中船只的运动速度,Wan 2.6的处理明显更符合现实。

案例 3:图生视频-产品广告

测试点:主体一致性,智能分镜,文字生成,指令遵循,世界知识

影视级模型Wan 2.6 深度评测:做广告脚本的神器,但别用它拍电影丨302.AI 基准实验室

clue

A 10-second commercial for the Ricoh GR III HDF camera shown in the picture. Overall Style: Dark, minimalist studio setting with a black background. Cinematic, ultra-realistic 3D rendering. Smooth, slow camera movements. Focus on material textures like matte black metal and textured leather grip. Dramatic key lighting creating sharp highlights and deep shadows. Tech-noir aesthetic.

Shot 1: (0-2s) Start with an extreme close-up, a single sharp rim light glides across the camera’s compact, pocketable silhouette, slow dolly-in.

Shot 2: (2-4s) Then, transition to a macro top-down shot of the mode dial and the green ring on the power button, the camera slowly rotates, the letters “HDF” are in sharp focus.

Shot 3: (4-6s) Then, the camera deconstructs in an exploded view, the visual anchor is the massive APS-C sensor glowing softly in the center, next to the compact GR lens assembly and the new HDF filter module. Shot 4: (6-8s) Then, with an implied “click”, the components instantaneously reassemble; the moment it’s whole, the green power indicator light flashes on.

Shot 5: (8-10s) Finally, the activated camera fades to black, and the white text logo “RICOH” elegantly appears in the center.

翻译:

为图中的理光 GR III HDF 相机生成一段 10s 的产品广告。

整体风格:暗黑极简影棚,纯黑背景。电影级超写实3D渲染,流畅缓慢的运镜。着重表现哑光黑金属与皮革纹理手柄的材质细节。戏剧性主光打造锐利高光与深邃阴影,呈现科技黑色电影美学。

分镜1(0-2秒):

从极致特写开场,一道锋利的轮廓光缓缓滑过相机紧凑的口袋尺寸剪影,摄影机缓慢向前推进。

分镜2(2-4秒):

转场至俯拍微距镜头,对准模式转盘与电源键的绿色圆环。相机缓慢旋转间,“HDF”字符清晰聚焦。

分镜3(4-6秒):

相机以爆炸视图解构,视觉焦点落在中央微微发光的硕大APS-C传感器,旁侧紧凑的GR镜头组件与全新HDF滤镜模块清晰可见。

分镜4(6-8秒):

随着标志性的“咔嗒”声,所有部件瞬间重组完整。在机身合拢刹那,绿色电源指示灯骤亮。

分镜5(8-10秒):

最终,启动的相机渐隐至黑暗,纯白色“RICOH”文字标识优雅浮现在画面中央。

生成效果:

附理光 GR III HDF 机身参考:

影视级模型Wan 2.6 深度评测:做广告脚本的神器,但别用它拍电影丨302.AI 基准实验室
测评点Wan 2.6可灵2.6
产品一致性★★★★
分镜质量★★★★★★★
提示词遵循★★★★★★
音频质量★★★★★★★
简评Wan 2.6胜。Wan 2.6肉眼可见地生成了更高质量的广告效果,遵循提示词完整实现了5个分镜,画面、音效与光影协调。展示的机身轮廓较为还原,结尾logo文字也生成准确,细节在于所用字体也神似理光原版logo,唯一不足在于模式转盘上的图标乱码;相比之下可灵则翻车严重,模型未能完成分镜,而是一镜到底的拆解和组装,未能保持机身原貌,最终理光logo也与原版不符。

案例 4:文生视频-中文能力

测试点:人物对话,世界知识

clue:场景位于摄影棚内,摄影师的POV视角,摄影师手持索尼A7M4,正在为一个时尚品牌拍摄Lookbook.模特为25岁的中国女性,黑色长发,微卷,佩戴浅蓝色的墨镜,穿着具有典型的,山本耀司黑色系宽松衬衫,长裙,点缀有红色的刺绣。摄影师走向这名模特,面对面与她沟通拍摄内容要求,两人使用中文沟通,比如怎么摆造型。画面聚焦在模特的半身,捕捉她在交谈中的动作,笑容。

生成效果:

测评点Wan 2.6可灵2.6
人物拟真度★★★★★★★★
音频质量★★★★★★★
提示词遵循★★★★★★★★
简评可灵2.6胜。胜点:1.正确还原了POV视角;2.人物&服装美型,符合提示词要求,画质高清;3.细节上物理更佳,如模特走动时能看到头发会随之抖动;音频上,可灵只生成了模特对白,摄影师对白缺失;但两者的音频能力(对话丰富程度,语气自然度)距离Sora 2还有一定差距。

案例 5:文生视频-镜头调度

测试点:运镜能力,物理运动,音频质量

clue

A high-octane Moto GP racing sequence featuring a duel between two elite riders.

[Shot 1] First, a static low-angle shot from the side of the race track, capturing the blurred, high-speed flash of two motorcycles zooming past the camera in a split second.

[Shot 2] The camera cuts to a dynamic medium tracking shot, showing the two riders wheel-to-wheel in a fierce battle, leaning deep into a curve. Both futuristic racing motorcycles are fully visible, sparks flying from their knee sliders grazing the asphalt.

[Shot 3] Finally, a fast FPV drone shot follows them from behind as they accelerate down a long straightaway, speeding off into the distance towards the horizon.

High contrast, motion blur, hyper-realistic 4K broadcast quality, sunny race day.

Audio Prompt

Roaring high-pitched engines of Moto GP bikes screaming past (Doppler effect), the sound of tires screeching on asphalt, wind noise, mechanical gear shifts, cheering crowd in the background, overlaid with high-energy, fast-paced electronic rock sports music.

翻译:

一段充满张力的Moto GP赛车场景,两名顶尖车手正展开激烈对决。

[镜头1] 首先是一个低角度的静态侧拍,从赛道旁捕捉两辆摩托车在瞬间高速飞驰而过的模糊身影。

[镜头2] 紧接着切至动态的中景跟拍镜头,两名车手在弯道中贴身缠斗,车身大幅度倾斜。两辆未来风格的赛车清晰可见,膝部滑块擦过路面,溅起阵阵火星。

[镜头3] 最后以快速的第一视角无人机镜头从后方跟随,拍摄他们沿长直道加速远去,驶向地平线的身影。

画面呈现高对比度、动态模糊效果,采用超真实的4K转播画质,场景设定于晴朗的比赛日。

音频提示:Moto GP赛车呼啸而过的高亢引擎声(伴随多普勒效应)、轮胎摩擦沥青的尖锐声响、风声、机械换挡声、背景中观众的欢呼,并叠加高能量、快节奏的电子摇滚音乐。

生成效果:

测评点Wan 2.6可灵2.6
拟真度★★★★★★★
音频质量★★★★★★★
镜头质量★★★★★★★
简评可灵2.6胜,取胜就一点,画面的拟真度完胜。Wan的镜头调度(3组镜头),音频显然更遵循提示词要求(音频生成了高能量、快节奏的背景音乐),但画面拟真度实在太差,明显的3D渲染游戏感。

III. Wan 2.6 视频模型实测结论

影视级模型Wan 2.6 深度评测:做广告脚本的神器,但别用它拍电影丨302.AI 基准实验室
影视级模型Wan 2.6 深度评测:做广告脚本的神器,但别用它拍电影丨302.AI 基准实验室

在本次与可灵 2.6 的直面对决中,Wan 2.6 的表现可谓喜忧参半。它在画质拟真度上显露出的短板令人遗憾,但在对视频结构、分镜逻辑的理解上,却展现出了超越对手的不俗能力。

  1. 核心优势:卓越的“导演思维”与分镜执行力

Wan 2.6 最大的惊喜在于它懂电影语言。

智能分镜王者(案例3): 在产品广告测试中,Wan 2.6 展现了统治级的表现。面对复杂的“5个分镜”指令,它没有像竞品那样试图用一个长镜头糊弄过去,而是真正理解了剪辑的概念,完美执行了分镜切换,甚至连片尾 Logo 这种细节都能准确生成。

  1. 音画协同:更具沉浸感的“氛围营造者”

相比于单纯的对白或音效的生成,Wan 2.6 在环境氛围的构建上更胜一筹。

环境音效丰富(案例2): 它不满足于仅仅让人物说话,而是自动补全了环境音和背景噪音,让视频的听感层次更加丰富。

在镜头调度测试(案例5)中,尽管画面拉胯,但它生成的“高能量、快节奏的背景音乐”精准契合了提示词的情绪要求,证明其多模态理解与生成能力的优秀。

  1. 致命短板:挥之不去的“游戏感”与“卡通化”

Wan 2.6 目前面临的最大障碍是视觉拟真度(Photorealism)的缺失。

物理动态失真(案例1): 在需要精细物理反馈的“转枪”测试中,它生成的动作呈现出“猫和老鼠式”的卡通感,完全丢失了现实世界的重量感和速度。

质感廉价(案例5): 在文生视频中,一旦涉及复杂场景,其画面往往会退化为“3D渲染游戏感”,缺乏真实摄影的光影质感和颗粒感。这直接导致其在视觉冲击力上大幅落后于可灵 2.6。

Wan 2.6 是一款“脑子很好,但手艺还需打磨”的模型。推荐使用图生视频模式,可以来实现强逻辑叙事、多镜头切换的商业广告分镜(Storyboard)、重视背景音效氛围的故事短片、以及对画质要求不高但对结构要求严格的创意验证。而对于追求极致写实摄影感、需要精细物理动作(如武打、炫技)的画面,目前还有明显不足。


Ⅳ. 如何在 302.AI 上使用

302.AI 提供按需付费无订阅的服务模式,用户可以根据自身业务需求灵活选择使用。

使用模型 API

步骤指引:API超市→视频生成→通义万相→Wan 2.6系列模型

影视级模型Wan 2.6 深度评测:做广告脚本的神器,但别用它拍电影丨302.AI 基准实验室

点击【立即体验】在线调用 API

影视级模型Wan 2.6 深度评测:做广告脚本的神器,但别用它拍电影丨302.AI 基准实验室

想即刻体验 Wan 2.6 系列模型?

👉立即注册免费试用302.AI,开启你的AI之旅!👈

为什么选择302.AI?

● 灵活付费:无需月费,按需付费,成本可控

● 丰富功能:从文字、图片到视频,应有尽有,满足多种场景需求

● 开源生态:支持开发者深度定制,打造专属AI应用

● 易用性:界面友好,操作简单,快速上手

影视级模型Wan 2.6 深度评测:做广告脚本的神器,但别用它拍电影丨302.AI 基准实验室
All Rights Reserved by 302.AI
Like (0)
302.AI302.AI
Previous 2 day ago
Next 9 hour ago

相关推荐

  • Kling Video 2.6:让谷歌“嘴瓢”的中文视频,我不仅说得准,还能演得好!丨302.AI 基准实验室

    继12月1日快手发布首个统一多模态视频模型可灵O1后,仅两天后,又火速上线了Kling Video 2.6——可灵系列首个实现原生音频的模型,能够单次生成包含画面、自然语音、匹配音效及环境氛围的完整视频,大幅简化创作流程。 Kling 2.6的核心突破在于其多模态的深度协同,技术特点十分鲜明: 基于这一技术赋能,Kling 2.6可适配多种应用场景: 在此前…

    2025 年 12 月 10 日 Benchmark laboratory
    3910
  • AIGC万字指南(下):从A到Z,打破技术词汇认知壁垒 | 302.AI大白话聊一聊

    话不多说,文接上篇,让我们从字母L继续。 字母L: LLM (Large Language Model,大语言模型) 定义:一个在海量文本数据上进行预训练,规模巨大、参数量通常在十亿级别以上的深度学习模型,能够理解和生成人类语言。 通俗解释:把它想象成一个读完了人类历史上几乎所有书籍、网页和对话的“超级大脑”或“通天晓”。它不仅能和你聊天,更能扮演“世界模拟…

    2025 年 12 月 1 日 In-depth disassembly
    1.0K0
  • AIGC Ten Thousand Words Guide (Part 1): From A to Z, Breaking the Barriers to Technical Vocabulary Cognition | 302. Have a chat in AI vernacular

    By the end of 2025, AIGC (AI-Generated Content) has long evolved from a cutting-edge concept to a powerful productivity that has profoundly changed the creative industry. In essence, AIGC uses machine learning, especially deep learning models, to automatically generate new forms of digital assets such as text, images, audio, video, 3D interactive content, and even code through the learning of massive amounts of data. It is not only a technical tool, but also regarded as reshaping the logic of content production and driving the economy and society.…

    2025 年 11 月 24 日 In-depth disassembly
    1.1K0
  • One-stop creation of explosive AI digital music videos,附两大主流数字人模型实测丨302.AI Practical tutorial

    At the end of October, whether it was a long-video B station or a short-video platform, a large number of explosive videos emerged: using the classic IP characters we know well, such as the 86th edition of "Journey to the West", they were refreshed with the blessing of AI technology, and they went into the recording studio one after another to sing in line with their respective IPS.Original song. Its mouth shape and emotional expression are highly matched with music, and with realistic video footage, it has won “three in a row with one key” time and time again. With the help of Nano Banana and Seedream 4.0, which can achieve high-fidelity picture generation, he is proficient in various music…

    November 12, 2025 Practical tutorial
    1.1K0

Leave a Reply

Your email address will not be published. Required fields are marked *