仅靠一张图片就能制作电影？通义万相于 9 月 19 日开源了其角色动画驱动模型 Wan2.2-Animate —— 一款能够实现一键迁移角色动态的强大模型。其核心能力就是把人物角色的动作、神态，精准迁移到任意角色身上，从而实现让一张静态图复刻任何视频里的动作，主演任何视频里的场景。

视频版“一键换装”来了！动作生成模型Wan2.2-Animate测评丨302.AI 基准实验室

AI 视频生成技术普及以来，如何让作品中的角色动态叙事更完整、更真实，这一直是每个 AIGC 创作者的痛点所在。数字人生成模型实现了角色开口说话，图生视频模型则让角色可以在固定场景中简单地“动起来”。然而在改善角色面部表情自然度、以及提升角色与环境融合度方面，现有技术仍存在很多亟需填补的空白。

是否存在一种模型，能够突破传统角色动画的技术瓶颈，省去繁琐的后期合成步骤，直接生成人、声、画、景高度统一的动态影像？

Wan2.2-Animate 的出现，能否补全 AI 视频生成领域中电影叙事的一块重要拼图呢？

302.AI 已第一时间接入了 Wan2.2-Animate 系列模型 API，本期文章将围绕模型的核心亮点，结合多个玩法案例为大家展示 Wan2.2-Animate 的实际应用效果。

I. Wan2.2-Animate 模型基本信息

（1）模型基本信息

Wan-Animate 构建于 Wan-I2V 之上，采用统一的模型架构，通过改进输入范式，将参考图像输入、时间帧引导以及环境信息（用于双模式兼容）统一到一种通用的符号表示中。该模型将“图生动作”（Move）与“视频换人”（Mix）两种模式统一为一种共同的符号表示。也就是说，这是一个可实现角色动画与角色替换的统一框架。且模型能根据输入条件自动切换生成模式，无需训练两个独立模型，这大大提升了开发效率和资源利用率。

（2）性能亮点

精准的表情与肢体控制：通过双路径控制实现精准动作与表情迁移，身体运动采用空间对齐的骨骼信号（如 VitPose 提取的 2D 骨架）直接注入噪声向量，确保动作准确；面部表情则通过原始人脸图像编码与时序交叉注意力机制，完美保留微妙表情细节。
重塑真实光影，无缝替换角色：Mix 模式通过专用的 Relighting LoRA 模块，智能学习并应用目标视频的光照与色调，使迁移角色能无缝、自然地融入原有场景，并原生支持包含复杂运镜的视频，实现电影级的融合效果。
可定制化开源：开源了完整的动作重定向技术栈，包含从驱动视频中提取动作模板的处理代码，以及将模板应用于角色图片生成最终视频的推理代码。

（3）素材限制

参考图片要求：
- 格式限制：JPG、JPEG、PNG、BMP、WEBP
- 尺寸限制：图像的宽度和高度各自都必须在[200,4096]像素范围内，宽高比在1:3至3:1范围内。
- 大小限制：不超过5MB
参考视频要求：
- 格式限制：MP4、AVI、MOV
- 尺寸限制：宽高200-2048像素，宽高比1:3至3:1
- 大小限制：不超过200MB
- 时长限制：不小于2s且不大于30s

（4）模型在302.AI的价格

模型名称	302.AI内的价格
wan2.2-animate-move	• wan-std：$0.07/秒（基础演示、轻需求） • wan-pro：$0.1/秒（专业制作、高质量）
wan2.2-animate-mix	• wan-std：$0.105/秒（基础演示、轻需求） • wan-pro：$0.15/秒（专业制作、高质量）

Ⅱ. 一个架构，两种玩法

Wan2.2-Animate 作为业内首个专注于人物角色驱动的开源模型，支持两项核心功能——角色动画和角色替换。它可以让一张静态角色图复刻任何视频里的动作、主演任何视频里的场景。

模式 1：图生动作（Move）

此模式支持输入一张角色图片+一段动作参考视频，模型会精确复刻视频中角色的表情、动作，将之迁移到图片角色上，生成一段高保真的角色动画。即成片视频的场景环境会基于图片来生成。

适用于舞蹈、高难度肢体动作、影视剧表演艺术等动态复刻场景。

模式 2：视频换人（Mix）

此模式支持输入一张角色图片+一段视频，模型能无缝替换视频角色，不仅精准复刻其动作表情，更能智能重塑光照与色彩，达成毫无违和感的电影级融合。即成片视频的场景环境会基于视频来生成。

适用于剧情魔改、角色混搭、影视后期处理换人等复杂场景。

III. 案例演示

*以下案例均使用 wan-pro 版本生成

案例 1：Move模型测试-表情动作

图片素材：Emma Watson

成片：

评分：★★★★★

简评：成片较好地保持了艾玛的外貌特征和背景环境，面部表情衔接自然，无论是说话口型、神态变化、手部动作都与原视频保持高度同步。细节在于人物头发会随身体晃动幅度而随之晃动，并且投射在面部的阴影也会随之变化，符合物理规律。唯一不足在于成片无法达到实拍视频的流畅度，例如手部快速晃动时会出现虚影。

案例 2：Move模型测试-单人舞蹈

图片素材：寡姐

成片：

评分：★★★★★

简评：成片效果较佳，能在人物头部动作变化时保持斯嘉丽的五官不崩，人物动态和舞蹈幅度也达到基本复刻了原版的程度；值得一提的细节是：服装在保持原貌的同时能够跟随舞蹈动作出现自然褶皱和光影变化，以及人物脖颈处的肌肉变化比较自然真实。此外，头发摆动除了无可避免地出现轻微虚影外，依然能够精准复刻原版的运动轨迹，整体效果佳。

案例 3：Mix模型测试-视频换人-整体人物

图片素材：星爷

评分：★★★★

简评：星爷的造型得以准确还原，神态动作与Jimmy保持高度一致。细节上，领口边缘的黑色缝线，西装口袋上的刺绣，乃至头顶翘起的发梢，在动态呈现中都做到了“自然”，“逼真”。最大的破绽在于原视频中的麦克风不翼而飞，导致星爷左手虽然呈握持状，但空然无物。另一点体现模型特点的是能很干净地消除本处于人物前方的字幕，不会出现残留痕迹，好评。

案例 4：Mix模型测试-视频换人-仅换脸

图片素材：郭德纲

灵感来源于著名的《开原DJ》系列。up主：袁大艺

成片：

评分：★

简评：翻车案例。1.该模型没有对应的参数，无法实现仅换脸的精准需求，模型仍会按照参考图中出现的部分衣服细节进行扩展生成；2.人物五官还原度差，看不出一点郭老师的特征；3.头顶的半拉耳机，暴露了模型对于物体的识别和处理还存在短板。

Ⅳ. Wan2.2-Animate测评结论

四个案例测下来，Wan2.2-Animate 这代模型的表现可以总结成一句话：它离“靠谱商用”已经不远了，但从“可控精品”还有一段路要走。

我们先说好的一面。

在前三个案例中，无论是艾玛的细腻面部与光影同步，斯嘉丽舞蹈的动作连贯与服饰动态，还是星爷动态神态还原得一板一眼——Wan2.2 有本事把静态的人物形象盘活，不仅是面部五官还原得像，连人物的衣褶、发丝、投影细节都在动，有那么几帧，你真会以为这是换了演员的真人片段。

这就是“动画模型上桌”的标志：它不是在画“会动的 GIF”，而是在做“能演戏的数码替身”，在动作表情上已经做到了逐帧还原。

更厉害的一点，它在一些看似边角料的细节上也处理得相当成熟，比如字幕擦除、背景还原、光影匹配，几乎找不到明显残幅痕迹。这些细节不是炫技，而是真在为落地打基础。

但我们也不回避问题。

第4个案例很有代表性：在没有更细致的参数限定下，全自动一键生成的模式会导致不可控因素的产生。上面提到的人物准确性，细节擦除都遭遇了翻车问题，本质就是——稳定性上目前还不能达到100%可控。这个问题谈不上致命的bug，算是阶段性门槛，但对出品成片率有实打实的影响。期待后续版本能够增加更多自定义参数配置，如设定仅替换人物面部等局部修改功能，让用户能对画面元素进行更细致的控制。

总结一句话，如果你是短视频创作者，想做动作复刻、踩点舞蹈、角色互换，那 Wan2.2-Animate 确实是目前足够方便，有出片能力的选择；但如果你是影视级内容创作者，要想让 AI 替你拍出一个无懈可击的商业级视频，你最好还是多留一个后期打磨的预算。

V. 如何在 302.AI 上使用

302.AI 提供按需付费无订阅的服务模式，用户可以根据自身业务需求灵活选择使用。

使用模型 API

相关文档：API→API超市→视频生成→通义万相→wan2.2-animate-move/wan2.2-animate-mix

点击【立即体验】在线调用 API

想马上体验 Wan2.2-Animate 系列模型？

👉立即注册免费试用302.AI，开启你的AI之旅！👈

为什么选择302.AI？

● 灵活付费：无需月费，按需付费，成本可控

● 丰富功能：从文字、图片到视频，应有尽有，满足多种场景需求

● 开源生态：支持开发者深度定制，打造专属AI应用

● 易用性：界面友好，操作简单，快速上手

视频版“一键换装”来了！动作生成模型Wan2.2-Animate测评丨302.AI 基准实验室

I. Wan2.2-Animate 模型基本信息

（1）模型基本信息

（2）性能亮点

（3）素材限制

（4） 模型在302.AI的价格

Ⅱ. 一个架构，两种玩法

模式 1：图生动作（Move）

模式 2：视频换人（Mix）

III. 案例演示

案例 1：Move模型测试-表情动作

案例 2：Move模型测试-单人舞蹈

案例 3：Mix模型测试-视频换人-整体人物

案例 4：Mix模型测试-视频换人-仅换脸

Ⅳ. Wan2.2-Animate测评结论

V. 如何在 302.AI 上使用

使用模型 API

相关推荐

影视级模型Wan 2.6 深度评测：做广告脚本的神器，但别用它拍电影丨302.AI 基准实验室

Kling Video 2.6：让谷歌“嘴瓢”的中文视频，我不仅说得准，还能演得好！丨302.AI 基准实验室

AIGC万字指南（下）：从A到Z，打破技术词汇认知壁垒 | 302.AI大白话聊一聊

AIGC万字指南（上）：从A到Z，打破技术词汇认知壁垒 | 302.AI大白话聊一聊

发表回复

（4）模型在302.AI的价格