4月1日,Runway 推出了新视频模型:Gen-4。
据官方介绍,Gen-4 与上一版本 Gen-3 Alpha 模型相比有显著改进。它能够生成具有逼真动作的高度动态视频,并且主题、对象和风格一致,具有出色的即时一致性和一流的世界理解能力。
4月8日,Runway再次宣布推出新版本 :Gen-4 Turbo。官方称Gen-4 Turbo是其迄今为止最强大的视频生成模型。Gen-4 Turbo 不仅延续了 Gen-4 系列的图像到视频生成优势,而且且速度比 Gen-4 快 5 倍。
不过,Gen-4和Gen-4 Turbo 目前均仅支持单图生成视频。那么今天,我们将使用国内的可灵Kling-1.6标准版与 Gen-4 、Gen-4与Gen-4 Turbo进行对比,让大家直观感受在单图生成方面哪个模型表现更为优越。
对比实测:
(以下实测统一使用英文提示词,且均取自第一次生成效果,实测结果仅供参考)
实测1:奇幻童话场景
提示词:The candy falls, the rabbit looks at the candy, and finally the candy drops and the rabbit jumps down, keeping the camera still
(参考翻译:糖果掉下来,兔子看着糖果,糖果掉完后兔子跳了下来,镜头保持不变)
Kling-1.6 VS Gen-4:
效果对比:Kling呈现的效果视频里两个兔子脸部出现了扭曲,而Runway主体脸部保持较高。从主体一致性以及场景流畅度综合看,本轮是Runway Gen-4略占优势。
Gen-4 VS Gen-4 Turbo:
效果对比:从糖果落下、兔子跳等综合效果看,Gen-4还是比Gen-4 Turbo更胜一筹。
实测2:电影级场景
提示词:At sunset, the man’s car slowly drives forward, and the camera gradually pulls away
(参考翻译:日落时分,男人的车缓缓向前开着,镜头逐渐移开)
Kling-1.6 VS Gen-4:
效果对比:Runway Gen-4呈现的效果主体、场景变化有所局限,尤其是车子和镜头需要同时运动变化的要求下,仅能看出镜头有变化。相比之下Kling表现更好,但其车子移动轨迹的流畅性仍需改进。
Gen-4 VS Gen-4 Turbo:
效果对比:镜头移动、画面布局等效果基本相似,这一轮平手。
实测3:人物写实场景
提示词:The camera follows the girl as she stands up and walks forward
(参考翻译:女生站起来往前走,镜头跟随移动)
Kling-1.6 VS Gen-4:
效果对比:前半段Kling的表现相对稳定的,但在后半段突然来一个“闪现”转身。Runway则是一直未遵循提示词展现站立后走路的动作,两者在人物写实场景中的表现均显平平。
Gen-4 VS Gen-4 Turbo:
效果对比:Gen-4 Turbo倒是遵循提示词站起来了,但是动作可以说很“怪异”,本轮只能算平手。
实测4:动漫场景
提示词:The camera zooms in as the girl picks up her bag and prepares to get off (参考翻译:女孩拿起书包,准备下车,镜头逐渐拉近)
Kling-1.6 VS Gen-4:
效果对比:Runway完全“崩”了,后半段人物主体从漫画风直接变成写实风。尽管在执行“女孩拿起书包”的提示词时,Kling的风格转换显得不够自然,但整体效果仍然保持了一定的风格一致性,因此这轮Kling更胜一筹。
Gen-4 VS Gen-4 Turbo:
效果对比:Gen-4 Turbo提示词遵循不足,两个模型的表现都不好,存在不同的问题。
实测总结:
实测结果统计:
奇幻童话场景 | 电影级场景 | 人物写实场景 | 动漫场景 | |
Gen-4 VS Kling-1.6 VS Gen-4 Turbo | ||||
Runway Gen-4 | 胜 | 负 | 平 (提示词遵循差) | 负 |
Kling-1.6 | 负 | 胜 | 平 (人物动作不合理) | 胜 |
Runway Gen-4 Turbo | 负 | 负 | 平 (人物肢体不合理) | 负 |
基于以上实测结果,可初步得出以下结论:
(1)图片素材若具备动态感,模型整体表现佳
如实测1所示,在图片素材本身具备动态感的情况下,三个模型的生成效果整体皆较理想,仅在细节上会有差异。
(2)Kling-1.6电影级场景遵循提示词表现更优
在氛围浓郁的电影级场景中,精准遵循提示词并始终保持场景氛围才能满足用户的实际需求。而在实测中首先所有模型均能保持日落的场景氛围,但在提示词遵循方面Kling表现更出色,而Runway两个版本模型效果几乎相似。
(3)人物写实场景中动作关键部分表现欠佳显局限
在人物写实场景里,人物的肢体动作与脸部表现无疑是非常重要的。然而在实测中,三个模型在这方面的表现都较差:Kling动作肢体变化不合理、Gen-4 未准确遵循提示词且动作不协调、Gen-4 Turbo人物动作怪异。这也表明图生模型在人物写实场景实际应用中的局限性。
(4)Gen-4 风格一致性能力差
风格的一致性是广大受众颇为关注的要点。但在实测的动漫场景中,Runway Gen-4 未能有效保持风格的一致性,而Gen-4 Turbo未遵循提示词,无法得出结论。Kling尽管人物动作切换上略显生硬,但总体保持了风格的一致性。
在302.AI上使用:
302.AI提供了按需付费无订阅的服务方式,企业和个人用户可按需灵活选用。
1、获得Runway Gen-4/Gen-4 Turbo模型API
相关文档:API超市→ 视频生成 → Runway →相关文档;
2、在线调试
进入文档后 → 左侧选择Gen4/Gen4-Turbo→点击【调试】;
用户无需下载额外的软件或进行繁琐的配置,就可以直接在302.AI的平台上对模型API进行实时测试生成视频。