302.AI 基准实验室 | 智谱清影AI视频还在内测阶段，背后的模型CogVideoX 突然宣布开源？！ -

近日，国外的AI视频生成模型竞争依然在不断升温，国内的AI视频模型赛道也迎来了前所未有的“内卷”潮。

7月26日，智谱清影（Ying）AI视频生成工具正式上线，这款由智谱AI推出的视频生成工具，允许用户通过输入文本描述或上传图片，在大约30秒内生成一段6秒长的视频。

而在8月6日，智谱AI宣布清影背后的视频生成模型——CogVideoX正式开源。

或许很多人看到这里就会发出疑问，智谱清影和CogVideoX是什么关系？下面来说一下：

CogVideoX：这是智谱AI自研的视频生成模型的技术基础。CogVideoX模型采用了Diffusion Transformer架构，能够将文本、时间和空间三个维度融合起来，生成具有连贯性和逻辑一致性的视频内容。它是一个技术平台，为视频生成提供底层支持。

智谱清影AI：智谱清影AI是智谱AI推出的一款AI视频生成工具，具有文生视频和图生视频的功能。它依托于智谱AI自研的新一代视频生成大模型技术CogVideoX，能够根据用户输入的文本或上传的图片生成视频内容。

简单地理解：CogVideoX相当于视频生成领域的“GPT-4o”，它是一个自研的视频生成大模型，提供了视频内容生成的核心技术。智谱清影AI则是基于CogVideoX技术的应用产品，类似于“ChatGPT”。

因此，在智谱清影AI生成的视频内容，均是来自CogVideoX技术，下面来看看效果视频：

首先是镜头推拉的效果，船是随海浪移动的，可以看到整体基本连贯的：

提示词：一艘帆船被海浪打翻，紧张刺激的镜头，4K高清，电影质感，水平旋转镜头拍摄

接下来看下人物近景视频生成，这对于AI视频生成来说是比较有技术的，人物的表情是很细微复杂的，可以看到这一视频中嘴角微微抖动这种细节很真实，但是老人的眼球稍微的不太流畅：

提示词：一位白发苍苍、满脸皱纹的老妇人坐在一辆老旧的模型车里，从侧窗向外望去，脸上带着沉思或略带悲伤的表情。

再来看一个3D动画视频生成，小编个人挺喜欢这种3D动画风的，但是可以看到在处理人物动作时缺乏物理逻辑，女生眨眼的时候眼部的不连贯：

提示词：动画场景，展示一个男生和一个女生在一棵大树下约会，3d风格，需要注重画面的细节，画面中两个人的神情有些害羞，还有一只小狗蹲在旁边，表现出天真的样子。温暖的颜色和氛围的灯光。

以上都是文生视频的视频效果，CogVideoX除了文生视频，还支持图生视频，来看下视频，华妃的好像突然变得温柔了，但是仔细看可以发现手的部位还是出现了一样问题：

提示词：对着镜头微笑，拿着手帕捂嘴

看了这么多的视频效果，那CogVideoX的原理是怎么样的呢，其中CogVideoX采用了3D Causal Variational Autoencoder(变分自编码器)，一种用于视频重建和压缩的技术，能够几乎无损地重构视频，减少存储和计算需求。

在3DVAE中，编码器将视频转换成简化的代码,而解码器根据这些代码重建视频，潜在空间正则化器确保编码和解码之间的信息传递更准确。

CogVideoX的训练过程采用混合时长训练与多阶段训练，允许模型学习不同长度的视频，提高泛化能力。同时CogVideoX的训练分为几个阶段，包括低分辨率预训练、高分辨率预训练和高质量视频微调，逐步提升模型的生成质量和细节。

一般来说，想要使用AI模型的API，需要自己上网找源代码资源，下载后还要设置所需的运行环境，包括操作系统、编程语言版本、数据库等一系列繁琐部署，时间和资源消耗相对较大，且开源模型社区更新，需要用户自己跟踪和实现这些更新，这可能导致额外的维护工作。

而302.AI的API超市提供多种不同类型的API，且分类清晰，开发者能快速找到所需的API，比如CogVideoX的API，在API分类中找到【视频生成】类目即可看到，支持在线调试，还会持续维护和更新模型，用户只需使用最新的API版本，即可享受最新的技术成果。

CogVideoX有两种生成视频方式，一个是【文字生成视频】另一个是【图片生成视频】，302.AI的API超市同时提供了这两种生成方式的API，还提供了详细的API文档，能够帮助开发者快速上手并正确地集成API，通过302.AI的API超市，还能快速接入CogVideoX的视频生成功能。

智谱清影AI视频虽仍处于内测阶段，但其同源模型CogVideoX的突然开源着实令人惊讶。这一出人意料的举动无疑将AI视频领域的竞争推向了新的高度。但是无论如何，这种良性竞争和多元化的发展路径，都是能够推动AI视频生成技术向前迈进的，尽管CogVideoX目前还不完美，但我们相信随着不断的迭代和优化，它将为我们带来更多创新和突破。

参考文章：https://github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf

👉立即注册免费试用302.AI，开启你的AI之旅！👈

为什么选择302.AI？

● 灵活付费：无需月费，按需付费，成本可控
● 丰富功能：从文字、图片到视频，应有尽有，满足多种场景需求
● 开源生态：支持开发者深度定制，打造专属AI应用
● 易用性：界面友好，操作简单，快速上手

302.AI 基准实验室 | 智谱清影AI视频还在内测阶段，背后的模型CogVideoX 突然宣布开源？！

👉立即注册免费试用302.AI，开启你的AI之旅！👈

为什么选择302.AI？

相关推荐

影视级模型Wan 2.6 深度评测：做广告脚本的神器，但别用它拍电影丨302.AI 基准实验室

Kling Video 2.6：让谷歌“嘴瓢”的中文视频，我不仅说得准，还能演得好！丨302.AI 基准实验室

AIGC万字指南（下）：从A到Z，打破技术词汇认知壁垒 | 302.AI大白话聊一聊

AIGC万字指南（上）：从A到Z，打破技术词汇认知壁垒 | 302.AI大白话聊一聊

发表回复