302.AI 基准实验室 | 智谱清影AI视频还在内测阶段,背后的模型CogVideoX 突然宣布开源?!

近日,国外的AI视频生成模型竞争依然在不断升温,国内的AI视频模型赛道也迎来了前所未有的“内卷”潮。

7月26日,智谱清影(Ying)AI视频生成工具正式上线,这款由智谱AI推出的视频生成工具,允许用户通过输入文本描述或上传图片,在大约30秒内生成一段6秒长的视频。

而在8月6日,智谱AI宣布清影背后的视频生成模型——CogVideoX正式开源。

或许很多人看到这里就会发出疑问,智谱清影和CogVideoX是什么关系?下面来说一下:

CogVideoX:这是智谱AI自研的视频生成模型的技术基础。CogVideoX模型采用了Diffusion Transformer架构,能够将文本、时间和空间三个维度融合起来,生成具有连贯性和逻辑一致性的视频内容。它是一个技术平台,为视频生成提供底层支持。

智谱清影AI:智谱清影AI是智谱AI推出的一款AI视频生成工具,具有文生视频和图生视频的功能。它依托于智谱AI自研的新一代视频生成大模型技术CogVideoX,能够根据用户输入的文本或上传的图片生成视频内容。

简单地理解:CogVideoX相当于视频生成领域的“GPT-4o”,它是一个自研的视频生成大模型,提供了视频内容生成的核心技术。智谱清影AI则是基于CogVideoX技术的应用产品,类似于“ChatGPT”。

因此,在智谱清影AI生成的视频内容,均是来自CogVideoX技术,下面来看看效果视频:

首先是镜头推拉的效果,船是随海浪移动的,可以看到整体基本连贯的:

302.AI 基准实验室 | 智谱清影AI视频还在内测阶段,背后的模型CogVideoX 突然宣布开源?!

提示词:一艘帆船被海浪打翻,紧张刺激的镜头,4K高清,电影质感,水平旋转镜头拍摄

接下来看下人物近景视频生成,这对于AI视频生成来说是比较有技术的,人物的表情是很细微复杂的,可以看到这一视频中嘴角微微抖动这种细节很真实,但是老人的眼球稍微的不太流畅:

302.AI 基准实验室 | 智谱清影AI视频还在内测阶段,背后的模型CogVideoX 突然宣布开源?!

提示词:一位白发苍苍、满脸皱纹的老妇人坐在一辆老旧的模型车里,从侧窗向外望去,脸上带着沉思或略带悲伤的表情。

再来看一个3D动画视频生成,小编个人挺喜欢这种3D动画风的,但是可以看到在处理人物动作时缺乏物理逻辑,女生眨眼的时候眼部的不连贯:

302.AI 基准实验室 | 智谱清影AI视频还在内测阶段,背后的模型CogVideoX 突然宣布开源?!

提示词:动画场景,展示一个男生和一个女生在一棵大树下约会,3d风格,需要注重画面的细节,画面中两个人的神情有些害羞,还有一只小狗蹲在旁边,表现出天真的样子。温暖的颜色和氛围的灯光。

以上都是文生视频的视频效果,CogVideoX除了文生视频,还支持图生视频,来看下视频,华妃的好像突然变得温柔了,但是仔细看可以发现手的部位还是出现了一样问题:

302.AI 基准实验室 | 智谱清影AI视频还在内测阶段,背后的模型CogVideoX 突然宣布开源?!

提示词:对着镜头微笑,拿着手帕捂嘴

看了这么多的视频效果,那CogVideoX的原理是怎么样的呢,其中CogVideoX采用了3D Causal Variational Autoencoder(变分自编码器),一种用于视频重建和压缩的技术,能够几乎无损地重构视频,减少存储和计算需求。

在3DVAE中,编码器将视频转换成简化的代码,而解码器根据这些代码重建视频,潜在空间正则化器确保编码和解码之间的信息传递更准确。

302.AI 基准实验室 | 智谱清影AI视频还在内测阶段,背后的模型CogVideoX 突然宣布开源?!

CogVideoX的训练过程采用混合时长训练与多阶段训练,允许模型学习不同长度的视频,提高泛化能力。同时CogVideoX的训练分为几个阶段,包括低分辨率预训练、高分辨率预训练和高质量视频微调,逐步提升模型的生成质量和细节。

一般来说,想要使用AI模型的API,需要自己上网找源代码资源,下载后还要设置所需的运行环境,包括操作系统、编程语言版本、数据库等一系列繁琐部署,时间和资源消耗相对较大,且开源模型社区更新,需要用户自己跟踪和实现这些更新,这可能导致额外的维护工作。

302.AI的API超市提供多种不同类型的API,且分类清晰,开发者能快速找到所需的API,比如CogVideoX的API,在API分类中找到【视频生成】类目即可看到,支持在线调试,还会持续维护和更新模型,用户只需使用最新的API版本,即可享受最新的技术成果。

302.AI 基准实验室 | 智谱清影AI视频还在内测阶段,背后的模型CogVideoX 突然宣布开源?!

CogVideoX有两种生成视频方式,一个是【文字生成视频】另一个是【图片生成视频】,302.AI的API超市同时提供了这两种生成方式的API,还提供了详细的API文档,能够帮助开发者快速上手并正确地集成API,通过302.AI的API超市,还能快速接入CogVideoX的视频生成功能。

302.AI 基准实验室 | 智谱清影AI视频还在内测阶段,背后的模型CogVideoX 突然宣布开源?!

智谱清影AI视频虽仍处于内测阶段,但其同源模型CogVideoX的突然开源着实令人惊讶。这一出人意料的举动无疑将AI视频领域的竞争推向了新的高度。但是无论如何,这种良性竞争和多元化的发展路径,都是能够推动AI视频生成技术向前迈进的,尽管CogVideoX目前还不完美,但我们相信随着不断的迭代和优化,它将为我们带来更多创新和突破。

参考文章:https://github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf


👉立即注册免费试用302.AI,开启你的AI之旅!👈

为什么选择302.AI?

● 灵活付费:无需月费,按需付费,成本可控
● 丰富功能:从文字、图片到视频,应有尽有,满足多种场景需求
● 开源生态:支持开发者深度定制,打造专属AI应用
● 易用性:界面友好,操作简单,快速上手

302.AI 新品发布 | 图像创意站:GPT-Image-1玩法全解析,轻松生成惊艳作品
All Rights Reserved by 302.AI
喜欢 (0)
302.AI302.AI
上一页 2024 年 8 月 8 日 下午6:53
下一页 2024 年 8 月 13 日 下午6:23

相关推荐

  • 影视级模型Wan 2.6 深度评测:做广告脚本的神器,但别用它拍电影丨302.AI 基准实验室

    12 月 16 日,阿里正式发布了新一代万相 Wan 2.6 系列模型,面向专业影视制作和图像创作场景进行了全面升级。全新的 Wan 2.6 是国内首个支持角色扮演功能的视频模型,同时支持音画同步、多镜头生成及声音驱动等功能。 此次升级版本直接对标 Sora2,其核心功能亮点体现在以下几方面: 其中最值得关注的当属智能多镜头叙事能力。分镜是电影级创作的一个专…

    2025 年 12 月 18 日 基准实验室
    6840
  • Kling Video 2.6:让谷歌“嘴瓢”的中文视频,我不仅说得准,还能演得好!丨302.AI 基准实验室

    继12月1日快手发布首个统一多模态视频模型可灵O1后,仅两天后,又火速上线了Kling Video 2.6——可灵系列首个实现原生音频的模型,能够单次生成包含画面、自然语音、匹配音效及环境氛围的完整视频,大幅简化创作流程。 Kling 2.6的核心突破在于其多模态的深度协同,技术特点十分鲜明: 基于这一技术赋能,Kling 2.6可适配多种应用场景: 在此前…

    2025 年 12 月 10 日 基准实验室
    7510
  • AIGC万字指南(下):从A到Z,打破技术词汇认知壁垒 | 302.AI大白话聊一聊

    话不多说,文接上篇,让我们从字母L继续。 字母L: LLM (Large Language Model,大语言模型) 定义:一个在海量文本数据上进行预训练,规模巨大、参数量通常在十亿级别以上的深度学习模型,能够理解和生成人类语言。 通俗解释:把它想象成一个读完了人类历史上几乎所有书籍、网页和对话的“超级大脑”或“通天晓”。它不仅能和你聊天,更能扮演“世界模拟…

    2025 年 12 月 1 日 深度拆解
    1.4K0
  • AIGC万字指南(上):从A到Z,打破技术词汇认知壁垒 | 302.AI大白话聊一聊

    2025年末,AIGC(AI-Generated Content,人工智能生成内容)早已从前沿概念,演变为深刻改变创意产业的强大生产力。从本质上讲,AIGC是利用机器学习,特别是深度学习模型,通过对海量数据的学习,来自动化地生成全新的文本、图像、音频、视频、3D交互内容乃至代码等各种形式的数字资产。它不仅仅是一种技术工具,更被视为重塑内容生产逻辑、驱动经济社…

    2025 年 11 月 24 日 深度拆解
    1.4K0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注