可灵AI全面开放,引领视频创作新时代

7月下旬,可灵AI(Kling AI)宣布全面开放,曾经在国内外内测名额“一号难求”的可灵成为了历史。可灵AI是由快手科技自研的视频生成大模型,能够根据文本提示生成长达2分钟、帧率为30fps的高质量视频,支持1080p分辨率,并支持多种宽高比,陆续升级推出了图生视频等功能。

可灵AI全面开放,引领视频创作新时代

从上线到全面开放,可灵历经了一个多月的时间:

6月10日,快手科技宣布推出了可灵大模型,10天后,可灵官方宣布上线了两个新功能,分别是图生视频和视频续写

7月6日,正式上线可灵AI的网页端,所有功能限时免费开放给用户使用,这段时间国内外的用户都在求一个内测的名额,可谓是“一号难求”,非常有趣的是,在内测过程中,中外网友像互换身份,外网用户也终于体验了一把之前国内网友求手机号注册ChatGPT的辛酸。

7月24日,可灵AI宣布基础模型再次升级,并全面开放内测,同时正式上线了会员体系,针对不同类别的会员提供相应的专属功能服务。也是在同一天,快手可灵国际版1.0正式上线,国外用户注册只需要邮箱,无需中国手机号码。

据悉,可灵使用了与Sora一样的Diffusion Transformer架构,3D时空联合注意力机制等,该架构巧妙地融合了时间与空间的信息,对视频数据进行综合分析和处理。但很多国外网友认为,可灵AI超过了Sora。那可灵到底是厉害在哪里呢?

比如下面这个很火的吃汉堡案例,同样的提示词下,可灵生成的效果更加的生动、逼真:

可灵AI全面开放,引领视频创作新时代

Prompt:Une personne tapant son meilleur croc dans son hamburger

当然除了文生视频,可灵在图生视频上的表现也还不错,比如在衔接运动镜头上,整个画面都是比较流畅的合理的:

可灵AI全面开放,引领视频创作新时代

在动物为主体的文生视频中,画面整体还算可以,不过仔细看能看到,熊猫弹吉他的手指部分有点奇怪:

可灵AI全面开放,引领视频创作新时代

提示词:一只大熊猫在湖边弹吉他

短短的一个多月,可灵从出现到大众面前到登上世界的舞台,在这一过程中,不仅吸引了国内外技术爱好者和创作者的目光,也让很多开发人员蠢蠢欲动。但是可惜的是,可灵官方并不提供可灵的API,因此开发人员是无法直接从官网接入可灵API。然而!302.AI的API超市同在7月底,更新了可灵的API,如图所示:

可灵AI全面开放,引领视频创作新时代

302.AIAPI超市提供详细文档,能够帮助开发者快速上手,提高效率,减少在使用API时出现的错误,且支持在线调试,302.AI提供按需付费的付费方式,在提高效率的同时为用户降低开发成本,提供文生视频和图生视频的API:

可灵AI全面开放,引领视频创作新时代

302.AIAPI超市是一个提供丰富API的集市,涵盖了不同类型的大模型,除了可灵视频生成的API,还提供了图片生成的API,开发者可以通过302.AI的API超市快速接入想要的功能。

可灵AI全面开放,引领视频创作新时代

可灵AI全面开放,引领视频创作新时代

在这个信息爆炸的时代,视频内容已成为传递信息和表达创意的重要方式。作为来自中国的可灵,能够走到世界的舞台上,侧面代表着中国AI视频技术正在飞速发展,在这个崭新的时代,我们期待看到更多精彩的作品涌现,激发更多的灵感与想象。可灵AI的全面开放,正是这一切的起点,让我们共同迎接视频创作的美好未来。

Like (0)
302.AI302.AI
Previous 2024 年 8 月 5 日 下午6:39
Next 2024 年 8 月 7 日 下午6:47

相关推荐

  • 资讯丨无需再死记硬背Excel公式和函数,302 AI Excel工具帮你解放大脑!

    要说一年中使用Excel表格最多的时候,一定是在季度末或者年度末。这两个时间节点是企业和个人在工作中进行数据整理和分析的关键时刻。在这个阶段,许多人需要对过去一段时间的工作数据进行系统性的整理。然而,对于那些不常使用Excel的人来说,面对复杂的表格和各种公式,往往会感到无从下手,最后只能无奈花费大量时间重新在网络上搜索相关内容学习。 但随着AI技术的发展,…

    2025 年 1 月 3 日
    7800
  • 揭秘神秘“小熊猫”模型,实测对比Recraft V3生成效果

    近日,一个名为red_panda的模型在Hugging Face的文本生成图像模型排行榜中位居榜首, 这引起了许多网友对这一神秘“小熊猫”背后公司身份的种种讨论。 有网友猜测小熊猫会不会是Midjourney的新产物,也有网友猜测可能是来自OpenAI: 甚至有网友猜测,因为熊猫生活在亚洲,而中国公司在视频生成方面表现卓越,所以猜测它来自像百度或腾讯这样的中…

    2024 年 11 月 1 日
    41100
  • AI视力考验:各AI模型的视觉理解能力如何?

    近日,行业内有不少新模型涌现出大众的面前,我们会发现,有的模型会在其官方宣传中提到“多模态”一词,比如大家熟知的GPT-4o、Gemini 1.5 Pro等,在发布时都被定义为“原生多模态”,这些多模态LLM在相关的介绍中,都用到了“视觉能力”、“视觉理解”这样的表述。 简单的理解,就是这些模型能够“看得见,并看得懂”,仿佛人的眼睛。为此,很多人…

    2024 年 7 月 25 日
    25900
  • 资讯丨字节豆包推出新图片理解功能,实测底层模型Doubao-vision-pro-32k竟大翻车?

    12月3日,字节跳动豆包上线了一项新功能——图片理解。官方表示,这一功能可精准识别图片内容,并对相关问题进行解答,无论是查找景点位置,还是辨认动漫人物身份,都能轻松应对。 据了解,图片理解功能的底层技术来源于豆包视觉模型——Doubao-vision-pro-32k,Doubao-vision-pro-32k 是字节跳动豆包大模型视觉团队研发的多模态基础模型…

    2024 年 12 月 5 日
    25200
  • 302.AI带来实时语音便捷方案,让你快速体验AI语音通话

    在10月初,OpenAI在旧金山召开了开发者大会。在发布会中,OpenAI推出了Realtime API 的公开测试版。 Realtime API是一种实时多模态API,它允许开发人员构建低延迟、多模态的AI应用体验。这个API背后的技术是GPT-4o模型,它支持音频输入和输出,能够实现超越传统基于文本的AI对话的实时、自然的语音交互。 像Realtime这…

    2024 年 10 月 31 日
    30800

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注