Live-portrait人像转视频模型,让照片中的脸都动起来

7月6日,可灵网页版正式上线并且宣布了该网页端集成了文生图、文生视频相关能力,同时提供了一些新功能,如更加清晰的高画质版视频、首尾帧控制、镜头控制等全新编辑能力。

而在可灵网页版上线的前两天,快手发布了Live-portrait初始版本的推理代码和模型模型。此外,LivePortrait的官方网站也在同一天上线。

Live-portrait人像转视频模型,让照片中的脸都动起来

Live-portrait能够将静态照片转化为逼真的动态视频,通过智能算法控制眼睛和嘴唇的动作,生成生动的效果,突破传统动画制作的难题。上传自己的照片,并选择不同的动作和表情,就能生成具有高度真实感和细腻表情变化的动态人像。

简单粗暴的理解就是,表情的“移花接木”,Live-portrait能够让一张面无表情或者只有简单表情的照片动起来,例如在Live-portrait的功能下,各大艺术作品中的人物也被“唤醒”了。

Live-portrait人像转视频模型,让照片中的脸都动起来

(图源302.AI的API超市)

自从Live-portrait技术推出后,就迅速成为了热门话题。连HuggingFace的首席战略官Thomas Wolf也在社交媒体上分享了自己使用Live-portrait功能后的作品。Live-portrait人像转视频模型,让照片中的脸都动起来

Live-Portrait为什么这么火?先来看下它的方法介绍:LivePortrait的模型训练分为两阶段。第一阶段为基础模型训练,第二阶段为贴合和重定向模块训练

在第一阶段模型训练中,LivePortrait对基于隐式点的框架,如Face vid2vid,做了一系列改进,包括:高质量训练数据收集、视频-图像混合训练、升级的网络结构、更灵活的动作变换建模、关键点引导的隐式关键点优化、级联损失函数。第一阶段的所有模块为从头训练,总的训练优化函数 (Lbase) 为以上损失项的加权和。

Live-portrait人像转视频模型,让照片中的脸都动起来

而第二阶段,贴合和重定向模块训练,考虑到实际需求,LivePortrait设计了一个贴合模块、眼部重定向模块和嘴部重定向模块。当参考人像被裁切时,驱动后的人像会从裁图空间被反贴回原始图像空间,贴合模块的加入是为了避免反贴过程中出现像素错位,比如肩膀区域。

Live-portrait人像转视频模型,让照片中的脸都动起来

眼部重定向模块旨在解决跨身份驱动时眼睛闭合不完全的问题,尤其是当眼睛小的人像驱动眼睛大的人像时。嘴部重定向模块的设计思想类似于眼部重定向模块,它通过将参考图片的嘴部驱动为闭合状态来规范输入,从而更好地进行驱动。

接下来,为了更好理解,一起来看下Live-Portrait的实际效果展示。除了文章上面提到的单一的图像生成,对于多人合照,也可以实现“表情转移”:

Live-portrait人像转视频模型,让照片中的脸都动起来

如果仅把目光局限在人物上,那就错了!因为除了能将人物的静态照片转化为动态视频,动物也可以:

Live-portrait人像转视频模型,让照片中的脸都动起来

除了人像照片,给定一段人像视频,比如舞蹈视频,Live-Portrait也可以用驱动视频对头部区域进行动作编辑,看下效果:

Live-portrait人像转视频模型,让照片中的脸都动起来

虽然Live-Portrait是一款开源模型,但是如果用户想要使用,需要在下载好模型后,设置开发环境、安装必要的软件,还需要如足够的内存和高性能的GPU等一系列繁琐的步骤。然而,302.AI提供了一个更为便捷的解决方案,首先进入302.AI官网后找到API超市,在API分类选择【视频生成】,点击302.AI;

Live-portrait人像转视频模型,让照片中的脸都动起来

只需要找到302.AI的API超市提供的Live-Portrait的API,可以省去大量配置和安装的步骤,支持在线调试,快速接入Live-Portrait模型。重要的是,302.AI提供按需付费的方式,且无捆绑套餐。

Live-portrait人像转视频模型,让照片中的脸都动起来

让我们一起看看通过302.AI的API超市实现的Live-Portrait技术成果:

Live-portrait人像转视频模型,让照片中的脸都动起来

原图(来源于302.AI的API超市)

Live-portrait人像转视频模型,让照片中的脸都动起来

效果图(来源于302.AI的API超市)

302.AI的API超市分类明晰,会实时更新市面上AI模型的API,不需要自己找模型,不需要配置环境,不需要部署,即使是小白用户也能轻松打开并立即使用。

Live-portrait人像转视频模型,让照片中的脸都动起来

参考文章:https://mp.weixin.qq.com/s/b_7N4KaY8El4JeD1lorodQ

在探索Live-portrait技术,将静态人像转换为动态视频的旅途中,我们见证了技术的巨大潜力,正如我们已经看到的那些通过Live-portrait动起来的艺术画像,每一个成功的转换都让人感受到时间的力量和科技的魅力。未来,随着技术的进步和应用的深入,我们期待看到更多曾经静默的面孔走入我们的世界,以全新的方式诉说他们的故事。

Like (0)
302.AI302.AI
Previous 2024 年 7 月 25 日 下午3:47
Next 2024 年 7 月 26 日 下午3:39

相关推荐

  • OpenAI新模型GPT-4o mini,超高性价比模型能力如何?

    北京时间7月19日凌晨,OpenAI 突然宣布发布新模型GPT-4o mini,将全面替代GPT-3.5 Turbo。 OpenAI在今年5月发布了OpenAI公司迄今为止速度最快、综合能力最强,同样也是最贵的GPT-4o模型,而这次发布的GPT-4o mini则是一个规格更小、更便宜的变体,通过兼具“能力和性价比”,拓展低价位市场的竞争。 根据官网展示的价…

    2024 年 7 月 23 日
    74100
  • 资讯丨一款易用且功能强大的手绘风画图工具——302 AI画图板

    在日常的工作生活中,单纯的文字描述往往难以传达复杂的想法和创意。这些时候,我们常常会利用各种图形来表达我们的观点,例如思维导图、流程图、原型图等。这些图像不仅能够帮助我们理清思路,还能将复杂的信息变得更加直观和易于理解。 > 302.AI AI画图板的优势 302.AI捕捉到了用户的需求,不久前在工具超市中上线了一款AI画图板工具,这一工具在Excal…

    2025 年 1 月 9 日
    17000
  • “草莓”终于现真身了,OpenAI发布最新o1大模型!

    北京时间9月13日凌晨,OpenAI发布o1大模型,“草莓”终于现真身了,酝酿已久的“草莓”终于面世。 据了解,OpenAI o1模型经过强化学习训练可以执行复杂的推理,还能解决比以前更难的科学、编码和数学问题。官方称,OpenAI o1模型在美国数学奥林匹克 (AIME) 预选赛中跻身美国前 500 名学生之列,并在物理、生物和化学问题 (GPQA) 基准…

    2024 年 9 月 13 日
    50800
  • Genmo推出全球最大开源视频生成模型Mochi V1,实测效果到底行不行?

    10月22日,Genmo在社交媒体平台发布消息,推出最新的开源视频生成模型 Mochi V1。Mochi V1采用创新的 Asymmetric Diffusion Transformer(AsymmDiT)架构,拥有高达100亿个参数,是迄今为止公开发布的最大视频生成模型。 根据Genmo官方介绍,Mochi V1模型在提示词遵循和动作质量方面表现十分出色:…

    2024 年 10 月 28 日
    26000
  • 中国专利数量远超其他国家,用户如何实现高效的专利搜索?

    7月初,世界知识产权组织(WIPO)发布了一份引人注目的报告。该报告揭示了:中国发明人申请的生成式人工智能专利数量不仅位居全球榜首,而且大幅领先于其他国家。 世界知识产权组织(WIPO)最新发布的《WIPO Patent Landscape Report on Generative AI》显示:在2014年至2023年的这一段将近10年的时间里,中国的生成式…

    2024 年 8 月 1 日
    31900

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注