开发故事丨302.AI新工具:AI头像制作的过程和原理解析

最近302.AI上线了一款新的AI工具——AI头像制作,这一工具能够根据用户提供的人物照片,生成人物一致的多种风格的头像。这些风格包括但不限于复古风、未来感、卡通化、艺术抽象等,还可以自定义风格。今天就给大家分享一下这个工具开发背后的故事,希望可以对相关方向的开发者有一些启发和帮助。

试用一下:

先来看下如何获取并使用这一工具,以下是具体的步骤:

1、进入302.AI 后——点击“使用工具”——“工具超市”——找到AI头像制作;

开发故事丨302.AI新工具:AI头像制作的过程和原理解析

2、进入AI头像制作工具后,可以看到左侧是操作区,可以选择风格、人物类型和尺寸,右侧为头像效果展示区域;

开发故事丨302.AI新工具:AI头像制作的过程和原理解析

左侧上传图片后,可以选择需要生成的头像风格,302.AI提供了多种预设头像风格,可以满足用户不同平台不同需求,同时还支持自定义提示词,为用户提供了自由发挥的空间。

开发故事丨302.AI新工具:AI头像制作的过程和原理解析

模型来源:

想要保持人物一致性,其实有很多方法,比如流行的InstantID,或直接训练Lora。但在这个工具中,我们用了一个新的方法:PuLID

原论文:https://arxiv.org/pdf/2404.16022

HuggingFace: https://huggingface.co/spaces/yanze/PuLID-FLUX

这里不过多阐述原理,有兴趣的可以看原论文和示意图

开发故事丨302.AI新工具:AI头像制作的过程和原理解析

在与IPAdapter和InstantID等方法相比, PuLID 在实现更高的ID保真度的同时,对原始模型的干扰更小。从第 1、2、5、6 和 7 列可以看出,这一方法能够在真实的人像场景中达到高度的 ID 相似度,并呈现出更好的美学效果。相比之下,其他方法要么在ID保真度方面表现不足,要么在美学效果上相较于基础模型有所下降。

开发故事丨302.AI新工具:AI头像制作的过程和原理解析

API接入:

我们根据这个技术,部署了API:

1、进入302.AI——点击“使用API”——找到“API超市”——在分类中找到“图片处理”——点击“302.AI”;

开发故事丨302.AI新工具:AI头像制作的过程和原理解析

2、找到Flux-selfie即可;

开发故事丨302.AI新工具:AI头像制作的过程和原理解析

这个API的好处是,一次调用即可生成人物一致性照片,没有复杂的中间过程,也不需要像Lora有比较长的训练时间,属于“开箱即用”型API。

提示词开发:

通过上面的文档可以看到,这个API是通过传入一张照片和一段提示词,来生成不同的风格的照片。那么在302的AI头像制作工具中,已经预设了很多风格,这些风格提示词是怎么制作的呢?

下面就以蒸汽朋克风格为例,一起来揭秘这一风格的提示词的创作流程:

开发故事丨302.AI新工具:AI头像制作的过程和原理解析

1、首先我们的提示词工程师会使用302.AI的聊天机器人——我们选择的是gpt-4o:

开发故事丨302.AI新工具:AI头像制作的过程和原理解析

2、进入聊天机器人后,我们会提供一个蒸汽朋克风格的描述给大语言模型,要求模型生成图片提示词,大家可以关注下我们提示词的内容:

开发故事丨302.AI新工具:AI头像制作的过程和原理解析

3、紧接着模型会生成一段优化后完整的图片提示词:

开发故事丨302.AI新工具:AI头像制作的过程和原理解析

4、然后根据生成的图片优化提示词在API中多次调试修改补充细节,调整cfg、id_weight、start_step、guidance_scale等参数,找到最佳的参数,比如这个提示词的参数为:

开发故事丨302.AI新工具:AI头像制作的过程和原理解析

5、最后图片测试结果如下:

开发故事丨302.AI新工具:AI头像制作的过程和原理解析

那么一个预设的头像风格就做好啦。

开源链接:

关于前端界面部分,302.AI的AI头像制作工具已经开源。

链接如下:https://github.com/302ai/302_avatar_maker

作为开发者,您可以直接在我们的基础上进行开发,而无需再重复造轮子了。

总结:

不止AI头像制作工具,302.AI里每一个工具从研发、测试到正式上线,都会经历这样的过程:

对比和测试出市面最好的AI模型 -> 接入API超市 -> 深度开发成工具 -> 上线工具超市

其中还经历了不断迭代产品原型,优化算法、反复测试,以确保工具的性能和用户体验的过程,最终把合格的工具呈现到了每一位用户面前。在此,也非常感谢每一位对302.AI给予支持和反馈的用户,我们的进步离不开每一个用户的参与。

如果大家感兴趣,我们会继续分享更多背后的开发故事,希望对所有AI应用的开发者,都有所帮助,让我们一起为AI应用的普及做出贡献。

Like (1)
302.AI302.AI
Previous 2024 年 11 月 11 日 下午6:53
Next 5天前

相关推荐

  • 当FLUX结合LoRA技术,你还分得清现实和AI吗?

    8月初,由Stability AI 前创始成员创立的新公司Black Forest Labs推出了图像生成模型FLUX.1,而FLUX.1模型不仅在生成效果上超越Stable Diffusion,还能与 Midjourney 直接对打。如果想了解FLUX.1模型的朋友可以翻阅小编往期作品,因为今天的主角,不止是FLUX.1。 AI领域一直被形容为“内卷王者”…

    2024 年 8 月 19 日
    15900
  • AI视力考验:各AI模型的视觉理解能力如何?

    近日,行业内有不少新模型涌现出大众的面前,我们会发现,有的模型会在其官方宣传中提到“多模态”一词,比如大家熟知的GPT-4o、Gemini 1.5 Pro等,在发布时都被定义为“原生多模态”,这些多模态LLM在相关的介绍中,都用到了“视觉能力”、“视觉理解”这样的表述。 简单的理解,就是这些模型能够“看得见,并看得懂”,仿佛人的眼睛。为此,很多人…

    2024 年 7 月 25 日
    16800
  • 资讯丨DeepMind新模型Gemini-exp-1114模型霸榜第一?实测结果出人意料

    11月15日,谷歌DeepMind推出Gemini-exp-1114,这是一个实验性模型。 据了解,在经过6000+网友匿名投票后,Gemini-exp-1114模型在AI基准测试中位居总体排名第一,Gemini-exp-1114模型分数直涨40+,与GPT-4-latest并列第一,并超越了o1-preview。 Gemini-exp-1114在处理复杂提…

    1天前
    1300
  • 13.8和13.11哪个大这都能吵起来?不如先来看看AI模型的数学能力怎么样

    7月13日,最新一期的《歌手》公布排名,孙楠得票13.8%,外国歌手香缇莫得票13.11%,以微小的分数差距引发网友热议:13.8和13.11哪个大? 看了一下评论,居然有不少网友认为是13.11比13.8大,顺带在评论区分析了一番。看到评论的小编,有那么一瞬间以为他们在玩抽象。怪不得网友戏称这一群认为13.11更大的人是“九年义务漏网之鱼”,毕竟这是小学的…

    2024 年 7 月 22 日
    26400
  • 资讯丨“Thinking Claude”prompt真的这么神?302带你实测揭秘看看

    最近,又一个prompt在网上火了起来,这一prompt名为“ Thinking Claude”,有网友称它为Claude3.5的神级prompt,而更让人意想不到的的是,这个prompt背后的作者,居然是一个十七岁的少年! “Thinking Claude”的核心在于它引导Claude进行一种更为“人性化”的思考方式,强调思维过程的自然流动,而非简单的结构…

    4天前
    8600

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注