开发故事丨302.AI新工具:AI头像制作的过程和原理解析

最近302.AI上线了一款新的AI工具——AI头像制作,这一工具能够根据用户提供的人物照片,生成人物一致的多种风格的头像。这些风格包括但不限于复古风、未来感、卡通化、艺术抽象等,还可以自定义风格。今天就给大家分享一下这个工具开发背后的故事,希望可以对相关方向的开发者有一些启发和帮助。

试用一下:

先来看下如何获取并使用这一工具,以下是具体的步骤:

1、进入302.AI 后——点击“使用工具”——“工具超市”——找到AI头像制作;

开发故事丨302.AI新工具:AI头像制作的过程和原理解析

2、进入AI头像制作工具后,可以看到左侧是操作区,可以选择风格、人物类型和尺寸,右侧为头像效果展示区域;

开发故事丨302.AI新工具:AI头像制作的过程和原理解析

左侧上传图片后,可以选择需要生成的头像风格,302.AI提供了多种预设头像风格,可以满足用户不同平台不同需求,同时还支持自定义提示词,为用户提供了自由发挥的空间。

开发故事丨302.AI新工具:AI头像制作的过程和原理解析

模型来源:

想要保持人物一致性,其实有很多方法,比如流行的InstantID,或直接训练Lora。但在这个工具中,我们用了一个新的方法:PuLID

原论文:https://arxiv.org/pdf/2404.16022

HuggingFace: https://huggingface.co/spaces/yanze/PuLID-FLUX

这里不过多阐述原理,有兴趣的可以看原论文和示意图

开发故事丨302.AI新工具:AI头像制作的过程和原理解析

在与IPAdapter和InstantID等方法相比, PuLID 在实现更高的ID保真度的同时,对原始模型的干扰更小。从第 1、2、5、6 和 7 列可以看出,这一方法能够在真实的人像场景中达到高度的 ID 相似度,并呈现出更好的美学效果。相比之下,其他方法要么在ID保真度方面表现不足,要么在美学效果上相较于基础模型有所下降。

开发故事丨302.AI新工具:AI头像制作的过程和原理解析

API接入:

我们根据这个技术,部署了API:

1、进入302.AI——点击“使用API”——找到“API超市”——在分类中找到“图片处理”——点击“302.AI”;

开发故事丨302.AI新工具:AI头像制作的过程和原理解析

2、找到Flux-selfie即可;

开发故事丨302.AI新工具:AI头像制作的过程和原理解析

这个API的好处是,一次调用即可生成人物一致性照片,没有复杂的中间过程,也不需要像Lora有比较长的训练时间,属于“开箱即用”型API。

提示词开发:

通过上面的文档可以看到,这个API是通过传入一张照片和一段提示词,来生成不同的风格的照片。那么在302的AI头像制作工具中,已经预设了很多风格,这些风格提示词是怎么制作的呢?

下面就以蒸汽朋克风格为例,一起来揭秘这一风格的提示词的创作流程:

开发故事丨302.AI新工具:AI头像制作的过程和原理解析

1、首先我们的提示词工程师会使用302.AI的聊天机器人——我们选择的是gpt-4o:

开发故事丨302.AI新工具:AI头像制作的过程和原理解析

2、进入聊天机器人后,我们会提供一个蒸汽朋克风格的描述给大语言模型,要求模型生成图片提示词,大家可以关注下我们提示词的内容:

开发故事丨302.AI新工具:AI头像制作的过程和原理解析

3、紧接着模型会生成一段优化后完整的图片提示词:

开发故事丨302.AI新工具:AI头像制作的过程和原理解析

4、然后根据生成的图片优化提示词在API中多次调试修改补充细节,调整cfg、id_weight、start_step、guidance_scale等参数,找到最佳的参数,比如这个提示词的参数为:

开发故事丨302.AI新工具:AI头像制作的过程和原理解析

5、最后图片测试结果如下:

开发故事丨302.AI新工具:AI头像制作的过程和原理解析

那么一个预设的头像风格就做好啦。

开源链接:

关于前端界面部分,302.AI的AI头像制作工具已经开源。

链接如下:https://github.com/302ai/302_avatar_maker

作为开发者,您可以直接在我们的基础上进行开发,而无需再重复造轮子了。

总结:

不止AI头像制作工具,302.AI里每一个工具从研发、测试到正式上线,都会经历这样的过程:

对比和测试出市面最好的AI模型 -> 接入API超市 -> 深度开发成工具 -> 上线工具超市

其中还经历了不断迭代产品原型,优化算法、反复测试,以确保工具的性能和用户体验的过程,最终把合格的工具呈现到了每一位用户面前。在此,也非常感谢每一位对302.AI给予支持和反馈的用户,我们的进步离不开每一个用户的参与。

如果大家感兴趣,我们会继续分享更多背后的开发故事,希望对所有AI应用的开发者,都有所帮助,让我们一起为AI应用的普及做出贡献。

Like (2)
302.AI302.AI
Previous 2024 年 11 月 11 日 下午6:53
Next 2024 年 11 月 14 日 下午7:44

相关推荐

  • 资讯丨实测对比阿里首个多模态模型QVQ-72B-Preview,能力还行但有点“话痨”?!

    12月25日圣诞节当天,阿里通义千问Qwen团队发文宣布推出首个开源视觉推理模型——QVQ-72B-Preview。该模型展现出优秀的视觉理解和推理能力,在解决数学、物理、科学等领域的复杂推理问题上表现尤为突出。 Qwen团队在 4 个数据集上评估了QVQ-72B-Preview,包括MMMU、MathVista、MathVision 、OlympiadBe…

    2024 年 12 月 27 日
    37300
  • 302.AI带来实时语音便捷方案,让你快速体验AI语音通话

    在10月初,OpenAI在旧金山召开了开发者大会。在发布会中,OpenAI推出了Realtime API 的公开测试版。 Realtime API是一种实时多模态API,它允许开发人员构建低延迟、多模态的AI应用体验。这个API背后的技术是GPT-4o模型,它支持音频输入和输出,能够实现超越传统基于文本的AI对话的实时、自然的语音交互。 像Realtime这…

    2024 年 10 月 31 日
    53200
  • 资讯丨谷歌时隔一周发布的新模型gemini-exp-1121,实测竟发现模型能力出现了倒退?

    时隔gemini-exp-1114发布仅一周,谷歌DeepMind在11月21日再次发布实验AI模型gemini-exp-1121。根据官方介绍,gemini-exp-1121在编码、推理和视觉能力都有提升。 在gemini-exp-1121发布之后,它迅速赢得了Arena榜单的冠军宝座,根据测评结果显示,除了风格控制外,其他方面都位于第一。 但在发布gem…

    2024 年 12 月 3 日
    21400
  • 资讯丨当小红书爆火的Recraft新风格与添加背景文字功能结合,会碰撞出什么样的火花?

    最近,302.AI工具超市的AI图片工具箱推出了一个全新的功能——添加背景文字。这一功能的灵感最初来源于苹果设备中壁纸所展现出的分层效果。 在前段时间,一位16岁的高中生也构建了一个应用叫“text-behind-image”,这款应用旨在帮助用户轻松地将文字添加到图像背景中,实现文字与背景图像的融合。在实际体验该应用后,我们发现线上版本无法使用,并且有可能…

    2024 年 11 月 27 日
    58200
  • 资讯丨QwQ-32B & DeepSeek-R1 & QwQ-Plus 神仙打架,到底谁更出色?看实测揭秘真相

    3月6日,阿里开源了新推理模型—— QwQ-32B。QwQ 是 Qwen 系列的推理模型,具备思考和推理能力。其优势是推理速度快,在数学、编程和通用任务推理方面表现出色,整体性能比肩DeepSeek-R1。 与此同时,阿里云开放平台还放出了一个名为 QwQ-Plus 的模型,官方描述这是基于 Qwen2.5 模型训练的 QwQ 推理模型,通过强化学习大幅度提…

    2025 年 3 月 12 日
    30200

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注