开发故事丨302.AI新工具：AI头像制作的过程和原理解析

302.AI • 2024 年 11 月 13 日下午6:29 • AI资讯 • 624 views

最近302.AI上线了一款新的AI工具——AI头像制作，这一工具能够根据用户提供的人物照片，生成人物一致的多种风格的头像。这些风格包括但不限于复古风、未来感、卡通化、艺术抽象等，还可以自定义风格。今天就给大家分享一下这个工具开发背后的故事，希望可以对相关方向的开发者有一些启发和帮助。

目录

试用一下：

先来看下如何获取并使用这一工具，以下是具体的步骤：

1、进入302.AI 后——点击“使用工具”——“工具超市”——找到AI头像制作；

2、进入AI头像制作工具后，可以看到左侧是操作区，可以选择风格、人物类型和尺寸，右侧为头像效果展示区域；

左侧上传图片后，可以选择需要生成的头像风格，302.AI提供了多种预设头像风格，可以满足用户不同平台不同需求，同时还支持自定义提示词，为用户提供了自由发挥的空间。

模型来源：

想要保持人物一致性，其实有很多方法，比如流行的InstantID，或直接训练Lora。但在这个工具中，我们用了一个新的方法：PuLID。

原论文：https://arxiv.org/pdf/2404.16022

HuggingFace: https://huggingface.co/spaces/yanze/PuLID-FLUX

这里不过多阐述原理，有兴趣的可以看原论文和示意图

在与IPAdapter和InstantID等方法相比， PuLID 在实现更高的ID保真度的同时，对原始模型的干扰更小。从第 1、2、5、6 和 7 列可以看出，这一方法能够在真实的人像场景中达到高度的 ID 相似度，并呈现出更好的美学效果。相比之下，其他方法要么在ID保真度方面表现不足，要么在美学效果上相较于基础模型有所下降。

API接入：

我们根据这个技术，部署了API：

1、进入302.AI——点击“使用API”——找到“API超市”——在分类中找到“图片处理”——点击“302.AI”；

2、找到Flux-selfie即可；

这个API的好处是，一次调用即可生成人物一致性照片，没有复杂的中间过程，也不需要像Lora有比较长的训练时间，属于“开箱即用”型API。

提示词开发：

通过上面的文档可以看到，这个API是通过传入一张照片和一段提示词，来生成不同的风格的照片。那么在302的AI头像制作工具中，已经预设了很多风格，这些风格提示词是怎么制作的呢？

下面就以蒸汽朋克风格为例，一起来揭秘这一风格的提示词的创作流程：

1、首先我们的提示词工程师会使用302.AI的聊天机器人——我们选择的是gpt-4o：

2、进入聊天机器人后，我们会提供一个蒸汽朋克风格的描述给大语言模型，要求模型生成图片提示词，大家可以关注下我们提示词的内容：

3、紧接着模型会生成一段优化后完整的图片提示词：

4、然后根据生成的图片优化提示词在API中多次调试修改补充细节，调整cfg、id_weight、start_step、guidance_scale等参数，找到最佳的参数，比如这个提示词的参数为：

5、最后图片测试结果如下：

那么一个预设的头像风格就做好啦。

开源链接：

关于前端界面部分，302.AI的AI头像制作工具已经开源。

链接如下：https://github.com/302ai/302_avatar_maker

作为开发者，您可以直接在我们的基础上进行开发，而无需再重复造轮子了。

总结：

不止AI头像制作工具，302.AI里每一个工具从研发、测试到正式上线，都会经历这样的过程：

对比和测试出市面最好的AI模型 -> 接入API超市 -> 深度开发成工具 -> 上线工具超市

其中还经历了不断迭代产品原型，优化算法、反复测试，以确保工具的性能和用户体验的过程，最终把合格的工具呈现到了每一位用户面前。在此，也非常感谢每一位对302.AI给予支持和反馈的用户，我们的进步离不开每一个用户的参与。

如果大家感兴趣，我们会继续分享更多背后的开发故事，希望对所有AI应用的开发者，都有所帮助，让我们一起为AI应用的普及做出贡献。

All Rights Reserved by 302.AI

Like (2)

0

资讯丨FLUX 1.1 Pro推出Ultra模式，来302.AI实测揭秘真实效果

Previous 2024 年 11 月 11 日下午6:53

资讯丨302.AI正式上线客户端！三个版本可供选择

Next 2024 年 11 月 14 日下午7:44

302.AI 新品发布 | AI绘图总翻车？绘图提示词专家帮你精准复刻图片，自由修改风格！

许多人在使用AI绘图时，都会面临一些棘手的问题，比如想复刻某张图，但尝试了不同的关键词后生成效果依然货不对板；再比如想要对现有的图片进行风格调整使其更贴合自己的独特需求，但却难以维持画面元素的一致性。针对以上痛点，302.AI 上新了一款AI绘图提示词专家工具，这一工具结合了“图片转提示词”和“风格修改”两大功能，用户不仅可以通过上传图片获得精准提示词复刻…

2025 年 4 月 25 日 • AI资讯
13400
资讯丨马斯克号称地表最强的Grok 3系列模型，在实测中到底能否超越R1和o3-mini？

2月19日，马斯克旗下的大模型平台 xAI 推出了新的模型——Grok-3。官方宣称，Grok-3 在推理、数学、编码和指令遵循任务中均表现出色，并在一系列基准测试中表现出色。而马斯克更是称一模型为 ⌈ 地表最强 ⌋。（非推理模式的Grok-3与其它大模型能力对比）根据了解，grok-3 并非单一模型，而是一个包含多个版本的模型家族。其中包括了变体版本—…

2025 年 2 月 24 日 • AI资讯
30400
资讯丨通义万相2.1模型实测绝了！汉字竟在视频里“活”了

继豆包图像模型攻克汉字生成的难题后，国内AI视频生成领域在中文生成方面再次来了新突破！今年年初，阿里云推出了全新升级的的视频生成模型——通义万相2.1。据了解，这是⌈ 首个具备中文文字生成能力的视频生成模型 ⌋ 。通义万相2.1视频模型一经推出，便以 84.70% 总分登顶权威评测榜单VBench榜首。除了中文文字生成的创新，该模型在复杂运动、大幅度动作…

2025 年 2 月 21 日 • AI资讯
76800
资讯丨302.AI 代码竞技场：大模型编程能力的“超级擂台”

一个大模型能力强不强，我们常常会从多个维度去评估，其中编程能力是尤为关键的一项。对于许多用户而言，想要准确测试大模型的代码能力却常常不知道该从何入手，或者不知道选择哪个平台进行测试。为了帮助用户解决这一问题，302.AI最新上线了一款工具——代码竞技场，这一工具集结了多种先进模型，为用户提供了一个广阔、便捷、易用的代码测试平台。工具界面展示： 302.…

2025 年 2 月 19 日 • AI资讯
27200

发表回复