最近302.AI上线了一款新的AI工具——AI头像制作,这一工具能够根据用户提供的人物照片,生成人物一致的多种风格的头像。这些风格包括但不限于复古风、未来感、卡通化、艺术抽象等,还可以自定义风格。今天就给大家分享一下这个工具开发背后的故事,希望可以对相关方向的开发者有一些启发和帮助。
试用一下:
先来看下如何获取并使用这一工具,以下是具体的步骤:
1、进入302.AI 后——点击“使用工具”——“工具超市”——找到AI头像制作;
2、进入AI头像制作工具后,可以看到左侧是操作区,可以选择风格、人物类型和尺寸,右侧为头像效果展示区域;
左侧上传图片后,可以选择需要生成的头像风格,302.AI提供了多种预设头像风格,可以满足用户不同平台不同需求,同时还支持自定义提示词,为用户提供了自由发挥的空间。
模型来源:
想要保持人物一致性,其实有很多方法,比如流行的InstantID,或直接训练Lora。但在这个工具中,我们用了一个新的方法:PuLID。
原论文:https://arxiv.org/pdf/2404.16022
HuggingFace: https://huggingface.co/spaces/yanze/PuLID-FLUX
这里不过多阐述原理,有兴趣的可以看原论文和示意图
在与IPAdapter和InstantID等方法相比, PuLID 在实现更高的ID保真度的同时,对原始模型的干扰更小。从第 1、2、5、6 和 7 列可以看出,这一方法能够在真实的人像场景中达到高度的 ID 相似度,并呈现出更好的美学效果。相比之下,其他方法要么在ID保真度方面表现不足,要么在美学效果上相较于基础模型有所下降。
API接入:
我们根据这个技术,部署了API:
1、进入302.AI——点击“使用API”——找到“API超市”——在分类中找到“图片处理”——点击“302.AI”;
2、找到Flux-selfie即可;
这个API的好处是,一次调用即可生成人物一致性照片,没有复杂的中间过程,也不需要像Lora有比较长的训练时间,属于“开箱即用”型API。
提示词开发:
通过上面的文档可以看到,这个API是通过传入一张照片和一段提示词,来生成不同的风格的照片。那么在302的AI头像制作工具中,已经预设了很多风格,这些风格提示词是怎么制作的呢?
下面就以蒸汽朋克风格为例,一起来揭秘这一风格的提示词的创作流程:
1、首先我们的提示词工程师会使用302.AI的聊天机器人——我们选择的是gpt-4o:
2、进入聊天机器人后,我们会提供一个蒸汽朋克风格的描述给大语言模型,要求模型生成图片提示词,大家可以关注下我们提示词的内容:
3、紧接着模型会生成一段优化后完整的图片提示词:
4、然后根据生成的图片优化提示词在API中多次调试修改补充细节,调整cfg、id_weight、start_step、guidance_scale等参数,找到最佳的参数,比如这个提示词的参数为:
5、最后图片测试结果如下:
那么一个预设的头像风格就做好啦。
开源链接:
关于前端界面部分,302.AI的AI头像制作工具已经开源。
链接如下:https://github.com/302ai/302_avatar_maker
作为开发者,您可以直接在我们的基础上进行开发,而无需再重复造轮子了。
总结:
不止AI头像制作工具,302.AI里每一个工具从研发、测试到正式上线,都会经历这样的过程:
对比和测试出市面最好的AI模型 -> 接入API超市 -> 深度开发成工具 -> 上线工具超市
其中还经历了不断迭代产品原型,优化算法、反复测试,以确保工具的性能和用户体验的过程,最终把合格的工具呈现到了每一位用户面前。在此,也非常感谢每一位对302.AI给予支持和反馈的用户,我们的进步离不开每一个用户的参与。
如果大家感兴趣,我们会继续分享更多背后的开发故事,希望对所有AI应用的开发者,都有所帮助,让我们一起为AI应用的普及做出贡献。