要说近期AI圈里最红的,应该就是来自谷歌的gemini-2.0-flash-exp-image-generation。我们可以简单理解它为是一个图像编辑模型,gemini-2.0-flash-exp-image-generation可以结合了多模态输入、增强版推理以及自然语言理解来进行图像生成,还能够通过自然语言对话直接对图像进行修改。
这种把传统的语言大模型和图像生成模型结合的方式,让用户无需掌握复杂的图像处理软件,只需简单几句提示词即可完成对图片的修改,还能保持角色和图像场景的一致性。
但其实更早之前,国内就出现了类似的产品,那就是由 Doubao 团队开发doubao-seededit。doubao-seededit可以根据用户的文字指令直接对图像进行修改,包括更换图像内容、调整风格、光照或角度等,且操作简单易用。
而在近期 ,302.AI 引入了 gemini-2.0-flash-exp-image-generation 和 doubao-seededit 两个模型,并改造成了OpenAI兼容的API格式。这样用户不仅能够通过302.AI聊天机器人直接生成使用,还可以通过API接入到第三方程序里。
接下来就带大家实测对比看看哪一模型的效果更优!
实测效果对比:
PS:以下所有案例均由302.AI聊天机器人生成。
实测1:一键生成图文博客
提示词:给我写一个做可乐鸡翅的教程,带图片
对比结果:gemini > doubao
虽然gemini生成的图文教程存在瑕疵,但是模型本身可以输出多张图片+文字,相当惊艳。而doubao模型没有这个功能,所以gemini更胜一筹。
gemini:成功生成了图文并茂的美食教程,但生成的教程配图出现的人物关节位置较不自然。
doubao:doubao-seededit原并不支持生成图片,以下所呈现的效果是302.AI为自动调用即梦2.1模型后所生成的。
实测2:消除路人
提示词:请帮我消除背后的路人
原图:
对比结果:gemini < doubao
主要对比消除后的场景细节以及主体变化,整体来说doubao消除后痕迹更小,所以doubao胜。
gemini:背景消除后细节处理较差,而且人物的脸部发生了改变,尤其眼睛明显不协调。
doubao:消除后场景细节做得不错,脸部稍微有点变化,但没有出现五官不合理的现象。
实测3:替换背景
提示词:请将背景换成海滩
对比结果:gemini < doubao
对比替换场景后与人物的融合度,doubao在保持人物一致性上不如gemini,但gemini替换后左侧脸部墨镜直接消失。
gemini:替换后场景与人物融合还可以,但物的衣服和太阳镜附近的元素没有处理干净左侧墨镜直接消失了。
doubao:替换的背景和人物还算融合,但是脸部没能保持一致性。
实测4:图片转线稿
提示词:将图片一比一转成手绘线稿
原图:
对比结果:gemini > doubao
这一实测效果高下立见,doubao转换线稿风失败。
gemini:转线稿效果还不错,但可以明显看到背景元素缺失,线稿人物主体效果。
doubao:转线稿效果失败,输出的结果图片并不是线稿风。
实测5:图片添加元素和文字
提示词:在图片上水瓶的瓶身上添加文字“302.AI”。
对比结果:gemini > doubao
从字体艺术感方面,doubao会更好,但可惜生成了多余的文字内容,在遵循提示词方面不够准确。
gemini:文字位置摆放正确,文字生成准确,图片色调稍微有变化,但整体来说效果很不错。
doubao:位置准确,文字也算是正确,而且字体更加有艺术感,但有多余文字内容出现,而且画面色调也轻微改变。
实测6:替换指定物品
提示词:茶杯变成蛋糕
原图:
对比结论:gemini < doubao
对比替换后的整体画面协调度,gemini替换成蛋糕后阴影依旧不变,不太合理。而doubao替换后阴影形状大致与物品一致,效果整体会较好。
gemini:替换蛋糕后,画面的光影效果看起来不太协调,整体效果一般。
doubao:局部替换成蛋糕后,画面的光影看起来较自然协调的,整体效果不错。
实测总结:
综合以上实测,我们可以初步得出以下结论:
优势:
gemini-2.0-flash:可将图片转化风格、或者上传多图指定替换的物品、能支持快速生成文字及图片内容。
doubao-seededit:更适合在原图上进行局部修改,比如消除人物、将图中的某一物品替换等。
存在的局限:
gemini-2.0-flash:
(1)涉及人物五官、四肢方面的效果质量不太稳定,容易出现扭曲的情况。
(2)在图片上做局部修改细节较差,不如doubao。
doubao-seededit:
(1)替换图片的物品只能通过文字描述,无法像gemini一样通过指定替换物品图片进行。
(2)转换图片风格效果不稳定。
(3)在添加文字元素时会添加提示词外的文字。
在302.AI上使用gemini-2.0-flash-exp-image-generation和 doubao-seededit模型
302.AI的聊天机器人和API超市提供了按需付费无订阅的服务方式,企业和个人用户可按需灵活选用。
1、使用模型对话
依次点击使用机器人→聊天机器人→ 模型→下滑到Gemini/国产模型类目→ 按需选择模型→创建聊天机器人;
gemini-2.0-flash-exp-image-generation:
doubao-seededit:
2、使用模型API
企业用户可以通过302.AI的API超市快速、便捷地调用模型,还能够根据特定项目需求进行定制化开发。
相关文档:使用API→API超市→语言大模型→Gemini/国产模型→查看文档;