资讯丨Gemini-2.0-flash & Doubao-seededit,最近火爆AI届的图像编辑功能到底谁更强?

要说近期AI圈里最红的,应该就是来自谷歌的gemini-2.0-flash-exp-image-generation。我们可以简单理解它为是一个图像编辑模型,gemini-2.0-flash-exp-image-generation可以结合了多模态输入、增强版推理以及自然语言理解来进行图像生成,还能够通过自然语言对话直接对图像进行修改

这种把传统的语言大模型和图像生成模型结合的方式,让用户无需掌握复杂的图像处理软件,只需简单几句提示词即可完成对图片的修改,还能保持角色和图像场景的一致性。

但其实更早之前,国内就出现了类似的产品,那就是由 Doubao 团队开发doubao-seededit。doubao-seededit可以根据用户的文字指令直接对图像进行修改,包括更换图像内容、调整风格、光照或角度等,且操作简单易用。

而在近期 ,302.AI 引入了 gemini-2.0-flash-exp-image-generation 和 doubao-seededit 两个模型,改造成OpenAI兼容的API格式。这样用户不仅能够通过302.AI聊天机器人直接生成使用,还可以通过API接入到第三方程序里。

接下来就带大家实测对比看看哪一模型的效果更优!

实测效果对比:

PS:以下所有案例均由302.AI聊天机器人生成。

实测1:一键生成图文博客

提示词:给我写一个做可乐鸡翅的教程,带图片

对比结果:gemini > doubao

虽然gemini生成的图文教程存在瑕疵,但是模型本身可以输出多张图片+文字,相当惊艳。而doubao模型没有这个功能,所以gemini更胜一筹。

gemini:成功生成了图文并茂的美食教程,但生成的教程配图出现的人物关节位置较不自然。

资讯丨Gemini-2.0-flash & Doubao-seededit,最近火爆AI届的图像编辑功能到底谁更强?

doubao:doubao-seededit原并不支持生成图片,以下所呈现的效果是302.AI为自动调用即梦2.1模型后所生成的。

资讯丨Gemini-2.0-flash & Doubao-seededit,最近火爆AI届的图像编辑功能到底谁更强?

实测2:消除路人

提示词:请帮我消除背后的路人

原图:

资讯丨Gemini-2.0-flash & Doubao-seededit,最近火爆AI届的图像编辑功能到底谁更强?

对比结果:gemini < doubao

主要对比消除后的场景细节以及主体变化,整体来说doubao消除后痕迹更小,所以doubao胜。

gemini:背景消除后细节处理较差,而且人物的脸部发生了改变,尤其眼睛明显不协调。

资讯丨Gemini-2.0-flash & Doubao-seededit,最近火爆AI届的图像编辑功能到底谁更强?

doubao:消除后场景细节做得不错,脸部稍微有点变化,但没有出现五官不合理的现象。

资讯丨Gemini-2.0-flash & Doubao-seededit,最近火爆AI届的图像编辑功能到底谁更强?

实测3:替换背景

提示词:请将背景换成海滩

资讯丨Gemini-2.0-flash & Doubao-seededit,最近火爆AI届的图像编辑功能到底谁更强?

对比结果:gemini < doubao

对比替换场景后与人物的融合度,doubao在保持人物一致性上不如gemini,但gemini替换后左侧脸部墨镜直接消失。

gemini:替换后场景与人物融合还可以,但物的衣服和太阳镜附近的元素没有处理干净左侧墨镜直接消失了。

资讯丨Gemini-2.0-flash & Doubao-seededit,最近火爆AI届的图像编辑功能到底谁更强?

doubao:替换的背景和人物还算融合,但是脸部没能保持一致性。

资讯丨Gemini-2.0-flash & Doubao-seededit,最近火爆AI届的图像编辑功能到底谁更强?

实测4:图片转线稿

提示词:将图片一比一转成手绘线稿

原图:

资讯丨Gemini-2.0-flash & Doubao-seededit,最近火爆AI届的图像编辑功能到底谁更强?

对比结果:gemini > doubao

这一实测效果高下立见,doubao转换线稿风失败。

gemini:转线稿效果还不错,但可以明显看到背景元素缺失,线稿人物主体效果。

资讯丨Gemini-2.0-flash & Doubao-seededit,最近火爆AI届的图像编辑功能到底谁更强?

doubao:转线稿效果失败,输出的结果图片并不是线稿风。

资讯丨Gemini-2.0-flash & Doubao-seededit,最近火爆AI届的图像编辑功能到底谁更强?

实测5:图片添加元素和文字

提示词:在图片上水瓶的瓶身上添加文字“302.AI”。

资讯丨Gemini-2.0-flash & Doubao-seededit,最近火爆AI届的图像编辑功能到底谁更强?

对比结果:gemini > doubao

从字体艺术感方面,doubao会更好,但可惜生成了多余的文字内容,在遵循提示词方面不够准确。

gemini:文字位置摆放正确,文字生成准确,图片色调稍微有变化,但整体来说效果很不错。

资讯丨Gemini-2.0-flash & Doubao-seededit,最近火爆AI届的图像编辑功能到底谁更强?

doubao:位置准确,文字也算是正确,而且字体更加有艺术感,但有多余文字内容出现,而且画面色调也轻微改变。

资讯丨Gemini-2.0-flash & Doubao-seededit,最近火爆AI届的图像编辑功能到底谁更强?

实测6:替换指定物品

提示词:茶杯变成蛋糕

原图:

资讯丨Gemini-2.0-flash & Doubao-seededit,最近火爆AI届的图像编辑功能到底谁更强?

对比结论:gemini < doubao

对比替换后的整体画面协调度,gemini替换成蛋糕后阴影依旧不变,不太合理。而doubao替换后阴影形状大致与物品一致,效果整体会较好。

gemini:替换蛋糕后,画面的光影效果看起来不太协调,整体效果一般。

资讯丨Gemini-2.0-flash & Doubao-seededit,最近火爆AI届的图像编辑功能到底谁更强?

doubao:局部替换成蛋糕后,画面的光影看起来较自然协调的,整体效果不错。

资讯丨Gemini-2.0-flash & Doubao-seededit,最近火爆AI届的图像编辑功能到底谁更强?

实测总结:

综合以上实测,我们可以初步得出以下结论:

优势:

gemini-2.0-flash可将图片转化风格、或者上传多图指定替换的物品、能支持快速生成文字及图片内容。

doubao-seededit:更适合在原图上进行局部修改,比如消除人物、将图中的某一物品替换等。

存在的局限:

gemini-2.0-flash

(1)涉及人物五官、四肢方面的效果质量不太稳定,容易出现扭曲的情况。

(2)在图片上做局部修改细节较差,不如doubao。

doubao-seededit:

(1)替换图片的物品只能通过文字描述,无法像gemini一样通过指定替换物品图片进行。

(2)转换图片风格效果不稳定。

(3)在添加文字元素时会添加提示词外的文字。

Like (0)
302.AI302.AI
Previous 2025 年 3 月 21 日 上午11:45
Next 5天前

相关推荐

  • 资讯丨最新小参数模型的多方面对比测评:Gemma 3 27b VS Mistral-small-3.1-24B

    3月12日,谷歌正式推出了全新的Gemma 3系列模型,该系列包含四种不同参数版本:1B、4B、12B和27B。据官方介绍,Gemma 3具备强大的多模态能力,能够支持视觉与语言的输入,可以理解140+语言,并提供128k token的上下文窗口。 短短几天后,法国初创公司Mistral AI 也推出了新模型——Mistral Small 3.1。直面对打G…

    2025 年 3 月 21 日
    16400
  • “草莓”终于现真身了,OpenAI发布最新o1大模型!

    北京时间9月13日凌晨,OpenAI发布o1大模型,“草莓”终于现真身了,酝酿已久的“草莓”终于面世。 据了解,OpenAI o1模型经过强化学习训练可以执行复杂的推理,还能解决比以前更难的科学、编码和数学问题。官方称,OpenAI o1模型在美国数学奥林匹克 (AIME) 预选赛中跻身美国前 500 名学生之列,并在物理、生物和化学问题 (GPQA) 基准…

    2024 年 9 月 13 日
    56100
  • 资讯丨DeepClaude好用?来302.AI试试DeepAnyLLM

    DeepClaude 是近期备受关注的一个AI项目,它通过将 DeepSeek-R1 的链式推理与 Claude 3.5 Sonnet 的代码生成能力深度融合,形成了独特的双模型协同机制,从而实现了高质量内容的高效输出。 受DeepClaude的启发,302.AI推出了新功能:为所有大模型增加推理能力。 但与DeepClaude不同的是,302.AI的这一功…

    2025 年 3 月 5 日
    22300
  • Runway Gen-3 Alpha图生视频上线,图片转视频只需要一步?!

    7月30日凌晨,Runway官方在社交媒体平台宣布,在6月中旬推出的视频模型Gen-3Alpha正式推出图生视频功能。官方表示,图生视频功能将极大提高了生成视频的艺术控制和一致性。 这一更新允许用户将任何图像用作视频生成的第一帧,可以单独使用,也可以与文本提示一起使用。 简单的说就是,用户上传一张图片可以单独生成一个视频,也可以在上传图片后搭配文字描述,再生…

    2024 年 8 月 2 日
    42300
  • AI直接翻译PDF?又一解放生产力的神器来袭!

    近日,一款来自初创公司的识别神器Doc2X备受关注。小编为此也特意去了解了,发现非常有意思的是,为了让用户更直观的看到Doc2X的实力,Doc2X在官网中以文档的形式给大家展示了Doc2X与市场上各竞品的识别能力做对比分析。 竞品主要包括:mathpix、庖丁PDFlux、pix2text、合合信息TextIn、腾讯云大模型知识引擎文档解析。测评范围主要包括…

    2024 年 7 月 17 日
    60100

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注