资讯丨文生图模型对比测评:从吉卜力风格到文字内容生成,到底谁才是王者?

上个月,AI图像生成模型领域涌现出了很多新面孔,例如MiniMax推出的首款图像模型Image-01,以及智谱2025年开源的首个文生图模型CogView-4-250304等。

今天,302.AI将对市场上的文生图模型进行评测,期望评测结果能够为大家选择模型时提供参考。参与评测的模型共有六个,具体包括:

MiniMax-Image-01、Midjourney v6.1、Recraft V3、Google imagen3、CogView-4-250304 、百度-iRAG;

模型实测

(以下所有效果都由302.AI图片竞技场生成,且为了确保公平性,均取自模型第一次生成的效果。同时采用中文提示词,所有测评结果仅供参考。)

实测1:吉卜力风格

提示词:吉卜力风格,夏日午后漂浮的空中岛屿,戴着草帽的少女赤脚奔跑在青苔台阶上,木质风车屋旁盛开着巨型蓝紫色绣球花,半透明精灵群从花瓣间飞散,远处云海中若隐若现的蒸汽朋克飞艇,暖金色阳光透过橡树叶形成光斑,柔和的丁达尔光线,细腻的笔触与色块堆叠。

评估标准:

1、吉卜力风格符合度

2、提示词遵循准确性

3、人物细节及画面质量

资讯丨文生图模型对比测评:从吉卜力风格到文字内容生成,到底谁才是王者?

优劣排序:① MiniMax-Image-01>③ Recraft V3 >④ Google imagen3>② Midjourney v6.1>⑥ 百度-iRAG>⑤ CogView-4

Image-01:光影效果处理适当,画面呈现暖色调,提示词所提元素均已生成,其综合风格、视觉美感及细节评估在此次测试中表现最佳。

资讯丨文生图模型对比测评:从吉卜力风格到文字内容生成,到底谁才是王者?

Midjourney v6.1:整体呈冷色调,尽管细节相对丰富,但整体风格更具MJ的独特性,与吉卜力风格相差较大。同时,提示词的遵循度不高,例如作品中未能呈现木质风车屋。

资讯丨文生图模型对比测评:从吉卜力风格到文字内容生成,到底谁才是王者?

Recraft V3:画风最接近吉卜力风格,但提示词的准确性欠佳。例如,提示词中的“少女赤脚奔跑在青苔台阶上”,最终呈现的效果人物既不是赤脚也没有看到青苔台阶。

资讯丨文生图模型对比测评:从吉卜力风格到文字内容生成,到底谁才是王者?

Google imagen3:较接近吉卜力风格,提示词遵循还不错,但是人物奔跑的动态未能体现,人物的脸部细节方面也处理不够好。

资讯丨文生图模型对比测评:从吉卜力风格到文字内容生成,到底谁才是王者?

CogView-4:画面的色彩饱和度较高、人物呈现出异常的三臂现象,并且提示词中提到的风车屋未能体现,整体画面质量欠佳。

资讯丨文生图模型对比测评:从吉卜力风格到文字内容生成,到底谁才是王者?

百度-iRAG:画面的内容非常丰富,提示词得到了较好的遵循,但风格不太符合,且画面的质感一般。

资讯丨文生图模型对比测评:从吉卜力风格到文字内容生成,到底谁才是王者?

实测2:海报生成

提示词:生成一张清明节主题海报,整体风格为清新简约的中国风。画面中有一棵繁茂的柳树,柳枝低垂,随风轻摆,柳树下有一家人正在放风筝,风筝高高飘扬在蓝天中,象征着希望与自由。画面背景是青山绿水,远处有几座古色古香的亭台楼阁,营造出宁静而祥和的氛围。

评估标准:

1、海报主题契合度

2、海报视觉美观度

3、细节及整体画面布局情况

资讯丨文生图模型对比测评:从吉卜力风格到文字内容生成,到底谁才是王者?

优劣排序:③ Recraft V3>⑥ 百度-iRAG> ④ Google imagen3>② Midjourney v6.1>① MiniMax-Image-01>⑤ CogView-4

Image-01:图片契合清明节主题,但整体饱和度较高,人物细节不足,并且图片右下角出现了无法识别的字符。

资讯丨文生图模型对比测评:从吉卜力风格到文字内容生成,到底谁才是王者?

Midjourney v6.1:图片呈现出简约清新的风格,但人物位于水中央的空地,这一构图显得不够合理。

资讯丨文生图模型对比测评:从吉卜力风格到文字内容生成,到底谁才是王者?

Recraft V3:符合主题,画面构图清晰,柳树、人物与宝塔布局合理,然而人物的面部及服装尚可进一步优化。

资讯丨文生图模型对比测评:从吉卜力风格到文字内容生成,到底谁才是王者?

Google-Imagen3:色调鲜明且整体协调,提示词较为准确,人物细节尚需进一步完善。

资讯丨文生图模型对比测评:从吉卜力风格到文字内容生成,到底谁才是王者?

CogView-4:画面呈现黄绿色调,视觉效果较为一般,且人物肢体动作显得不够自然。

资讯丨文生图模型对比测评:从吉卜力风格到文字内容生成,到底谁才是王者?

百度iRAG:风格清爽自然,色调搭配和谐,整体画面美观度较高。然而,人物面部细节不足,肢体表现略显不自然。

资讯丨文生图模型对比测评:从吉卜力风格到文字内容生成,到底谁才是王者?

实测3:人物生成

提示词:肖像照片,8K超清细节,温馨的夜晚街景,四个小孩站在城市街道中央欢快挥手,面部表情充满童真喜悦。背景采用霓虹灯光与暖黄色路灯交织,玻璃幕墙建筑反射斑斓光影,湿漉漉的柏油路面倒映流光。

评估标准:

1、人物的五官是否准确和自然

2、肢体动作的流畅性和合理性

3、背景场景是否协调

资讯丨文生图模型对比测评:从吉卜力风格到文字内容生成,到底谁才是王者?

优劣排序: 除了Google imagen3生成的效果还算可以,其余模型均出现五官不协调、肢体不自然情况。

Image-01:人物面部表情微崩,手部出现了“六指”情况,提示词中“湿漉漉的路面”没有被表现出来。

资讯丨文生图模型对比测评:从吉卜力风格到文字内容生成,到底谁才是王者?

Midjourney v6.1:令人意外的是,MJ生成的人物面部同样出现了问题,虽然没有六指的现象,但手部显得非常不自然。

资讯丨文生图模型对比测评:从吉卜力风格到文字内容生成,到底谁才是王者?

Recraft V3:脸部和手指扭曲情况较为明显,右侧地面干湿过渡较生硬。

资讯丨文生图模型对比测评:从吉卜力风格到文字内容生成,到底谁才是王者?

Google imagen3:脸部五官较为自然,手指部分没有明显扭曲。

资讯丨文生图模型对比测评:从吉卜力风格到文字内容生成,到底谁才是王者?

CogView-4:手部的姿势不够自然且不合常规,五官牙齿部分也显得不协调。

资讯丨文生图模型对比测评:从吉卜力风格到文字内容生成,到底谁才是王者?

百度-iRAG:提示词遵循不够精确,其中“湿漉漉的柏油路面”没有得到体现,同时手指部分出现不合理现象。

资讯丨文生图模型对比测评:从吉卜力风格到文字内容生成,到底谁才是王者?

实测4:文字内容生成

提示词:一张温馨的秋季主题咖啡广告,展示一杯热腾腾的南瓜香料拿铁。图片上中文写着“南瓜拿铁”、英文写着“Pumpkin spice latte ”。咖啡杯置于木质托盘上,周围点缀秋叶和肉桂棒,背景泛着温暖的金色光芒。

评估标准:

1、中文生成准确度

2、英文生成准确度

3、画面布局合理性及丰富度

资讯丨文生图模型对比测评:从吉卜力风格到文字内容生成,到底谁才是王者?

优劣排序:表现相差不大,不作排序,抛开文字生成,CogView-4在画质方面表现略逊色。

Image-01:中文生成失败,英文生成是正确,不过整体构图布局合理,画面美观。

资讯丨文生图模型对比测评:从吉卜力风格到文字内容生成,到底谁才是王者?

Midjourney v6.1:英文生成时出现了一些遗漏的单词,而中文生成未成功。构图元素丰富,整体画面营造出温馨的氛围。

资讯丨文生图模型对比测评:从吉卜力风格到文字内容生成,到底谁才是王者?

Recraft V3:中文生成失败,英文生成正确。画面中字体占据大部分板块,比咖啡更加突出,整体布局需要进一步优化。

资讯丨文生图模型对比测评:从吉卜力风格到文字内容生成,到底谁才是王者?

Google-Imagen3:中文生成失败,英文生成正确,画面布局构图尚可。

资讯丨文生图模型对比测评:从吉卜力风格到文字内容生成,到底谁才是王者?

CogView-4:中文生成不对,英文生成正确,构图和布局表现良好,但画面质感相比其他模型略显不足。

资讯丨文生图模型对比测评:从吉卜力风格到文字内容生成,到底谁才是王者?

百度iRAG:中文生成错误,英文生成正确,构图布局较合理。

资讯丨文生图模型对比测评:从吉卜力风格到文字内容生成,到底谁才是王者?

实测总结

通过整理实测结果,可初步得出以下结论(结论仅供参考):

吉卜力风格海报生成人物生成文字内容生成
MiniMax-Image-01提示词遵循准确,布局合理,视觉效果佳海报主题契合,但整体饱和度较高,人物细节不足手部出现了“六指”情况中文生成不明字体,英文生成是正确
Midjourney v6.1提示词遵循度不高,细节丰富,风格差距大符合主题,但构图不合理脸部五官、手部不协调中文生成不明字体,英文生成不准确
Recraft V3提示词准确性欠佳,但风格接近符合主题,画面构图清晰,布局合理脸部和手指扭曲情况较为明显中文生成失败,英文生成正确
Google imagen3提示词遵循还不错,作品风格接近但细节可完善主题尚符合,视觉效果一般效果尚可中文生成不明字体,英文生成正确
CogView-4-250304提示词遵循尚可,整体画面质量欠佳,人物肢体不合理主题尚符合,画面质量较差,视觉效果一般手部、五官牙齿部分也不协调中文生成了相似字形,英文生成正确
百度-iRAG提示词遵循尚可,风格有偏差,画面的质感一般主题符合,画面美观但人物细节不足手指部分姿势不合理中文生成部分正确,英文生成正确
综合结论MiniMax-Image-01视觉效果好:MiniMax-Image-01在吉卜力风格任务中,提示词遵循准确,布局合理,展现了丰富的视觉效果。Recraft V3在海报生成时布局合理且风格贴合提示词:在海报生成任务中,Recraft V3能够精准地解析用户给出的提示词,且海报布局非常合理,表现较为亮眼。人物生成存在五官不协调、人物扭曲等问题:除Google Imagen3外,其余模型在人物生成任务中出现的问题较多,比如出现了人物五官不协调的状况、身体扭曲的现象。中文文字生成准确性差:参与实测的模型在文字生成任务中未能完全准确生成中文字,多个模型生成的中文字符出现字形错误,甚至产生不明字符。而对于英文生成的准确度较高。

在302.AI上使用图像生成模型

302.AI提供了按需付费无订阅的服务方式企业和个人用户可按需灵活选用。

1、使用图片竞技场工具

(1)登录302.AI后,点击左侧菜单栏选择全能工具箱→点击快捷使用,可快速进入工具箱页面。

资讯丨文生图模型对比测评:从吉卜力风格到文字内容生成,到底谁才是王者?

(2)依次点击:工具超市→图片处理→图片竞技场

资讯丨文生图模型对比测评:从吉卜力风格到文字内容生成,到底谁才是王者?

(3)进入图片竞技场 → 图片生成选择模型→输入提示词生成

资讯丨文生图模型对比测评:从吉卜力风格到文字内容生成,到底谁才是王者?

2、使用API的Playground生成

302.AI的Playground板块可快速测试模型效果;

依次点击:API超市 → Playground → 图像;

资讯丨文生图模型对比测评:从吉卜力风格到文字内容生成,到底谁才是王者?

3、使用模型API

企业用户可以通过302.AI的API超市快速、便捷地调用模型,还能够根据特定项目需求进行定制化开发

相关文档:API超市 → 图片生成→找到想要的API(如Minimax)→查看文档;

资讯丨文生图模型对比测评:从吉卜力风格到文字内容生成,到底谁才是王者?

Like (0)
302.AI302.AI
Previous 2025 年 4 月 1 日 上午10:55
Next 2025 年 4 月 10 日 下午2:18

相关推荐

  • AI老照片修复功能,不止修复了画面也修复了记忆

    随着AI技术的发展,不断突破着传统界限。许多曾经存在想象中的事情变成了现实,这或许就是科技的意义。 最近看到了一个非常令人感动的文章“他用Luma和Suno复活了逝去11年的爱人,给我看破防了。” (参考原文:https://mp.weixin.qq.com/s/DIkPAA-P9P1AWveAFeNtqA) 原文是这样的,作者在X上看到了一个名为Koya …

    2024 年 7 月 17 日
    47900
  • 资讯丨302.AI 代码竞技场:大模型编程能力的“超级擂台”

    一个大模型能力强不强,我们常常会从多个维度去评估,其中编程能力是尤为关键的一项。 对于许多用户而言,想要准确测试大模型的代码能力却常常不知道该从何入手,或者不知道选择哪个平台进行测试。 为了帮助用户解决这一问题,302.AI最新上线了一款工具——代码竞技场,这一工具集结了多种先进模型,为用户提供了一个广阔、便捷、易用的代码测试平台。 工具界面展示: 302.…

    2025 年 2 月 19 日
    22300
  • AI视力考验:各AI模型的视觉理解能力如何?

    近日,行业内有不少新模型涌现出大众的面前,我们会发现,有的模型会在其官方宣传中提到“多模态”一词,比如大家熟知的GPT-4o、Gemini 1.5 Pro等,在发布时都被定义为“原生多模态”,这些多模态LLM在相关的介绍中,都用到了“视觉能力”、“视觉理解”这样的表述。 简单的理解,就是这些模型能够“看得见,并看得懂”,仿佛人的眼睛。为此,很多人…

    2024 年 7 月 25 日
    39700
  • 资讯丨QwQ-32B & DeepSeek-R1 & QwQ-Plus 神仙打架,到底谁更出色?看实测揭秘真相

    3月6日,阿里开源了新推理模型—— QwQ-32B。QwQ 是 Qwen 系列的推理模型,具备思考和推理能力。其优势是推理速度快,在数学、编程和通用任务推理方面表现出色,整体性能比肩DeepSeek-R1。 与此同时,阿里云开放平台还放出了一个名为 QwQ-Plus 的模型,官方描述这是基于 Qwen2.5 模型训练的 QwQ 推理模型,通过强化学习大幅度提…

    2025 年 3 月 12 日
    38100
  • 资讯丨如何1秒钟为大模型API增加长期记忆?限时免费体验!

    众所周知,大模型是没有记忆的。从专业角度来解释,所有的大模型API都是无状态API(每个请求是自足的,不依赖于以前的请求或者状态,这样的API可以更容易地进行扩展)。但是想让AI真正的成为“人”,记忆又是必不可少的。 短期记忆的实现 现阶段比较普遍的大模型实现记忆方法,就是每次请求时,把聊天记录简单的塞入上下文,让大模型看了聊天记录再进行回答。 但是这么做,…

    2025 年 1 月 17 日
    54900

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注