上个月,AI图像生成模型领域涌现出了很多新面孔,例如MiniMax推出的首款图像模型Image-01,以及智谱2025年开源的首个文生图模型CogView-4-250304等。
今天,302.AI将对市场上的文生图模型进行评测,期望评测结果能够为大家选择模型时提供参考。参与评测的模型共有六个,具体包括:
MiniMax-Image-01、Midjourney v6.1、Recraft V3、Google imagen3、CogView-4-250304 、百度-iRAG
模型实测
(以下所有效果都由302.AI图片竞技场生成,且为了确保公平性,均取自模型第一次生成的效果。同时采用中文提示词,所有测评结果仅供参考。)
实测1:吉卜力风格
提示词:吉卜力风格,夏日午后漂浮的空中岛屿,戴着草帽的少女赤脚奔跑在青苔台阶上,木质风车屋旁盛开着巨型蓝紫色绣球花,半透明精灵群从花瓣间飞散,远处云海中若隐若现的蒸汽朋克飞艇,暖金色阳光透过橡树叶形成光斑,柔和的丁达尔光线,细腻的笔触与色块堆叠。
评估标准:
1、吉卜力风格符合度
2、提示词遵循准确性
3、人物细节及画面质量
优劣排序:① MiniMax-Image-01>③ Recraft V3 >④ Google imagen3>② Midjourney v6.1>⑥ 百度-iRAG>⑤ CogView-4
Image-01:光影效果处理适当,画面呈现暖色调,提示词所提元素均已生成,其综合风格、视觉美感及细节评估在此次测试中表现最佳。
Midjourney v6.1:整体呈冷色调,尽管细节相对丰富,但整体风格更具MJ的独特性,与吉卜力风格相差较大。同时,提示词的遵循度不高,例如作品中未能呈现木质风车屋。
Recraft V3:画风最接近吉卜力风格,但提示词的准确性欠佳。例如,提示词中的“少女赤脚奔跑在青苔台阶上”,最终呈现的效果人物既不是赤脚也没有看到青苔台阶。
Google imagen3:较接近吉卜力风格,提示词遵循还不错,但是人物奔跑的动态未能体现,人物的脸部细节方面也处理不够好。
CogView-4:画面的色彩饱和度较高、人物呈现出异常的三臂现象,并且提示词中提到的风车屋未能体现,整体画面质量欠佳。
百度-iRAG:画面的内容非常丰富,提示词得到了较好的遵循,但风格不太符合,且画面的质感一般。
实测2:海报生成
提示词:生成一张清明节主题海报,整体风格为清新简约的中国风。画面中有一棵繁茂的柳树,柳枝低垂,随风轻摆,柳树下有一家人正在放风筝,风筝高高飘扬在蓝天中,象征着希望与自由。画面背景是青山绿水,远处有几座古色古香的亭台楼阁,营造出宁静而祥和的氛围。
评估标准:
1、海报主题契合度
2、海报视觉美观度
3、细节及整体画面布局情况
优劣排序:③ Recraft V3>⑥ 百度-iRAG> ④ Google imagen3>② Midjourney v6.1>① MiniMax-Image-01>⑤ CogView-4
Image-01:图片契合清明节主题,但整体饱和度较高,人物细节不足,并且图片右下角出现了无法识别的字符。
Midjourney v6.1:图片呈现出简约清新的风格,但人物位于水中央的空地,这一构图显得不够合理。
Recraft V3:符合主题,画面构图清晰,柳树、人物与宝塔布局合理,然而人物的面部及服装尚可进一步优化。
Google-Imagen3:色调鲜明且整体协调,提示词较为准确,人物细节尚需进一步完善。
CogView-4:画面呈现黄绿色调,视觉效果较为一般,且人物肢体动作显得不够自然。
百度–iRAG:风格清爽自然,色调搭配和谐,整体画面美观度较高。然而,人物面部细节不足,肢体表现略显不自然。
实测3:人物生成
提示词:肖像照片,8K超清细节,温馨的夜晚街景,四个小孩站在城市街道中央欢快挥手,面部表情充满童真喜悦。背景采用霓虹灯光与暖黄色路灯交织,玻璃幕墙建筑反射斑斓光影,湿漉漉的柏油路面倒映流光。
评估标准:
1、人物的五官是否准确和自然
2、肢体动作的流畅性和合理性
3、背景场景是否协调
优劣排序: 除了Google imagen3生成的效果还算可以,其余模型均出现五官不协调、肢体不自然情况。
Image-01:人物面部表情微崩,手部出现了“六指”情况,提示词中“湿漉漉的路面”没有被表现出来。
Midjourney v6.1:令人意外的是,MJ生成的人物面部同样出现了问题,虽然没有六指的现象,但手部显得非常不自然。
Recraft V3:脸部和手指扭曲情况较为明显,右侧地面干湿过渡较生硬。
Google imagen3:脸部五官较为自然,手指部分没有明显扭曲。
CogView-4:手部的姿势不够自然且不合常规,五官牙齿部分也显得不协调。
百度-iRAG:提示词遵循不够精确,其中“湿漉漉的柏油路面”没有得到体现,同时手指部分出现不合理现象。
实测4:文字内容生成
提示词:一张温馨的秋季主题咖啡广告,展示一杯热腾腾的南瓜香料拿铁。图片上中文写着“南瓜拿铁”、英文写着“Pumpkin spice latte ”。咖啡杯置于木质托盘上,周围点缀秋叶和肉桂棒,背景泛着温暖的金色光芒。
评估标准:
1、中文生成准确度
2、英文生成准确度
3、画面布局合理性及丰富度
优劣排序:表现相差不大,不作排序,抛开文字生成,CogView-4在画质方面表现略逊色。
Image-01:中文生成失败,英文生成是正确,不过整体构图布局合理,画面美观。
Midjourney v6.1:英文生成时出现了一些遗漏的单词,而中文生成未成功。构图元素丰富,整体画面营造出温馨的氛围。
Recraft V3:中文生成失败,英文生成正确。画面中字体占据大部分板块,比咖啡更加突出,整体布局需要进一步优化。
Google-Imagen3:中文生成失败,英文生成正确,画面布局构图尚可。
CogView-4:中文生成不对,英文生成正确,构图和布局表现良好,但画面质感相比其他模型略显不足。
百度–iRAG:中文生成错误,英文生成正确,构图布局较合理。
实测总结
通过整理实测结果,可初步得出以下结论(结论仅供参考):
吉卜力风格 | 海报生成 | 人物生成 | 文字内容生成 | |
MiniMax-Image-01 | 提示词遵循准确,布局合理,视觉效果佳 | 海报主题契合,但整体饱和度较高,人物细节不足 | 手部出现了“六指”情况 | 中文生成不明字体,英文生成是正确 |
Midjourney v6.1 | 提示词遵循度不高,细节丰富,风格差距大 | 符合主题,但构图不合理 | 脸部五官、手部不协调 | 中文生成不明字体,英文生成不准确 |
Recraft V3 | 提示词准确性欠佳,但风格接近 | 符合主题,画面构图清晰,布局合理 | 脸部和手指扭曲情况较为明显 | 中文生成失败,英文生成正确 |
Google imagen3 | 提示词遵循还不错,作品风格接近但细节可完善 | 主题尚符合,视觉效果一般 | 效果尚可 | 中文生成不明字体,英文生成正确 |
CogView-4-250304 | 提示词遵循尚可,整体画面质量欠佳,人物肢体不合理 | 主题尚符合,画面质量较差,视觉效果一般 | 手部、五官牙齿部分也不协调 | 中文生成了相似字形,英文生成正确 |
百度-iRAG | 提示词遵循尚可,风格有偏差,画面的质感一般 | 主题符合,画面美观但人物细节不足 | 手指部分姿势不合理 | 中文生成部分正确,英文生成正确 |
综合结论 | MiniMax-Image-01视觉效果好:MiniMax-Image-01在吉卜力风格任务中,提示词遵循准确,布局合理,展现了丰富的视觉效果。 | Recraft V3在海报生成时布局合理且风格贴合提示词:在海报生成任务中,Recraft V3能够精准地解析用户给出的提示词,且海报布局非常合理,表现较为亮眼。 | 人物生成存在五官不协调、人物扭曲等问题:除Google Imagen3外,其余模型在人物生成任务中出现的问题较多,比如出现了人物五官不协调的状况、身体扭曲的现象。 | 中文文字生成准确性差:参与实测的模型在文字生成任务中未能完全准确生成中文字,多个模型生成的中文字符出现字形错误,甚至产生不明字符。而对于英文生成的准确度较高。 |
在302.AI上使用图像生成模型
302.AI提供了按需付费无订阅的服务方式,企业和个人用户可按需灵活选用。
1、使用图片竞技场工具
(1)登录302.AI后,点击左侧菜单栏选择全能工具箱→点击快捷使用,可快速进入工具箱页面。
(2)依次点击:工具超市→图片处理→图片竞技场
(3)进入图片竞技场 → 图片生成 → 选择模型→输入提示词生成;
2、使用API的Playground生成
302.AI的Playground板块可快速测试模型效果;
依次点击:API超市 → Playground → 图像;
3、使用模型API
企业用户可以通过302.AI的API超市快速、便捷地调用模型,还能够根据特定项目需求进行定制化开发。
相关文档:API超市 → 图片生成→找到想要的API(如Minimax)→查看文档;
👉立即注册免费试用302.AI,开启你的AI之旅!👈
为什么选择302.AI?
● 灵活付费:无需月费,按需付费,成本可控
● 丰富功能:从文字、图片到视频,应有尽有,满足多种场景需求
● 开源生态:支持开发者深度定制,打造专属AI应用
● 易用性:界面友好,操作简单,快速上手

Comments(2)
[…] GPT-4o 图像生成功能上线,掀起全网吉卜力风潮后,OpenAI 于4月底再次震撼推出全新图像模型——GPT-Image-1. […]
With every thing which seems to be developing within this particular area, many of your opinions happen to be relatively refreshing. Nevertheless, I am sorry, but I can not subscribe to your entire plan, all be it stimulating none the less. It looks to everyone that your opinions are actually not totally justified and in reality you are generally yourself not wholly convinced of your assertion. In any case I did enjoy reading it.