上个月,AI图像生成模型领域涌现出了很多新面孔,例如MiniMax推出的首款图像模型Image-01,以及智谱2025年开源的首个文生图模型CogView-4-250304等。
今天,302.AI将对市场上的文生图模型进行评测,期望评测结果能够为大家选择模型时提供参考。参与评测的模型共有六个,具体包括:
MiniMax-Image-01、Midjourney v6.1、Recraft V3、Google imagen3、CogView-4-250304 、百度-iRAG;
模型实测
(以下所有效果都由302.AI图片竞技场生成,且为了确保公平性,均取自模型第一次生成的效果。同时采用中文提示词,所有测评结果仅供参考。)
实测1:吉卜力风格
提示词:吉卜力风格,夏日午后漂浮的空中岛屿,戴着草帽的少女赤脚奔跑在青苔台阶上,木质风车屋旁盛开着巨型蓝紫色绣球花,半透明精灵群从花瓣间飞散,远处云海中若隐若现的蒸汽朋克飞艇,暖金色阳光透过橡树叶形成光斑,柔和的丁达尔光线,细腻的笔触与色块堆叠。
评估标准:
1、吉卜力风格符合度
2、提示词遵循准确性
3、人物细节及画面质量
优劣排序:① MiniMax-Image-01>③ Recraft V3 >④ Google imagen3>② Midjourney v6.1>⑥ 百度-iRAG>⑤ CogView-4
Image-01:光影效果处理适当,画面呈现暖色调,提示词所提元素均已生成,其综合风格、视觉美感及细节评估在此次测试中表现最佳。
Midjourney v6.1:整体呈冷色调,尽管细节相对丰富,但整体风格更具MJ的独特性,与吉卜力风格相差较大。同时,提示词的遵循度不高,例如作品中未能呈现木质风车屋。
Recraft V3:画风最接近吉卜力风格,但提示词的准确性欠佳。例如,提示词中的“少女赤脚奔跑在青苔台阶上”,最终呈现的效果人物既不是赤脚也没有看到青苔台阶。
Google imagen3:较接近吉卜力风格,提示词遵循还不错,但是人物奔跑的动态未能体现,人物的脸部细节方面也处理不够好。
CogView-4:画面的色彩饱和度较高、人物呈现出异常的三臂现象,并且提示词中提到的风车屋未能体现,整体画面质量欠佳。
百度-iRAG:画面的内容非常丰富,提示词得到了较好的遵循,但风格不太符合,且画面的质感一般。
实测2:海报生成
提示词:生成一张清明节主题海报,整体风格为清新简约的中国风。画面中有一棵繁茂的柳树,柳枝低垂,随风轻摆,柳树下有一家人正在放风筝,风筝高高飘扬在蓝天中,象征着希望与自由。画面背景是青山绿水,远处有几座古色古香的亭台楼阁,营造出宁静而祥和的氛围。
评估标准:
1、海报主题契合度
2、海报视觉美观度
3、细节及整体画面布局情况
优劣排序:③ Recraft V3>⑥ 百度-iRAG> ④ Google imagen3>② Midjourney v6.1>① MiniMax-Image-01>⑤ CogView-4
Image-01:图片契合清明节主题,但整体饱和度较高,人物细节不足,并且图片右下角出现了无法识别的字符。
Midjourney v6.1:图片呈现出简约清新的风格,但人物位于水中央的空地,这一构图显得不够合理。
Recraft V3:符合主题,画面构图清晰,柳树、人物与宝塔布局合理,然而人物的面部及服装尚可进一步优化。
Google-Imagen3:色调鲜明且整体协调,提示词较为准确,人物细节尚需进一步完善。
CogView-4:画面呈现黄绿色调,视觉效果较为一般,且人物肢体动作显得不够自然。
百度–iRAG:风格清爽自然,色调搭配和谐,整体画面美观度较高。然而,人物面部细节不足,肢体表现略显不自然。
实测3:人物生成
提示词:肖像照片,8K超清细节,温馨的夜晚街景,四个小孩站在城市街道中央欢快挥手,面部表情充满童真喜悦。背景采用霓虹灯光与暖黄色路灯交织,玻璃幕墙建筑反射斑斓光影,湿漉漉的柏油路面倒映流光。
评估标准:
1、人物的五官是否准确和自然
2、肢体动作的流畅性和合理性
3、背景场景是否协调
优劣排序: 除了Google imagen3生成的效果还算可以,其余模型均出现五官不协调、肢体不自然情况。
Image-01:人物面部表情微崩,手部出现了“六指”情况,提示词中“湿漉漉的路面”没有被表现出来。
Midjourney v6.1:令人意外的是,MJ生成的人物面部同样出现了问题,虽然没有六指的现象,但手部显得非常不自然。
Recraft V3:脸部和手指扭曲情况较为明显,右侧地面干湿过渡较生硬。
Google imagen3:脸部五官较为自然,手指部分没有明显扭曲。
CogView-4:手部的姿势不够自然且不合常规,五官牙齿部分也显得不协调。
百度-iRAG:提示词遵循不够精确,其中“湿漉漉的柏油路面”没有得到体现,同时手指部分出现不合理现象。
实测4:文字内容生成
提示词:一张温馨的秋季主题咖啡广告,展示一杯热腾腾的南瓜香料拿铁。图片上中文写着“南瓜拿铁”、英文写着“Pumpkin spice latte ”。咖啡杯置于木质托盘上,周围点缀秋叶和肉桂棒,背景泛着温暖的金色光芒。
评估标准:
1、中文生成准确度
2、英文生成准确度
3、画面布局合理性及丰富度
优劣排序:表现相差不大,不作排序,抛开文字生成,CogView-4在画质方面表现略逊色。
Image-01:中文生成失败,英文生成是正确,不过整体构图布局合理,画面美观。
Midjourney v6.1:英文生成时出现了一些遗漏的单词,而中文生成未成功。构图元素丰富,整体画面营造出温馨的氛围。
Recraft V3:中文生成失败,英文生成正确。画面中字体占据大部分板块,比咖啡更加突出,整体布局需要进一步优化。
Google-Imagen3:中文生成失败,英文生成正确,画面布局构图尚可。
CogView-4:中文生成不对,英文生成正确,构图和布局表现良好,但画面质感相比其他模型略显不足。
百度–iRAG:中文生成错误,英文生成正确,构图布局较合理。
实测总结
通过整理实测结果,可初步得出以下结论(结论仅供参考):
吉卜力风格 | 海报生成 | 人物生成 | 文字内容生成 | |
MiniMax-Image-01 | 提示词遵循准确,布局合理,视觉效果佳 | 海报主题契合,但整体饱和度较高,人物细节不足 | 手部出现了“六指”情况 | 中文生成不明字体,英文生成是正确 |
Midjourney v6.1 | 提示词遵循度不高,细节丰富,风格差距大 | 符合主题,但构图不合理 | 脸部五官、手部不协调 | 中文生成不明字体,英文生成不准确 |
Recraft V3 | 提示词准确性欠佳,但风格接近 | 符合主题,画面构图清晰,布局合理 | 脸部和手指扭曲情况较为明显 | 中文生成失败,英文生成正确 |
Google imagen3 | 提示词遵循还不错,作品风格接近但细节可完善 | 主题尚符合,视觉效果一般 | 效果尚可 | 中文生成不明字体,英文生成正确 |
CogView-4-250304 | 提示词遵循尚可,整体画面质量欠佳,人物肢体不合理 | 主题尚符合,画面质量较差,视觉效果一般 | 手部、五官牙齿部分也不协调 | 中文生成了相似字形,英文生成正确 |
百度-iRAG | 提示词遵循尚可,风格有偏差,画面的质感一般 | 主题符合,画面美观但人物细节不足 | 手指部分姿势不合理 | 中文生成部分正确,英文生成正确 |
综合结论 | MiniMax-Image-01视觉效果好:MiniMax-Image-01在吉卜力风格任务中,提示词遵循准确,布局合理,展现了丰富的视觉效果。 | Recraft V3在海报生成时布局合理且风格贴合提示词:在海报生成任务中,Recraft V3能够精准地解析用户给出的提示词,且海报布局非常合理,表现较为亮眼。 | 人物生成存在五官不协调、人物扭曲等问题:除Google Imagen3外,其余模型在人物生成任务中出现的问题较多,比如出现了人物五官不协调的状况、身体扭曲的现象。 | 中文文字生成准确性差:参与实测的模型在文字生成任务中未能完全准确生成中文字,多个模型生成的中文字符出现字形错误,甚至产生不明字符。而对于英文生成的准确度较高。 |
在302.AI上使用图像生成模型
302.AI提供了按需付费无订阅的服务方式,企业和个人用户可按需灵活选用。
1、使用图片竞技场工具
(1)登录302.AI后,点击左侧菜单栏选择全能工具箱→点击快捷使用,可快速进入工具箱页面。
(2)依次点击:工具超市→图片处理→图片竞技场
(3)进入图片竞技场 → 图片生成 → 选择模型→输入提示词生成;
2、使用API的Playground生成
302.AI的Playground板块可快速测试模型效果;
依次点击:API超市 → Playground → 图像;
3、使用模型API
企业用户可以通过302.AI的API超市快速、便捷地调用模型,还能够根据特定项目需求进行定制化开发。
相关文档:API超市 → 图片生成→找到想要的API(如Minimax)→查看文档;