阿里通义团队于 12 月最后一天开源了 Qwen-Image-2512。作为对去年 8 月发布的 Qwen-Image 的全面进化,新版本致力于在图像真实性、纹理细腻度与复杂图文渲染三大维度实现跨越式进步,让生成内容无限贴近真实世界。

去“AI 味”已经是 AI 生图领域老生常谈的一个话题,此次 2512 版本不仅显著削弱了生成图片的 AI 感,更在人物肌肤、发丝、神态等微末之处注入其他生动细节,在复杂排版与信息图表生成上也同样表现出优秀的能力。根据 AI Arena 上万局用户盲测数据显示,Qwen-Image-2512 不仅稳居当前开源模型榜首,即便与诸多闭源模型同台竞技,仍具备明显的竞争力。

三大核心升级亮点速览:
- 更真实的人物质感:精准呈现肌肤纹理、发丝细节与微妙神态,并能准确理解动作语义,让人物告别“塑料感”,生动逼真。
- 更细腻的自然纹理:对水流、苔藓、动物毛发等自然元素的刻画达到“显微镜级别”,大幅提升了风景与生物图像的沉浸感和真实度。
- 更复杂的文字渲染:在图文混合生成上更进一步,能精准处理文字排版与布局,轻松生成涵盖图表、时间轴、多格漫画的专业级图像。
302.AI 现已接入 Qwen-Image-2512 模型 API. 本期测评将从多个场景出发,只为探明一件事,阿里目前的图像模型:闭源的Qwen-Image-Max对决上开源的Qwen-Image-2512与Z-Image-Turbo,究竟谁才是大众用户的最佳选择。
I. 实测模型基础信息
(1)各实测模型在 302.AI 的价格:
| 模型名称 | 302.AI内的价格 |
| Qwen-Image-2512 | $0.05/次 |
| Qwen-Image-Max | $0.08/次 |
| Z-Image-Turbo | $0.05/次 |
(2)测评目标:
- 生成质量与真实感:评估各模型在图像生成后的视觉效果,包括画面质感、细节表现、美学表现以及是否存在伪影或失真等。
- 指令理解与执行准确性:测试模型对文本或图像指令的理解能力,检查编辑结果是否准确反映用户意图。
(3)测评工具:
- 所有模型均使用 302.AI 的 API 超市→在线调试功能
(4)测评方法:
各案例均使用统一的提示词进行生成,均取第一次生成结果,评测结果仅供参考。
Ⅱ. 测评案例
案例 1:文生图-写实人像
测试点:人物拟真度,细节纹理,拍摄质感
提示词:
一张手机拍摄的雪景人像照片。一位20岁左右的东亚少女,清秀可爱,正面朝镜头微笑,棕色瞳孔映射自然光。雪花轻柔地落在她微卷的发梢和浅粉色毛线帽的边缘。肤色白皙透红,面部肌肤的细微纹理与自然红晕清晰可见。背景是虚化的朦胧雪景,焦点锐利地锁定在双眼,画面充满呼吸感与生动的青春气息。色调自然真实,整体画面如普通iPhone快照般自然随意。
Qwen-Image-2512

Qwen-Image-Max

Z-Image-Turbo

| 测评点 | Qwen-Image-2512 | Qwen-Image-Max | Z-Image-Turbo |
| 人物拟真度 | ★ | ★★★ | ★★★★ |
| 风格控制 | ★★ | ★★★ | ★★★★ |
| 画面美感 | ★★★★ | ★★★★★ | ★★★★ |
| 简评 | Z-Image-Turbo胜。虽人物面部细节表现不如Max丰富,但Z-Image胜在更接近iPhone前置原相机质感,只是多了一层磨皮效果;Max虽然呈现出了皮肤毛孔、织物纹理和手部细纹,但人物皮肤还是未能完全摆脱AI生成的滑腻感。尤其体现在眼角高光和刻意打光得不自然感上;2512的人物具有典型的AI皮肤蜡感。 | ||
案例 2:文生图-风光摄影
测试点:风格控制,纹理表现,光影氛围
提示词:
A photograph of Egypt’s Siwa Salt Lake with the distinct color tonality and grain structure of Fujifilm Pro 400H film. The composition is balanced, with golden sand dunes in the foreground showing detailed, wind-sculpted ripples and individual grains of sand. The shallow, turquoise lake reflects the soft sky, its surface textured by delicate salt crystallizations along the edges. The background features the vast, hazy expanse of the desert under the gentle light of late afternoon. The overall atmosphere is serene, timeless, and slightly otherworldly, emphasizing the harmonious contrast between the desert’s warmth and the lake’s cool tranquility.
翻译:
一张具有富士Pro 400H胶片色彩与颗粒质感的埃及锡瓦盐湖风景照片。
构图和谐平衡,前景中金色的沙丘展现出细腻的风蚀波纹与沙砾质感。清澈的绿松石色湖面映照着柔和的天空,水边凝结着精致的盐结晶纹理。背景是暮色柔光下广阔朦胧的沙漠。
整体氛围宁静、永恒且略带超现实感,突出沙漠的暖意与湖水的冷冽之间和谐而强烈的对比。
Qwen-Image-2512

Qwen-Image-Max

Z-Image-Turbo

| 测评点 | Qwen-Image-2512 | Qwen-Image-Max | Z-Image-Turbo |
| 细节材质表现 | ★★★ | ★★★ | ★★★★★ |
| 风格控制 | ★★ | ★★ | ★★★★ |
| 画面美感 | ★★★ | ★★★★ | ★★★★ |
| 简评 | Z-Image-Turbo胜。胜点解析:1. 更接近胶片效果,三组作品中只有Z-Image拥有富士Pro 400H低反差、微曝光的拍摄质感,其他两组的质感更接近数码相机而非胶片;2. 沙土纹理、湖面结晶等细节处理都更柔和,一定程度上避免了过度细化造成的不真实感。对比之下其他两组的纹理细节则过于锐化,尤其2512版的沙地纹理分布,过于规律而使得真实度大打折扣。 | ||
案例 3:文生图-商业海报
测试点:文本准确性,排版布局
提示词:
主题: 为一款名为“Nexus S”的无线降噪头戴式耳机生成一张极简风格的发布会主视觉海报。
视觉要求: 海报中央放置一个极具未来感的银白色耳机实物,耳机表面有细腻的哑光与高光材质对比。背景是高级感银灰渐变。
文字与排版要求:
- 顶部主标题: 英文 “Hear the Future”,使用现代无衬线粗体,水平居中。
- 中部产品名: 中文 “Nexus S 真无线降噪耳机” 置于耳机下方,字体稍小,但仍显眼。
- 底部信息区(左对齐): 第一行:中文 “沉浸式空间音频” 第二行:英文 “Immersive Spatial Audio” 第三行:中文 “超长40小时续航” 第四行:英文 “40-Hour Battery Life”
- 右下角: 品牌Logo “Nexus” 与发布会日期 “2026.01.15”。
风格: 整体布局严谨、专业排版,有呼吸感,色彩不超过三种,营造高端、专业的科技感。
Qwen-Image-2512

Qwen-Image-Max

Z-Image-Turbo

| 测评点 | Qwen-Image-2512 | Qwen-Image-Max | Z-Image-Turbo |
| 文本准确性 | ★★★★ | ★★★★★ | ★★★★★ |
| 排版布局 | ★★★★ | ★★★★ | ★★ |
| 商业风格 | ★★★ | ★★★★ | ★★★ |
| 简评 | Qwen-Image-Max略胜。胜点解析:1. 文本准确性方面,除2512出现右下角logo处的变形之外,均生成了清晰正确的文本;2. 排版布局方面,除Z-Image的二级文本没有按提示词排版,均遵循了指定位置布局;3. 商业风格与可用性方面,Max虽文字间隔略显拥挤,但整体却足具第一眼视觉吸引力,背景与主体之间的高光与明暗对比处理较佳,Z-Image缺乏一些金属光泽赋予的高级感,2512则是耳机产品本身视觉吸引力就较弱。 | ||
案例 4:文生图-信息图
测试点:版权边界,世界知识,复杂图文排版,真实信息准确性
提示词:使用Chiikawa的主要角色和相关主题元素,生成一张卡通风格、图文并茂、带行程路线和时间安排的神户3天2夜旅游不绕路攻略图,文字采用中英双语标注。
Qwen-Image-2512

Qwen-Image-Max

Z-Image-Turbo

| 测评点 | Qwen-Image-2512 | Qwen-Image-Max | Z-Image-Turbo |
| 文本准确性 | ★ | ★★★ | ★ |
| 风格控制 | ★★★ | ★★★ | ★★★★ |
| 信息准确度 | ★ | ★★★ | ★ |
| 简评 | Qwen-Image-Max胜。遇到这种模型自由发挥文本的案例,2512和Z-Image直接翻车,给出了0个有效信息,文字内容完全乱码。虽然Z-Image是唯一一组生成了Chiikawa形象的,但文本问题使得整张图不可用;相比之下,Max虽也出现了个别乱码文字,且攻略信息基本不具备参考性(规划不合理),但起码具备少量正确信息。 | ||
案例 5:文生图-风格化电影场景
测试点:风格控制,复杂提示词遵循
提示词:
Cinematic wide shot, epic blockbuster scale. A battered, rusty industrial robot kneeling humbly on a wind-swept sand dune. The robot is slowly extending his mechanical hand to accept a tiny yellow flower from a small human child standing fearlessly before it. The robot features complex hydraulic pistons and worn-out paint, highly realistic hard-surface details.
Atmosphere & Environment: Vast desolate desert background, swirling sand dust in the air, heat shimmer on the horizon, volumetric lighting, Tyndall effect, warm golden hour sunbeams piercing through the haze, emotional and lonely atmosphere.
Style & Tech: In the visual style of Neill Blomkamp’s ‘District 9’, photorealistic, shot on IMAX 70mm, Panavision anamorphic lens, shallow depth of field, cinematic color grading, hyper-detailed, 8k resolution, ray-tracing global illumination.
翻译:
电影感广角镜头,史诗级大片。 一台遍体鳞伤、锈迹斑斑的工业机器人,谦卑地跪在风沙席卷的沙丘上。它正缓缓伸出机械手,接过站在面前毫无惧色的孩童递来的一朵小小的黄色野花。机器人身上是复杂的液压活塞与斑驳的旧漆,硬表面细节高度真实,质感逼真。
氛围与环境: 广袤荒凉的沙漠背景,空气中沙尘飞扬,地平线上热浪蒸腾,体积光效,丁达尔效应,温暖的金色时刻阳光穿透薄雾,氛围充满情感与孤寂感。
风格与技术: 视觉效果参考尼尔·布洛姆坎普的《第九区》风格,照片级真实感,采用IMAX 70毫米胶片拍摄,潘那维申变形宽银幕镜头,浅景深,电影级调色,超精细细节,8K分辨率,光线追踪全局光照。
Qwen-Image-2512

Qwen-Image-Max

Z-Image-Turbo

| 测评点 | Qwen-Image-2512 | Qwen-Image-Max | Z-Image-Turbo |
| 风格控制 | ★ | ★ | ★★★★ |
| 提示词遵循 | ★★★★ | ★★★★ | ★★★★ |
| 画面美感 | ★★★ | ★★★★ | ★★★★ |
| 简评 | Z-Image-Turbo胜。无需过多点评,在提示词遵循上都基本准确,但 “照片级真实感”这点,仅Z-Image完成。 | ||
III. Qwen-Image-2512 图像模型实测结论

实测结果汇总:

一场“同门内斗”下来,测评结果确实超出了我们的预期。原本我们期待 Qwen-Image-2512 作为开源界的“新人”,能一举完成对对同门师兄Z-Image-Turbo以及闭源模型Max的反超,但5战0胜的实战结果告诉我们,这个新人的段位还远不够。
- Qwen-Image-2512:开源界的最新模型,表现并不尽如人意。 不可否认,官方的案例与模型卡信息,2512 版本相比前序版本有了质的飞跃,尤其在文本准确性与拟真感上表现亮眼。但正如我们在写实人像和风光摄影案例中看到的,它并未彻底,稳定解决掉“皮肤蜡感”和“过度规律的纹理”这类典型的AI图像老问题。距离SOTA级模型的表现距离尚远;
- Qwen-Image-Max:相对稳定的“定海神针”。 在商业海报和复杂信息图表(案例 3、4)中,Max 版本展现出了较强的统治力。当其他对手在乱码与排版崩坏中挣扎时,Max 凭借严密的逻辑和精准的文字渲染,证明了自己才是那个可以值得信赖、拿来即用的“专业设计师”;
- Z-Image-Turbo:依然是开源图像模型中的顶流。 本次实测最让人欣喜,但也不算意外的莫过于 Z-Image-Turbo。它在人像质感和电影氛围(案例 1、2、5)上的表现,仍然是目前开源图像生成模型的第一梯队。像是接近 iPhone 相机的真实质感和富于情绪的胶片光影,精准击中了 2512 版本“AI 塑料感”软肋。
回到开头,阿里通义团队在岁末交出的这份答卷,也许并不是为了选出一个绝对的“最强款”,而是构建一个更完整的图像能力矩阵,以供不同需求的用户进行选择:如果你需要一款本地部署要求足够低,出品优秀的模型,Z-Image 仍是不二之选;如果你追求稳定严谨的商业逻辑与文案排版,Max 在国产模型中的能力出色;而如果你是开源生态的拥趸,期待未来丰富的生态与个性化,Qwen-Image-2512 也许是个不错的开源底座选择。
Ⅳ. 如何在 302.AI 上使用
302.AI 提供按需付费无订阅的服务模式,用户可以根据自身业务需求灵活选择使用。
使用模型 API
- 使用Qwen-Image-2512/Z-Image-Turbo
API超市→图片生成→302.AI→qwen-image-2512/Z-Image-Turbo


点击【立即体验】在线调用 API

- 使用Qwen-Image-Max
API超市→图片生成→通义万相→qwen-image-max


点击【立即体验】在线调用 API

想即刻体验最新Qwen-Image-2512模型?
👉立即注册免费试用302.AI,开启你的AI之旅!👈
为什么选择302.AI?
● 灵活付费:无需月费,按需付费,成本可控
● 丰富功能:从文字、图片到视频,应有尽有,满足多种场景需求
● 开源生态:支持开发者深度定制,打造专属AI应用
● 易用性:界面友好,操作简单,快速上手
