年末开源图像模型决战:Z-Image-Turbo vs Flux.2 Dev 丨302.AI 基准实验室

在上篇《顶流开源模型Flux.2是否依然能打?硬钢Nano Banana Pro五轮实测》我们对Flux.2的两个闭源版本(Pro和Flex)进行了测试。而在同一周(11月27日),阿里通义紧随Flux的步伐,也发布了全新的开源图像模型:Z-Image-Turbo.

年末开源图像模型决战:Z-Image-Turbo vs Flux.2 Dev 丨302.AI 基准实验室

Z-Image-Turbo 是 Z-Image 的蒸馏版本,仅使用 8 次函数评估(NFE)即可达到或超越主流竞品的水平。它在企业级 H800 GPU 上提供亚秒级推理延迟,并能轻松运行于 16G 显存的消费级设备上。该模型在照片级逼真图像生成、双语文字渲染(英文与中文)以及稳健的指令遵循方面表现出色。

除了Turbo版本,后续还会发布:

  • Base 版本:非蒸馏的基础模型。
  • Edit 版本:基于 Z-Image 专门微调的图像编辑变体,支持富有创意的图像到图像生成,具备卓越的指令遵循能力,可根据自然语言提示进行精确编辑。

迅速来看一下官方总结的Turbo版本模型亮点:

  1. 逼真照片级质量:在保持卓越美学品质的同时,能够生成高质量的逼真图像。
  2. 精准双语文字渲染:在准确呈现复杂的中文和英文文本方面表现出色。
  3. 提示增强与推理:Prompt Enhancer 赋予模型推理能力,使其能够超越表面描述,挖掘深层的世界知识。

Flux.2系列如出一辙,在画质,文字,世界知识领域进行了加强。在Alibaba AI Arena榜单中,位居开源模型SOTA.(注:榜单并未加入Flux.2 Dev开源版本)

年末开源图像模型决战:Z-Image-Turbo vs Flux.2 Dev 丨302.AI 基准实验室

302.AI现已接入Z-Image-Turbo API,那么话不多说,本次迎来开源图像模型PK:Z-Image-Turbo vs Flux-2-Dev,再加上同样来自通义的Qwen Image.


I. 实测模型基础信息

(1)各实测模型在 302.AI 的价格:

模型名称302.AI内的价格
Z-Image-Turbo$0.05/次
Flux-2-Dev$0.012/次
Qwen Image$0.05/次

(2)测评目标:

  • 生成质量与真实感:评估各模型在图像生成和图像编辑后的视觉效果,包括提示词遵循、细节表现、以及是否存在伪影或失真等。
  • 指令理解与执行准确性:测试模型对文本或图像指令的理解能力,检查编辑结果是否准确反映用户意图。

(3)测评工具:

  • 所有模型均使用 302.AI 的 API 超市→在线调试功能

(4)测评方法:

各案例均使用统一的提示词和图片进行生成,均取第一次生成结果,评测结果仅供参考。


Ⅱ. 测评案例

案例 1:文生图-亚洲人像

测试点:指定风格,人像拟真,世界知识

提示词

Cinematic film still in the style of Wong Kar-wai, echoing the aesthetics of “2046”.

A man and a woman stand facing each other on a dimly lit, rain-slicked city street at night. The scene is bathed in the nostalgic, hazy yellow glow of a single old-fashioned street lamp, which casts long, distorted shadows and creates a dreamy, melancholic atmosphere. A gentle, fine rain is falling, catching the light and creating a soft, misty veil around them.

The Man (The Protagonist):

  • Attire: He is impeccably dressed in a sharp, tailored 1960s-style suit, dark and reflective from the rain. The fabric has a subtle texture, visible under the lamplight. His white shirt collar is crisp, slightly unbuttoned at the top.
  • Demeanor: His posture is relaxed yet heavy with unspoken thoughts. His hair is slicked back with pomade, glistening with raindrops. His gaze is intense and direct, looking deep into her eyes, a mixture of longing, hesitation, and a hint of sadness. His lips are slightly parted, as if he is about to speak but cannot find the words.

The Woman (The Muse):

  • Attire: She wears a stunning, exquisitely crafted Cheongsam (Qipao) that embodies the high fashion of the 1960s, reminiscent of the masterpieces by William Chang for “2046” . The Cheongsam is made of a luxurious, slightly shimmering fabric, featuring intricate, almost psychedelic floral or geometric patterns. The dress is impeccably form-fitting, accentuating her graceful silhouette, with a high collar that frames her face elegantly.
  • Demeanor: She holds her gaze with his, her expression a complex tapestry of restrained desire, vulnerability, and a profound, lingering sorrow. Her eyes are soulful and slightly glossy from the rain and unshed tears. Her perfectly coiffed hair, typical of the era, remains largely intact despite the drizzle. One hand might be subtly clutching a small, vintage handbag, a sign of her inner tension.

Atmosphere & Technical Specs:

  • Lighting: Extreme chiaroscuro lighting. The single yellow street lamp is the primary light source, creating a high-contrast, dreamlike, and intensely intimate mood. The rest of the scene falls into deep, mysterious shadows.
  • Color Palette: Saturated yet melancholic colors. The dominant tones are the warm, almost suffocating yellow of the lamplight, the deep blacks and blues of the night, and the vibrant, complex colors of her Cheongsam.
  • Camera & Film: Shot on 35mm film. The image should have a soft focus, rich film grain, and a palpable, almost tactile texture. A medium-close-up shot, focusing on their faces and upper bodies. The composition should feel slightly voyeuristic, as if glimpsed through a window or from a distance.
  • Overall Mood: Nostalgic, ambiguous, romantic, deeply melancholic, and filled with a palpable sense of longing and unattainable love

翻译:

王家卫风格的电影感剧照,呼应《2046》的美学风格。

夜晚,一条被雨水打湿、灯光昏暗的城市街道上,一男一女正对而立。整个场景沐浴在一盏老式路灯所散发出的、充满怀旧感的、朦胧的黄色光晕之中。这束光投下了长长的、扭曲的阴影,营造出一种如梦似幻、忧郁的氛围。一阵温柔的、细密的雨丝正飘落着,在光线中被捕捉,在他们周围形成一层柔和而迷蒙的薄纱。

男性:

着装: 他穿着一套剪裁精良、轮廓锐利的20世纪60年代风格西装,深色的面料因雨水而显得反光。在灯光下,可以看见面料上微妙的纹理。他的白衬衫领口挺括,顶部的扣子微微解开。

神态: 他的姿态看似放松,却承载着千言万语。头发用发蜡向后梳得油亮,在雨滴下闪着微光。他的凝视强烈而直接,深深地望进她的眼底,那是一种混合了渴望、犹豫和一丝悲伤的眼神。他的嘴唇微微张开,仿佛正要说些什么,却又找不到合适的言语。

女性:

着装: 她身穿一件令人惊叹的、制作极其精致的旗袍,完美体现了20世纪60年代的高级时装风尚,令人不禁想起张叔平为《2046》所创作的那些杰作。这件旗袍由奢华的、微微闪光的面料制成,上面带有错综复杂的、近乎迷幻的花卉或几何图案。旗袍的剪裁无可挑剔地贴合身形,凸显出她优雅的轮廓,高高的领口则优雅地勾勒出她的脸庞。

神态: 她与他对视,眼神是一幅复杂的织锦,交织着克制的欲望、脆弱,以及一种深切的、挥之不去的悲伤。她的双眸充满灵魂感,因雨水和未曾流下的泪水而显得有些湿润光亮。她那典型的、属于那个时代的完美发髻,在细雨中基本保持完好。一只手可能正不经意地攥着一个复古的小手包,这是她内心紧张的标志。

氛围与技术参数:

光照: 极端的明暗对照法光效。那盏孤零零的黄色路灯是主要光源,创造出一种高对比度的、如梦似幻且极度私密的氛围。场景的其余部分则陷入深邃而神秘的阴影之中。

色调: 饱和但忧郁的色彩。主色调是路灯那种温暖到近乎窒息的黄色、深夜的深黑色与蓝色,以及她旗袍上那鲜活而复杂的色彩。

相机与胶片: 使用35mm胶片拍摄。图像应该呈现出柔焦效果、丰富的胶片颗粒感,以及一种几乎可以触摸到的、实在的质感。采用中近景镜头,聚焦于他们的脸部和上半身。构图应带有些许窥视感,仿佛是从一扇窗户或远处瞥见的瞬间。

整体情绪: 怀旧的、暧昧不清的、浪漫的、深度忧郁的,并充满了可被感知的渴望与不可得的爱。

Z-Image-Turbo

年末开源图像模型决战:Z-Image-Turbo vs Flux.2 Dev 丨302.AI 基准实验室

Flux-2-Dev

年末开源图像模型决战:Z-Image-Turbo vs Flux.2 Dev 丨302.AI 基准实验室

Qwen Image

年末开源图像模型决战:Z-Image-Turbo vs Flux.2 Dev 丨302.AI 基准实验室
测评点Z-Image-TurboFlux-2-DevQwen Image
人物拟真度★★★★★★★★★
画面美感★★★★★★★★★★
提示词遵循★★★★★★★★★★★
简评Z-Image-Turbo完胜。先用一套复杂提示词测下上限。人物/服装/环境这些具体实物的拟真度Z-Image完全拉开对手代差,但这题中最难的还是主观的神态动作:“他的凝视强烈而直接,混合了渴望、犹豫和一丝悲伤的眼神。”,“ 她与他对视,眼神是一幅复杂的织锦,交织着克制的欲望、脆弱,以及一种深切的、挥之不去的悲伤。”,用一句话点评图1:带有戏剧张力的电影剧照,其余两张只是AI绘图。

案例 2:文生图-欧美人像

测试点:人像拟真,世界知识

提示词

Cinematic hyper-realistic photography, a medium shot of Captain Jack Sparrow portrayed by Johnny Depp, standing triumphantly at the prow of the Black Pearl. He is looking out at the horizon with a roguish, confident smirk and half-closed, kohl-rimmed eyes, exuding charisma and madness.

Attire Details:

  • He wears his iconic weathered tricorn hat made of dark leather.
  • Dressed in a tattered frock coat, a linen shirt with billowy sleeves, and multiple belts with large buckles.
  • Adorned with his signature dreadlocks, beads, bandanas, and rings on his fingers.

Environment & Atmosphere:

  • Setting: The scene is set on a turbulent ocean at night during a violent storm.
  • Background: The wooden deck of the Black Pearl is visible behind him, wet with rain. Vague silhouettes of the pirate crew are busy working on the rigging in the background.
  • Lighting & Effects: Dramatic lightning strikes illuminate the dark, crashing waves and the ship’s sails. High contrast chiaroscuro lighting highlights the rain dripping from his hat and the texture of his wet skin.
  • Mood: Intense, adventurous, ominous, and epic.

Technical Specs: 4k resolution, shot on 35mm lens, photorealistic, movie still aesthetics.

翻译:

电影感的超现实主义摄影风格,杰克·斯派罗船长(由约翰尼·德普扮演)的中景镜头,他胜利般地站在“黑珍珠号”的船头。凝视着地平线,带着一丝玩世不恭、充满自信的坏笑,半眯着画着烟熏妆的眼睛,散发着魅力与疯狂。

着装细节:

他戴着标志性的、由深色皮革制成的、饱经风霜的三角帽。

身穿一件破旧的男式长礼服外套、一件有着宽大袖子的亚麻衬衫,并系着多条带有大号搭扣的腰带。

身上装饰着他标志性的脏辫、珠子、头巾,手指上戴着戒指。

环境与氛围:

场景:设定在夜晚的汹涌大海上,正值一场猛烈的风暴。

背景:他身后是“黑珍珠号”被雨水打湿的木质甲板。背景中,依稀可见海盗船员们正在索具上忙碌的模糊剪影。

光照与特效:戏剧性的闪电划破夜空,照亮了漆黑的、汹涌翻滚的巨浪和船帆。高对比度的明暗对照法突显了从他帽子上滴落的雨水和他湿漉漉的皮肤纹理。

技术参数: 4K分辨率,使用35mm镜头拍摄,照片级真实感,电影剧照美学。

Z-Image-Turbo

年末开源图像模型决战:Z-Image-Turbo vs Flux.2 Dev 丨302.AI 基准实验室

Flux-2-Dev

年末开源图像模型决战:Z-Image-Turbo vs Flux.2 Dev 丨302.AI 基准实验室

Qwen Image

年末开源图像模型决战:Z-Image-Turbo vs Flux.2 Dev 丨302.AI 基准实验室
测评点Z-Image-TurboFlux-2-DevQwen Image
人物拟真度★★★★★★★★★★★
画面美感★★★★★★★★★★★
提示词遵循★★★★★★★★★★★★★
简评Z-Image-Turbo胜。人像拟真度上Z-Image与Flux-2-Dev都还不错,主要差异在于画面整体氛围。Z-Image呈现了类似HDR的效果,仿佛使用高速快门,捕捉到闪电最明亮的一刻,带来强烈的明暗对比,无论是人物皮肤,服装,雨滴的质感都格外突出。另外右侧生成了另一只船,画面信息与构图都较Flux.2更优。至于Z-Image 饱和度可能过高,根据个人喜好后期简单处理即可,不算大问题。

案例 3:文生图-日常手机照

测试点:世界知识,文字生成,拟真度

提示词

Guangzhou Dongshankou street snap. A classic red Mini R56 parked curbside next to a vintage villa converted into a cafe named 東山. Car’s license plate is “粤A 302A1”. Stylish Gen-Z youth passing by, casual demeanor. Sunny afternoon, heavy shadows, vibrant colors. Shot on mobile phone, 28mm focal length. Authentic daily life scene, urban trendy vibe, high definition, detailed car exterior.

翻译:

广州东山口街拍。一辆经典的红色Mini R56停在路边,旁边是一座被改造成名为“東山”咖啡馆的复古别墅。车牌号是“粤A 302A1”。时尚的Z世代青年路过,神态随意。阳光明媚的下午,阴影浓重,色彩鲜艳。用手机拍摄,28mm焦距。真实的日常生活场景,都市氛围,高清,汽车外观细节丰富。

Z-Image-Turbo

年末开源图像模型决战:Z-Image-Turbo vs Flux.2 Dev 丨302.AI 基准实验室

Flux-2-Dev

年末开源图像模型决战:Z-Image-Turbo vs Flux.2 Dev 丨302.AI 基准实验室

Qwen Image

年末开源图像模型决战:Z-Image-Turbo vs Flux.2 Dev 丨302.AI 基准实验室

现实中东山口参考:

图源:xhs用户拿铁-

附Nano Banana Pro进行对比

年末开源图像模型决战:Z-Image-Turbo vs Flux.2 Dev 丨302.AI 基准实验室
测评点Z-Image-TurboFlux-2-DevQwen Image
人物&环境拟真度★★★★★★★★
文字准确度★★★★★★★★★★
提示词遵循★★★★★★★★★
简评三张都一般。1.主体车辆形象都准确,但车牌是考点(提示词专门不写中国蓝色的车牌):Z-Image和Flux的“粤”生成失败,反倒是Qwen相对形似,Flux生成的黑色车牌显然是世界知识的不足;2.三张图更大的问题都在于对于东山口,改造成咖啡馆的复古别墅,时尚的Z世代青年这几点理解有偏差,无论是街景建筑还是行人,更像是老西关,而非潮人云集的东山口。

案例 4:文生图-多主体

测试点:世界知识,文字生成,指定风格

提示词

A top-down flat lay shot, analog film photography style. A textured vintage dark wooden desk bathed in natural window sunlight, casting soft window frame shadows. A vintage wooden vinyl record player is placed on the table. Surrounding it are 4 vinyl record sleeves: 1) Radiohead’s “The Bends”, 2) Kanye West’s “My Beautiful Dark Twisted Fantasy”, 3) Jay Chou’s “Ye Hui Mei ”, 4) Stefanie Sun’s “Kite”. Dust particles dancing in the light, Kodak Portra 400 film grain, nostalgic atmosphere, messy but cozy

翻译:

俯拍平铺镜头,模拟胶片摄影风格。一张有纹理的复古深色木制书桌,沐浴在自然的窗边阳光下,投射出柔和的窗框阴影。桌上放着一台复古木质黑胶唱片机。围绕着它的是4张黑胶唱片封套:1) Radiohead的《The Bends》,2) Kanye West的《My Beautiful Dark Twisted Fantasy》,3) 周杰伦的《叶惠美》,4) 孙燕姿的《风筝》。尘埃颗粒在光线中飞舞。柯达Portra 400胶片颗粒感,怀旧氛围,凌乱而舒适。

Z-Image-Turbo

年末开源图像模型决战:Z-Image-Turbo vs Flux.2 Dev 丨302.AI 基准实验室

Flux-2-Dev

年末开源图像模型决战:Z-Image-Turbo vs Flux.2 Dev 丨302.AI 基准实验室

Qwen Image

年末开源图像模型决战:Z-Image-Turbo vs Flux.2 Dev 丨302.AI 基准实验室

附Nano Banana Pro进行对比

年末开源图像模型决战:Z-Image-Turbo vs Flux.2 Dev 丨302.AI 基准实验室

附现实中4张唱片封面:

年末开源图像模型决战:Z-Image-Turbo vs Flux.2 Dev 丨302.AI 基准实验室
测评点Z-Image-TurboFlux-2-DevQwen Image
封面准确度
画面美感★★★★★★★★★★★
简评都不合格。对模型综合能力的一项测试。Nano Banana Pro 100%准确还原了欧美乐坛这两张经典封面,对于华语音乐的世界知识有待提高,但生成的人物和文字均准确;Qwen很逗,分明生成了一张潘玮柏;Flux大失所望,对欧美乐坛的知识也不合格;Z-Image画面美感在线,包括环境以及这几张“唱片封面”的设计。

案例 5:文生图-商品海报生成

测试点:世界知识,文字生成,构图排版

提示词:

Commercial photography of the Ray-Ban Meta Wayfarer Gen 2 smart glasses, centered composition. The glasses have visible small camera sensors on the front frame. Background is a modern, geometric abstract composition using Ray-Ban’s signature bright red and white colors. Clean minimal layout with negative space for text overlays. High-gloss acetate texture, reflections of studio softbox lighting, sharp details, luxury eyewear advertisement

翻译:

Ray-Ban Meta Wayfarer Gen 2 智能眼镜的商业摄影,居中构图。眼镜前框上有清晰可见的小型摄像头传感器。背景采用 Ray-Ban 标志性的亮红和白色配色,构成现代几何抽象画面。干净极简的布局,为后期叠加文字预留了留白空间。高光泽的板材(醋酸纤维)质感,映衬着摄影棚柔光箱的光影反射,细节锐利,呈现出奢华眼镜广告的风格。

Z-Image-Turbo

年末开源图像模型决战:Z-Image-Turbo vs Flux.2 Dev 丨302.AI 基准实验室

Flux-2-Dev

年末开源图像模型决战:Z-Image-Turbo vs Flux.2 Dev 丨302.AI 基准实验室

Qwen Image

年末开源图像模型决战:Z-Image-Turbo vs Flux.2 Dev 丨302.AI 基准实验室

附现实产品参考:

年末开源图像模型决战:Z-Image-Turbo vs Flux.2 Dev 丨302.AI 基准实验室
测评点Z-Image-TurboFlux-2-DevQwen Image
产品准确度★★★★★★★
画面构图美感★★★★★★★★★★★
简评Flux-2-Dev完胜。胜点:1.准确的眼镜整体造型与细节(摄像头,左镜片上方的Rayban logo);2.合理的摄影布光,突出了镜体材质的质感,下方的阴影逼真;3.极简但醒目的红白分割背景,主体突出的同时体现了品牌风格。

III. Z-Image-Turbo图像模型实测结论

年末开源图像模型决战:Z-Image-Turbo vs Flux.2 Dev 丨302.AI 基准实验室
年末开源图像模型决战:Z-Image-Turbo vs Flux.2 Dev 丨302.AI 基准实验室

五则常见情景的案例测下来,对于Z-Image-Turbo 和 Flux-2-Dev的风格和能力边界我们也有了基本结论:

1. Z-Image-Turbo的人像能力,明显优于Flux.2,典型案例如案例1,2。如果你的工作就是跟“人”打交道——无论性别,种族,风格是艺术写真还是日常生活街拍,人物的皮肤质感、光影层次、甚至是一个眼神的“故事氛围感”上,Z-Image-Turbo的能力可以让人满意,甚至能和头部的闭源模型掰手腕;

2. Z-Image-Turbo和Flux.2的文字生成能力能满足基础需求,无论是中英文,只要是大字号的文本(如案例5的海报),都可以准确无误地绘制,但细节处的文字渲染如案例3的车牌号,这俩模型都有提升空间。使用上不建议直接指望模型出成品图,而是通过提示词明确留白的空间,后期无论是使用传统PS手段还是用Top的图像编辑模型,都是更好的解决方案;

3. Z-Image-Turbo和Flux.2的世界知识有,但是否够用要看你任务需求的复杂程度和跟谁比,跟Nano Banana Pro比的话显然是班门弄斧。像是案例4的专辑封面,它俩都知道黑胶唱片封面是什么东西,但具体到某位艺人准确的唱片封面,就全抓瞎了。做决策其实也很简单,可以先用这两个低试错成本的开源模型跑,如果结果不满意,再上NBP即可;

4. 作为开源模型的蒸馏版本,Z-Image-Turbo 最大亮点自然是它低门槛的普惠性。官方描述能轻松运行于 16G 显存的消费级设备上,个人实测我8G显存的30系卡一样能跑。期待Z-Image-Edit版(图像编辑)的早日发布,毕竟对于创作者来说,多一个选择总是好事。


Ⅳ. 如何在 302.AI 上使用

302.AI 提供按需付费无订阅的服务模式,用户可以根据自身业务需求灵活选择使用。

使用模型 API

步骤指引:API超市→图片生成→302.AI→Z-Image-Turbo

年末开源图像模型决战:Z-Image-Turbo vs Flux.2 Dev 丨302.AI 基准实验室
年末开源图像模型决战:Z-Image-Turbo vs Flux.2 Dev 丨302.AI 基准实验室

点击【立即体验】在线调用 API

年末开源图像模型决战:Z-Image-Turbo vs Flux.2 Dev 丨302.AI 基准实验室

想即刻体验 Z-Image-Turbo 模型?

👉立即注册免费试用302.AI,开启你的AI之旅!👈

为什么选择302.AI?

● 灵活付费:无需月费,按需付费,成本可控

● 丰富功能:从文字、图片到视频,应有尽有,满足多种场景需求

● 开源生态:支持开发者深度定制,打造专属AI应用

● 易用性:界面友好,操作简单,快速上手

年末开源图像模型决战:Z-Image-Turbo vs Flux.2 Dev 丨302.AI 基准实验室
All Rights Reserved by 302.AI
喜欢 (0)
302.AI302.AI
上一页 3天前
下一页 2024 年 9 月 9 日 下午6:32

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注