302.AI 基准实验室丨中文渲染新 SOTA!Qwen-Image 实测:多语言文本全面领先

302.AI 基准实验室丨中文渲染新 SOTA!Qwen-Image 实测:多语言文本全面领先

复杂文本渲染的准确性,一直是 AI 生图领域长期存在的技术瓶颈。即便顶尖的生图模型,在处理复杂文本时也难免出现乱码现象。就在上周,阿里开源了通义千问系列的首个图像生成基础模型——Qwen-Image,其核心突破便在于卓越的复杂文本渲染能力。

302.AI 基准实验室丨中文渲染新 SOTA!Qwen-Image 实测:多语言文本全面领先

通义千问团队在多个公开基准上对 Qwen-Image 进行了全面评估,公开数据表明其在通用图像生成和图像编辑的所有基准测试中均取得了最先进的性能,超过了 Flux.1BAGEL等开源模型。此外,在用于文本渲染的 LongText-Bench、ChineseWord 和 TextCraft 上的结果表明,Qwen-Image 在文本渲染方面表现尤为出色,特别是在中文文本渲染上,大幅领先现有的最先进模型,包括 Seedream 3.0 和 GPT Image 1(High)。这凸显了 Qwen-Image 作为先进图像生成模型的独特地位,兼具广泛的通用能力与卓越的文本渲染精度。

302.AI 基准实验室丨中文渲染新 SOTA!Qwen-Image 实测:多语言文本全面领先

综合以上信息,其核心功能亮点体现在:

  • 卓越的文本渲染能力: Qwen-Image 在复杂文本渲染方面表现出色,支持多行布局、段落级文本生成以及细粒度细节呈现。无论是英语还是中文,均能实现高保真输出。
  • 一致性的图像编辑能力: 通过增强的多任务训练范式,Qwen-Image 在编辑操作中能同时保持准确语义信息和视觉真实感。
  • 强大的跨基准性能表现: 在多个公开基准测试中的评估表明,Qwen-Image 在各类生成与编辑任务中均获得 SOTA,是一个强大的图像生成基础模型。
302.AI 基准实验室丨中文渲染新 SOTA!Qwen-Image 实测:多语言文本全面领先

Qwen-Image 在复杂排版中依然保持文本准确性

在我们此前的实测文章《2025上半年AI生图王者之争:302.AI集结全明星阵容,TOP5模型实测揭晓!AIGC爱好者必读》中,国产模型 Doubao General V3.0 在多语言文本生成准确率上占据最优表现,而本次号称国产 SOTA 级的开源图像生成模型 Qwen-Image,能否再次重塑行业标准呢?

302.AI 已接入 Qwen-Image 模型 API,用户可在 API 超市在线调用。本期测评将侧重 Qwen-Image 的文本渲染能力,使用现有先进模型 GPT-Image 1 和 Doubao General V3.0 展开对比实测。


I. 实测模型基本信息

(1)各实测模型在 302.AI 的价格:

模型名称302.AI内的价格
Qwen-Image$ 0.05 / 次
Doubao General V3.0$ 0.05 / 次
GPT-Image 1$ 0.011-0.25 / 次

(2)测评工具:

(3)测评方法:

  • 各案例均使用统一的提示词进行生成,均取第一次生成结果,评测结果仅供参考。
  • GPT-Image 1 生成图片默认画幅为 1:1

Ⅱ. Qwen-Image测评案例

实测 1:长文本生成

提示词:Chinese landscape painting aesthetic, ink-wash color palette, depicting distant mountains shrouded in mist and clouds.

– Central Vertical Title: Super-large calligraphic font “踏歌行:江南二十四节气诗选”

Bottom Text Block (Three Lines): “本书收录当代诗人陈风岩2005-2020年间行走江南创作的节气组诗,以古典笔法书写现代乡愁。获第九届茅盾文学奖提名。”

Typography Specifications:

Font: Elegant Song typeface. Font size gradient – Title > Author/Info > Body

Details: Deep ink-green, ample white space background ensuring absolute text clarity. Xuan paper grain

中国山水画风格封面,水墨色调,远山云雾缭绕。
– 中央竖排标题:超大号书法字体“踏歌行:江南二十四节气诗选”
封面底部: 三行长段落: “本书收录当代诗人陈风岩2005-2020年间行走江南创作的节气组诗,以古典笔法书写现代乡愁。获第九届茅盾文学奖提名。”
字体:优雅宋体,字号渐变(标题>作者>正文)
细节:深墨绿色,背景留白区域确保文字绝对清晰,宣纸纹理

Qwen-Image

302.AI 基准实验室丨中文渲染新 SOTA!Qwen-Image 实测:多语言文本全面领先

Doubao General V3.0

302.AI 基准实验室丨中文渲染新 SOTA!Qwen-Image 实测:多语言文本全面领先

GPT-Image 1

302.AI 基准实验室丨中文渲染新 SOTA!Qwen-Image 实测:多语言文本全面领先
测评点Qwen-ImageDoubao General V3.0GPT-Image 1
文本准确性★★★★★★★★★★★
画面美感★★★★★★★★★★★★★
简评Qwen-Image 在长文本的生成准确性方面明显领先其他两个模型,但仍出现了字体部分扭曲等不稳定因素。Doubao 虽未完全生成准确中文,但画面美感更佳。而对于 GPT-Image 1 来说,中文文本一直是其短板。

实测 2:中英混排

提示词:

A hipster café on a late autumn afternoon, with warm golden sunlight filtering through wooden window frames. Exposed red brick walls adorned with handwoven tapestries. At the center, a vintage chalkboard menu features handwritten content:

Title: In flowing cursive script: ‘Seasonal Drinks’, accompanied by a coffee bean sketch

Menu items (crisp font without smudging):

– 南瓜拿铁 PUMPKIN SPICE LATTE …. ¥38

– 桂花乌龙冷萃 Osmanthus Oolong Cold Brew …. ¥42

– 热红酒 Mulled Wine (含酒精 Alcohol) …. ¥58

Footer: Neatly written at the bottom: ‘所有价格含10%服务费 All prices include 10% service charge’, flanked by hand-drawn maple leaf motifs

深秋午后的小众咖啡馆,木质窗棂透入暖金色阳光。墙面裸露的红砖挂着手工编织挂毯,中央复古黑板菜单用粉笔书写:
标题:流畅花体字书写 ‘Seasonal Drinks’,标题旁勾勒咖啡豆简笔画
菜单项(字体清晰无晕染):
– 南瓜拿铁 PUMPKIN SPICE LATTE …. ¥38
– 桂花乌龙冷萃 Osmanthus Oolong Cold Brew …. ¥42
– 热红酒 Mulled Wine (含酒精 Alcohol) …. ¥58
页脚:黑板底部工整书写 ‘所有价格含10%服务费 All prices include 10% service charge’,枫叶手绘图案环绕于文字两侧

Qwen-Image

302.AI 基准实验室丨中文渲染新 SOTA!Qwen-Image 实测:多语言文本全面领先

Doubao General V3.0

302.AI 基准实验室丨中文渲染新 SOTA!Qwen-Image 实测:多语言文本全面领先

GPT-Image 1

302.AI 基准实验室丨中文渲染新 SOTA!Qwen-Image 实测:多语言文本全面领先
测评点Qwen-ImageDoubao General V3.0GPT-Image 1
文本准确性★★★★★★★★★★★★
画面美感★★★★★★★★★★★★★★★
简评Qwen-Image 中文文本和数字全部准确生成,英文排版较拥挤的部分出现字母缺漏,但整体完成度最高。值得一提的是,GPT-Image 1 除了无法处理中文,英文文本完整无缺,且字体风格与画面整体融合度较高。

实测 3:风格化文本

提示词:A cyberpunk-style portrait painting, featuring a futuristic woman in profile. The environment is a damp, neon-lit urban rain-soaked night. Resting along her collarbone is a slender, luminous necklace, with a pendant formed by cold-white neon tubes bent into the letters ‘Neon Ghost’.

The tubes must exhibit authentic neon qualities: sharp, cold-white light (with a hint of cyan), clear glass tubing walls, and the glow effect of internal gas discharge. This light casts a sharp, cold reflection and a soft halo onto the wet skin. Raindrops trail down her neck, causing distortion effects on parts of the letters due to water refraction.

The atmosphere is cold, detached, and filled with technological futurism, dominated by colors of cold white, cyan-blue, and punctuated by magenta neon accents.

赛博朋克风格肖像画,展现一位未来感女性侧脸,环境是潮湿霓虹闪烁的都市雨夜。她的锁骨处佩戴着一条纤细的发光项链,吊坠是冷白色霓虹灯管弯曲而成的 ‘Neon Ghost’ 字母。
要求灯管展现真实的霓虹质感:锐利的冷白光芒(略带青调)、清晰的玻璃管壁、内部气体放电的辉光效果,在湿润皮肤上投下清晰的冷光倒影和淡淡光晕。雨滴划过脖颈,部分字母因水珠折射产生扭曲光效。
氛围冰冷、疏离、充满科技未来感,色彩以冷白、青蓝、品红霓虹点缀为主。

Qwen-Image

302.AI 基准实验室丨中文渲染新 SOTA!Qwen-Image 实测:多语言文本全面领先

Doubao General V3.0

302.AI 基准实验室丨中文渲染新 SOTA!Qwen-Image 实测:多语言文本全面领先

GPT-Image 1

302.AI 基准实验室丨中文渲染新 SOTA!Qwen-Image 实测:多语言文本全面领先
测评点Qwen-ImageDoubao General V3.0GPT-Image 1
文本准确性★★★★★★★★★★★★★★★
画面美感★★★★★★★★★★★★★
简评对于简单文本,三个模型均能准确生成。本组整体当属 Qwen-Image 表现最佳,兼具了准确性与画面美感,并生成了投影效果,唯一不足之处在于字母与项链未能连接为一个整体。

实测 4:场景化文本

提示词:

Photorealistic, cinematic street photography, sharp focus, vibrant natural colors, shot on a professional DSLR camera.

A wide shot of a Japanese LAWSON convenience store perfectly positioned in front of the majestic, snow-capped Mount Fuji. The scene captures a serene yet surreal juxtaposition of everyday life and iconic nature.

In the foreground, the LAWSON store spans the width of the frame. It has a flat roof and large glass windows reflecting the surroundings. The main blue sign prominently displays the text “LAWSON” in white block letters. Next to the main logo, smaller signs with Japanese characters are visible, including “野菜” and “くだもの”. Other advertisements with Japanese text like “私の一番おいしいチキントリオ” are visible through the glass.

In the background, the massive cone of Mount Fuji rises majestically into a clear blue sky. Its peak is covered in brilliant white snow, contrasting with the dark volcanic rock below. A soft band of white clouds wraps around the base of the mountain, separating it from the cityscape.

A person wearing a face mask is riding a red bicycle across the empty asphalt road in front of the store, captured with a slight motion blur to convey movement.

The lighting is bright, even daylight, casting soft shadows. The overall composition is clean, balanced, and has a tranquil, slightly minimalist feel. The mood is peaceful and iconic.

摄影级写实,电影感的街头摄影风格,焦点清晰,色彩鲜艳自然,由专业单反相机拍摄。
一幅日本罗森(LAWSON)便利店的广角镜头照片,完美地坐落在雄伟的、白雪皑皑的富士山前。该场景捕捉到了一种宁静而又超现实的并置,融合了日常生活与标志性的自然景观。
在前景中,罗森便利店横跨整个画面。它有着平坦的屋顶和能反射周围环境的巨大玻璃窗。蓝色的主招牌上醒目地展示着白色的粗体字母“LAWSON”。主标志旁边,可以看到带有日文字符的小标牌,包括“野菜”和“くだもの”。透过玻璃,还能看到其他带有日文的广告,如“私の一番おいしいチキントリオ”
在背景中,巨大的富士山锥形山体雄伟地耸入晴朗的蓝天。其山顶覆盖着耀眼的白雪,与下方深色的火山岩形成对比。一条柔和的白色云带环绕在山脚,将其与城市景观分离开来。
一个戴着口罩的人正骑着一辆红色的自行车穿过店前的空旷沥青马路,画面捕捉到了轻微的动态模糊,以传达运动感。
光线是明亮、均匀的日光,投下柔和的阴影。整体构图干净、均衡,带有一种宁静、略带极简主义的感觉。氛围平和而具有标志性。

302.AI 基准实验室丨中文渲染新 SOTA!Qwen-Image 实测:多语言文本全面领先

Qwen-Image

302.AI 基准实验室丨中文渲染新 SOTA!Qwen-Image 实测:多语言文本全面领先

Doubao General V3.0

302.AI 基准实验室丨中文渲染新 SOTA!Qwen-Image 实测:多语言文本全面领先

GPT-Image 1

302.AI 基准实验室丨中文渲染新 SOTA!Qwen-Image 实测:多语言文本全面领先
测评点Qwen-ImageDoubao General V3.0GPT-Image 1
文本准确性★★★★★★★★★
画面美感★★★★★★★★★★★★★
简评在日文文本的处理上,三个模型都略显吃力。不过这组出现了一个有趣现象:两个国产模型都依照惯性生成了蓝色的“Lawson” logo,而 GPT-Image 1 却严格依照提示词要求将 “Lawson”处理为了白色。

实测 5:海报设计(复杂排版)

提示词:

A vibrant and energetic poster for a Summer Music Festival.

Focal point: Abstract geometric shapes in flat design style (neon pink, electric blue, sunny yellow) radiating from the center, combined with stylized line art of a glittering stage and soundwave symbols.

Top center of the poster: Extra-large, bold, sans-serif font Chinese title **”霓虹节奏” (Neon Rhythm)**, in glowing white with a subtle drop shadow. **Ensure the text is distortion-free and perfectly readable**.

Directly below the title:

– Primary info layer: Prominent date/location “2025年8月24-25日 | 滨江公园” (modern sans-serif font, bright white)

– Secondary info layer: Additional event highlights “全明星阵容 · 露天泳池派对 · 美食市集” (same font one size smaller, neon yellow)

Bottom right corner:

– Website: “www.neonbeats.cn” (small sans-serif font)

New ticketing info: “早鸟票热售中|扫码购票” (Early Bird Tickets On Sale | Scan to Buy) + minimalistic QR code icon (same size as website text)

Bottom left corner: Co-branding logos (3 flat-design sponsor logos, e.g. beverage/headphone brands, height not exceeding text hierarchy)

Overall style:

– Flat illustration design (solid color blocks, no gradients, minimal shadows, clean outlines)

– High-contrast color scheme (dark blue/black background to emphasize neon elements)

– Dynamic radial composition, strict whitespace around text areas

– Core requirement: All Chinese text (title/date/highlights/ticketing) must be accurate, complete, hierarchically organized (Title > Date > Highlights > Ticketing > Website), unobstructed, and perfectly readable.

一幅充满活力与能量的夏季音乐节海报。
视觉焦点:扁平化设计的抽象几何图形(霓虹粉、电光蓝、阳光黄)从中心向外放射,搭配简笔触的闪耀舞台与音浪符号。
海报顶部中央:超大号、粗体、无衬线字体的中文标题 “霓虹节奏”,使用发光白色并带有轻微投影,确保文字清晰无变形、绝对可读。
标题正下方
– 主信息层:突出显示的日期地点 “2025年8月24-25日 | 滨江公园” (现代无衬线字体,亮白色)
– 次级信息层:新增活动亮点 “全明星阵容 · 露天泳池派对 · 美食市集” (稍小一号同字体,霓虹黄)
海报右下角
– 网站信息:“www.neonbeats.cn”(小号无衬线字体)
– 新增票务信息:“早鸟票热售中|扫码购票” + 简约二维码图标(与网址同字号)
左下角:新增合作品牌标识(3个扁平化设计的赞助商Logo,例如饮料/耳机品牌,高度不超过文字层级)
整体风格
– 扁平插画设计(纯色块、无渐变、极简阴影、清晰轮廓线)
– 高对比度配色(深蓝/黑色背景突出霓虹元素)
– 动态放射状构图,文字区域严格留白
– 核心要求:所有中文信息(标题/日期/亮点/票务)必须准确完整、层级分明(标题>日期>亮点>票务>网址)、无视觉遮挡,文字绝对可读。

Qwen-Image

302.AI 基准实验室丨中文渲染新 SOTA!Qwen-Image 实测:多语言文本全面领先

Doubao General V3.0

302.AI 基准实验室丨中文渲染新 SOTA!Qwen-Image 实测:多语言文本全面领先

GPT-Image 1

302.AI 基准实验室丨中文渲染新 SOTA!Qwen-Image 实测:多语言文本全面领先
测评点Qwen-ImageDoubao General V3.0GPT-Image 1
文本准确性★★★★★★★★★★★
画面美感★★★★★★★★★★★★
简评这组海报中 Qwen-Image 的作品可读性明显高于其他两个模型,兼顾文字清晰度和板块布局。但问题仍然存在,例如底层级的文字出现轻微扭曲,以及英文网址轻微拼写错误。

III. Qwen-Image 实测结论

302.AI 基准实验室丨中文渲染新 SOTA!Qwen-Image 实测:多语言文本全面领先

通过以上多组场景实测,可初步得出以下结论:

1. Qwen-Image 的复杂文本渲染能力确实处业界领先地位。无论在长文本、多语言文本、风格化排版当中,其文字清晰度与排版结构都大幅优于同类生图模型。尤其在中文文本处理方面表现突出,出现乱码、错字等常见问题的概率已控制在较低频率。虽然在极为拥挤或细节复杂的排版中,文本部分偶有扭曲和模糊现象,但整体完成度依然高于市面主流大模型。对于多语言商业海报、菜单、广告等场景,Qwen-Image 已具备实际应用价值。

    2. Qwen-Image 展现出显著的性价比优势和行业革新潜力。作为完全开源的模型,Qwen-Image 在成本控制和易用性方面表现突出。凭借其领先的文本渲染能力和广泛的应用场景适应性,为设计师、开发者及中小企业提供了高性能与成本效益兼具的 AIGC 解决方案。值得一提的是,Qwen-Image 在复杂文本渲染领域取得的”国产 SOTA”级突破,不仅展现出引领行业标准的潜力,更有望在今后推动行业技术普惠化。

      3. 尽管 Qwen-Image 在复杂文本生成领域取得显著突破,仍存在细节改进空间。譬如实测过程中出现的稳定性问题:当前版本在极端场景下仍会出现小字号文本拼写错误、次级文本轻微变形等稳定性等不足。同时,在高端商业应用场景中,如专业级排版设计和品牌视觉传达,模型的审美表现仍有提升潜力。

        综上所述,尽管在极端场景下的细节处理和高端商业应用方面仍有优化空间,但 Qwen-Image 已经展现出足以重塑行业标准的创新潜力。随着持续迭代升级,或有望在创意设计、数字营销、内容出版等多个领域带来革命性的效率提升,推动 AIGC 技术向更专业化、普惠化的方向发展。


        Ⅳ. 如何在 302.AI 上使用

        302.AI 提供按需付费无订阅的服务模式,用户可以根据自身业务需求灵活选择使用。

        获取模型API

        相关文档:API超市→图片生成→302.AI→Qwen-Image→查看文档;

        302.AI 基准实验室丨中文渲染新 SOTA!Qwen-Image 实测:多语言文本全面领先
        302.AI 基准实验室丨中文渲染新 SOTA!Qwen-Image 实测:多语言文本全面领先

        点击【调试】在线调用 API

        302.AI 基准实验室丨中文渲染新 SOTA!Qwen-Image 实测:多语言文本全面领先

        想体验 Qwen-Image 模型?

        👉立即注册免费试用302.AI,开启你的AI之旅!👈

        为什么选择302.AI

        ● 灵活付费:无需月费,按需付费,成本可控

        ● 丰富功能:从文字、图片到视频,应有尽有,满足多种场景需求

        ● 开源生态:支持开发者深度定制,打造专属AI应用

        ● 易用性:界面友好,操作简单,快速上手

        302.AI 基准实验室丨中文渲染新 SOTA!Qwen-Image 实测:多语言文本全面领先
        All Rights Reserved by 302.AI
        Like (0)
        302.AI302.AI
        Previous 2天前
        Next 2025 年 3 月 5 日 下午6:40

        相关推荐

        发表回复

        您的邮箱地址不会被公开。 必填项已用 * 标注