阿里通义团队于 12 月 19 日推出了其新一代图像生成模型 Qwen-lmage-Layered。新模型采用自研创新架构,可将图片“拆解”成多个图层。这种分层表示赋予了图像内在的可编辑性:每个图层都可以独立操作,而不会影响其他内容。

Qwen-lmage-Layered 的核心突破在于其革命性的“智能分层”能力。与传统的、直接生成一张平面像素图的模型不同,它能够将任何输入图像自动拆解成多个语义独立的 RGBA 图层,每个图层对应图像中的一个逻辑元素,如独立的人物、产品、天空或装饰物,并自带透明背景。这意味着,模型输出的不再是一张 JPG,而是一份高度可编辑的 PSD 文件。用户可以对其中任意图层进行移动、缩放、重新着色乃至删除,而完全不影响其他部分,从根本上确保了编辑的一致性与精准度。

这一强大能力的背后,是 Qwen-Image-Layered 几项关键的创新设计。通义团队通过一种全新思路——将图像分解为语义上解耦的 RGBA 图层,将图片自动进行“剥洋葱”,每一层都拥有独立的颜色(RGB)和透明度(Alpha),有效解决了图层间分布不均、边界模糊的历史难题。此外,模型的能力并非一蹴而就,而是通过循序渐进的训练,从学会生成单张图,进化到能理解和分解复杂多层结构。这些突破,使模型不再只是一个生成工具,更是一个将图片转化为可自由组装、任意调整的“视觉积木”,为 AI 图像编辑带来了新的可能性。
302.AI 现已接入 Qwen-Image-Layered 模型 API,其实际应用效果如何?本期测评,我们将通过多场景案例一探究竟。
I. Basic information on the actual model
(1)实测模型在 302.AI 的价格:
| 模型名称 | 302.AI内的价格 |
| Qwen-Image-Layered | $0.05/次 |
(2)测评目标:
- 编辑质量与真实感:评估模型在图像分层后的视觉效果以及可用性,包括细节保留、元素一致性及是否存在伪影或失真。
- 指令理解与执行准确性:测试模型对文本或图像指令的理解能力,检查编辑结果是否准确反映用户意图。
(3)测评工具:
使用 302.AI 的 API 超市→在线调试功能
(4)测评方法:
各案例均使用统一的提示词和图片进行生成,且均取第一次生成结果,评测结果仅供参考。
Ⅱ. 测评案例
案例 1:人像抠图
提示词:输出人物,背景,文字3个独立图层

输出结果:

通过PS重新编辑图片,可以直观看到效果

| 测评点 | Qwen-lmage-Layered |
| 人物精细度 | ★★★★★ |
| 文字精细度 | ★★★★★ |
| 背景精细度 | ★★★★ |
| 简评 | 先说短板缺陷:压缩画质。原图分辨率为1600*1280,输出图片分辨率为704*576,会压缩50%的像素信息。传统抠图的老难题-发丝,模型处理的相当完美。而体现出生成式模型优点的便是背景图,会自动补全人物背后的车体和房屋,瑕疵在于补全车体的进气格栅,明显发生了不一致。文字处理完美,在这个case该模型完全可用。 |
案例 2:产品图抠图
提示词:输出手持手机的主体,文字2个独立图层

输出结果:

文字细节放大:

| 测评点 | Qwen-lmage-Layered |
| 主体精细度 | ★★★★★ |
| 文字精细度 | ★★★ |
| 背景精细度 | ★ |
| 简评 | 不可用。用PS也能轻松完成的并不复杂的案例,AI明显翻车:1.背景图不可用,主体抠出后遗留大片灰黑像素痕迹;2.小字号的文字信息明显变形,可读性差。 |


类似的残影痕迹问题也看到不少用户反馈。
案例 3:复杂海报抠图
提示词:输出人物,背景,所有文字的3个图层

输出结果:

人物放大:

文字放大:

| 测评点 | Qwen-lmage-Layered |
| 人物精细度 | ★★ |
| 文字精细度 | ★★ |
| 背景精细度 | ★★ |
| 简评 | 不可用。1.由于画质压缩,海报中人物形象已经丢失面部细节,属于不可用的质量;2.背景和文字图层都多了人物,模型对人物识别发生错误;3.影片标题大号文字抠图可用,演员表部分的小字已完全失去可读性,不可用。 |
案例 4:二次元抠图
提示词:2名人物生成独立的2个图层,背景图层,鬼灭之刃的logo图层,总计4个图层

输出效果:

| 测评点 | Qwen-lmage-Layered |
| 人物精细度 | ★★ |
| 文字精细度 | ★★ |
| 背景精细度 | ★ |
| 简评 | 不可用。1. 人物抠图未处理干净,遗留前景/背景素材;2. 未能准确识别/补全背景,输出一张无关图片;3. logo图层边缘处理粗糙,丢失了“剧场版”三个字。 |
案例 5:信息图抠图
提示词:将信息图按照板块区分输出6个图层

输出效果:

考虑到辨别板块的难度,尝试更改需求:
提示词:输出背景、文字、插画3个图层
输出效果:

| 测评点 | Qwen-lmage-Layered |
| 插画精细度 | ★★★ |
| 文字精细度 | ★★ |
| 背景精细度 | ★★★ |
| 简评 | 不可用。1. 模型无法理解此类图片的板块关系,未按提示词要求拆分相应图层;2. 部分文字识别失败,低层级文字出现模糊和消失;3. 元素界定不清晰,如图3将人物插画也归入了文字图层。 |
III. Qwen-lmage-Layered 实测结论

通过本轮实测,不禁让我想到去年测评过的一款,同样来自Qwen的独特模型:Qwen-MT-Image 图片翻译模型。非常肯定Qwen会在已经成熟范式的模型赛道中,找到创新点进行实践与突破。但Qwen-Image-Layered目前的能力还有待提高:它确实可以实现图像智能分层,但在很多场景中都暴露了短板,还远未达到能够“取代 PS”的成熟度。
在人像抠图(案例 1)这类主体与背景区分明显的场景中,模型的智能分层能力得到了充分体现。它不仅能够精准分离主体、背景与文字,还能以生成式的方式智能补全被遮挡的背景,尤其在边缘处理(如发丝)上表现细腻。这说明,其将图像拆解为可独立编辑图层的技术路径,在理想条件下确实能带来革新性的编辑体验,精准而高效。
然而,实测也暴露出模型在当前阶段的多重局限。首先,画质压缩是明显硬伤。所有案例的输出分辨率均大幅下降,导致细节丢失严重(如案例 3 中人物,文字的模糊情况),这极大限制了其在需要高清输出的商业设计或印刷场景中的应用。其次,模型对图像的理解尚不稳定。面对结构稍显复杂的产品图、海报或信息图时,频繁出现元素识别错误(如背景图层识别错误)、图层归类混乱(如未能按板块拆分信息图),以及文字变形、缺失等问题,导致生成的图层基本不可用。
此外,模型的“智能补全”能力是一把双刃剑。在背景简单或为纯色时,它能提供便利;但在复杂背景下(如案例 2 和案例 4 的特定背景),它往往无法准确识别应留白的区域,要么“脑补”出无关内容,要么残留明显痕迹,反而破坏了图层的纯净与可用性。
总体而言,Qwen-Image-Layered 目前仍是一个高度依赖输入图像条件的工具,而非即开即用的全能生产方案。它在主体明确、背景简洁的场景中效率突出,却尚难以适应对稳定性与精度有更高要求的专业场景。从可行到真正好用,还有很长一段路要走。
IV. How to use on 302.AI
302.AI 提供按需付费无订阅的服务模式,用户可以根据自身业务需求灵活选择使用。
使用模型 API
相关文档:API→API超市→图片处理→302.AI→Qwen-lmage-Layered→立即体验;


点击【调试】在线调用 API

想体验 Qwen-lmage-Layered 模型?
👉立即注册免费试用302.AI,开启你的AI之旅!👈
为什么选择302.AI?
● 灵活付费:无需月费,按需付费,成本可控
● 丰富功能:从文字、图片到视频,应有尽有,满足多种场景需求
● 开源生态:支持开发者深度定制,打造专属AI应用
● 易用性:界面友好,操作简单,快速上手
