11 种语言直译+版式精准还原：阿里 Qwen-MT-Image 图片翻译能力实测丨302.AI 基准实验室

在跨语言信息处理需求日益增长的今天，大量图片中的外语文本、复杂排版与专业术语壁垒，始终是许多用户面临的现实难题。传统的解决方式往往需要分步操作：先提取图片中的文本，单独进行翻译，再进行图像编辑处理。而如今，越来越多支持端到端图片翻译的 AI 模型正不断涌现，致力于探寻“即视即译”的技术边界——这不仅要求模型具备出色的多模态感知能力，以准确识别图像中的文字与结构，也依赖其强大的翻译性能，以实现高质量、多语种之间的无缝转换。能否精准捕捉视觉信息并快速输出译文，直接关系到使用者能否高效避免阅读障碍、提升信息获取的效率。

阿里于八月底推出的 Qwen-MT-Image，正是针对一系列图片直译痛点的有力解决方案。该模型支持包括英语、日语、法语、德语、西班牙语等在内的11种语言图像文字的精准翻译，可输出中英双语结果。更重要的是，它在实现较高水平翻译的同时，能够精准保留原始排版与内容信息，并提供术语定义、敏感词过滤、图像主体检测等自定义功能。

它建立在专精翻译的Qwen-MT（Turbo）模型之上，目前共支持 92 种语言，包括阿萨姆语、斯瓦希里语，甚至北黎凡特阿拉伯语这类小众语言，覆盖了地球上超过 95% 的人口。相信随着版本更迭，之后的图片翻译也会增加更多语种支持。

Qwen-MT（Turbo）模型在多个语种的翻译能力上达到 SOTA 水平。

302.AI 的 API 超市现已接入 Qwen-MT-Image 模型，本期文章将针对 Qwen-MT-Image 在翻译性能方面的表现进行实测，探究它如何作用于图片翻译的实用领域。

I. 模型基本信息

模型名称	在302.AI的价格	支持的源语种	支持的目标语种
qwen-mt-image	$0.001/张	简体中文、英文、韩语、日语、俄语、西语、法语、葡萄牙语、意大利语、德语、越南语	简体中文、英文、韩语、日语、俄语、西语、法语、葡萄牙语、意大利语、越南语、马来语、泰语、印尼语、阿拉伯语

II. 测评案例

案例 1：电商 Banner

翻译效果：

翻译准确度：★★★★★

排版一致性：★★★

简评：不可用。翻译内容完整无误，将“UP TO 25% OFF”翻译为“7.5 折”，适配中文语系习惯，可读性强。但排版存在明显问题，如左下角的密集信息，没能美观地排版分行；主标题针织衫毛衣附近的画面有明显白色残留痕迹；右上角角标LOGO重叠。

案例 2：商业海报

翻译效果：

翻译准确度：★★★★★

排版一致性：★★★★

简评：基本可用。除将“XS”变更小写为“Xs”外，翻译基本准确；英语日期的翻译未翻译为1st, July这种更符合欧美语系习惯的格式；排版整体贴合原版，但具体到细节如分行，字号大小，都还有优化空间。

案例 3：信息图表

翻译效果：

翻译准确度：★★★★

排版一致性：★★★★★

简评：基本可用。内容为字面直译，准确度尚可；部分内容为遵循排版的强一致性而摒弃了语序，如“在…期间”为一行，“2025-2032”为一行；233.46美元为一行，十亿为一行，方便阅读的话应直接翻译为2334亿美元。

案例 4：产品信息-成分表

翻译效果：

翻译准确度：★★★

排版一致性：★★★★

简评：不可用。重点信息翻译准确。左侧信息机械直译降低了可读性，左下角的成分和公司信息模糊为小字，清晰度缺失。

案例 5：手写字体

翻译效果：

翻译准确度：★★★★

排版一致性：★★★

简评：基本可用。手写体识别准确，翻译为字面直译，未进行语句润色。如将同样的原文使用Gemini进行翻译测试，得到的最为信达雅一版的译文令笔者也不禁叫好，“书写为途，点滴皆进步；墨耕不辍，页页有新篇。”此外，原图中字体字号都是统一的，而输出图片则转换为了两种字号。

翻译效果：

翻译准确度：★★

排版一致性：★★★★★

简评：不可用。手写体识别准确，但仍是排版的一致性高于语义准确流畅性，造成阅读不顺；更大的问题是明显有原图中英文的残留痕迹，就像是抠图没抠干净再新建图层生硬地输入了译文。

案例 6：实景指示牌

翻译效果：

翻译准确度：★★★★★

排版一致性：★★★★★

简评：识别翻译准确，存在感较低的文字也做了识别。

III. Qwen-MT-Image实测小结

我们拿 Qwen-MT-Image 在多种场景下试了一圈，从跨语言翻译、图文排版，到图表信息识别，它给出了不少“基本可用”的结果，但你要说这它现在就能取代设计，翻译，排版的工作，成为一个翻译+设计的“瑞士军刀”？不好意思，还有些距离。

主要存在两类问题，简单捋一下：

第一类，是翻译精度和风格控制的问题。

翻译这事，听起来都是“把一种语言换成另一种”，但需要遵循的规则并不少。一本诗集和一篇论文的翻译，从用词到字句长度，整体文风，都不尽相同——前者讲求文学性、审美；后者死磕术语、准确。

用 LLM（大语言模型）翻译，你只要在提示词里跟它说清楚：比如我要一个有网感，时尚，高级感的广告语翻译，你得到的译文自然是这个路子的不会跑偏。

以我们在案例 5 中的操作为例：

我可以从这一轮给出的 4 个译文中选择最满意的文本，再进行图像的排版制作。

而 Qwen-MT-Image 虽然也有参数能够明确译文的领域，风格，使用场景，但属于开盲的操作，因为你在对译文结果未知的情况下它就直接进行了图像输出，不满意的话，只会陷入抽卡的循环，反而耗时耗 Token.

第二类，是设计排版“自由度失灵”的问题。

比如最常见的商业场景：一张图文并茂的宣发海报，客户要求中英双语两个版本，你直接上传原图，理论上模型翻译完、排版好，设计师可以直接摸鱼。

现实就是，它能帮你干，但结果能否交付则另说。首先，它没法让你像用 PS 那样精细控制字体、字号、间距。这对品牌方来说可不是小事，一个大小写错误，你觉得“专业性”这三个字何在？更严重的是，在多个案例中还存在着“原文烙印”残留的问题——有的图上，英文没删干净，结果中英文叠一起，画面直接报废。

另外，在类似案例 6 的情景中，用户需要获取的是实时的，准确的信息，并不需要考虑设计方面的要求，那么该模型确实具有可用性。但这类“工具型”需求，早已成熟的诸如谷歌拍照翻译等 APP 即可满足用户需求。

总的说，Qwen-MT-Image 属于那种方向对，但现有能力还不够强的产品。

朝着图文翻译自动化这个大方向走没错，而且在几个关键点，比如跨语种识别、多模态输入、排版还原方面已经搭好骨架了。但眼下，精度、风格控制、用户交互还处于初步阶段，还没真正落地开箱即用的程度。

随着模型能力的进一步提升，版本的迭代优化，它将有潜力真正落地到电商图翻译、社交媒体视觉运营、智能排版等具体场景上，把那些冗长繁复的人类工作流程进一步简化。

Ⅳ. 如何在 302.AI 上使用

302.AI 提供按需付费无订阅的服务模式，用户可以根据自身业务需求灵活选择使用。

获取模型API

相关文档：API→API超市→图片处理→通义万相→qwen-mt-image→查看文档；

点击【调试】在线调用 API

想体验 qwen-mt-image 模型？

👉立即注册免费试用302.AI，开启你的AI之旅！👈

为什么选择302.AI？

● 灵活付费：无需月费，按需付费，成本可控

● 丰富功能：从文字、图片到视频，应有尽有，满足多种场景需求

● 开源生态：支持开发者深度定制，打造专属AI应用

● 易用性：界面友好，操作简单，快速上手

11 种语言直译+版式精准还原：阿里 Qwen-MT-Image 图片翻译能力实测丨302.AI 基准实验室

I. 模型基本信息