
在跨语言信息处理需求日益增长的今天,大量图片中的外语文本、复杂排版与专业术语壁垒,始终是许多用户面临的现实难题。传统的解决方式往往需要分步操作:先提取图片中的文本,单独进行翻译,再进行图像编辑处理。而如今,越来越多支持端到端图片翻译的 AI 模型正不断涌现,致力于探寻“即视即译”的技术边界——这不仅要求模型具备出色的多模态感知能力,以准确识别图像中的文字与结构,也依赖其强大的翻译性能,以实现高质量、多语种之间的无缝转换。能否精准捕捉视觉信息并快速输出译文,直接关系到使用者能否高效避免阅读障碍、提升信息获取的效率。
阿里于八月底推出的 Qwen-MT-Image,正是针对一系列图片直译痛点的有力解决方案。该模型支持包括英语、日语、法语、德语、西班牙语等在内的11种语言图像文字的精准翻译,可输出中英双语结果。更重要的是,它在实现较高水平翻译的同时,能够精准保留原始排版与内容信息,并提供术语定义、敏感词过滤、图像主体检测等自定义功能。
它建立在专精翻译的Qwen-MT(Turbo)模型之上,目前共支持 92 种语言,包括阿萨姆语、斯瓦希里语,甚至北黎凡特阿拉伯语这类小众语言,覆盖了地球上超过 95% 的人口。相信随着版本更迭,之后的图片翻译也会增加更多语种支持。

Qwen-MT(Turbo)模型在多个语种的翻译能力上达到 SOTA 水平。

302.AI 的 API 超市现已接入 Qwen-MT-Image 模型,本期文章将针对 Qwen-MT-Image 在翻译性能方面的表现进行实测,探究它如何作用于图片翻译的实用领域。
I. 模型基本信息
模型名称 | 在302.AI的价格 | 支持的源语种 | 支持的目标语种 |
qwen-mt-image | $0.001/张 | 简体中文、英文、韩语、日语、俄语、西语、法语、葡萄牙语、意大利语、德语、越南语 | 简体中文、英文、韩语、日语、俄语、西语、法语、葡萄牙语、意大利语、越南语、马来语、泰语、印尼语、阿拉伯语 |
II. 测评案例
案例 1:电商 Banner

翻译效果:


翻译准确度:★★★★★
排版一致性:★★★
简评:不可用。翻译内容完整无误,将“UP TO 25% OFF”翻译为“7.5 折”,适配中文语系习惯,可读性强。但排版存在明显问题,如左下角的密集信息,没能美观地排版分行;主标题针织衫毛衣附近的画面有明显白色残留痕迹;右上角角标LOGO重叠。
案例 2:商业海报

翻译效果:


翻译准确度:★★★★★
排版一致性:★★★★
简评:基本可用。除将“XS”变更小写为“Xs”外,翻译基本准确;英语日期的翻译未翻译为1st, July这种更符合欧美语系习惯的格式;排版整体贴合原版,但具体到细节如分行,字号大小,都还有优化空间。
案例 3:信息图表

翻译效果:


翻译准确度:★★★★
排版一致性:★★★★★
简评:基本可用。内容为字面直译,准确度尚可;部分内容为遵循排版的强一致性而摒弃了语序,如“在…期间”为一行,“2025-2032”为一行;233.46美元为一行,十亿为一行,方便阅读的话应直接翻译为2334亿美元。
案例 4:产品信息-成分表

翻译效果:


翻译准确度:★★★
排版一致性:★★★★
简评:不可用。重点信息翻译准确。左侧信息机械直译降低了可读性,左下角的成分和公司信息模糊为小字,清晰度缺失。
案例 5:手写字体

翻译效果:


翻译准确度:★★★★
排版一致性:★★★
简评:基本可用。手写体识别准确,翻译为字面直译,未进行语句润色。如将同样的原文使用Gemini进行翻译测试,得到的最为信达雅一版的译文令笔者也不禁叫好,“书写为途,点滴皆进步;墨耕不辍,页页有新篇。”此外,原图中字体字号都是统一的,而输出图片则转换为了两种字号。

翻译效果:


翻译准确度:★★
排版一致性:★★★★★
简评:不可用。手写体识别准确,但仍是排版的一致性高于语义准确流畅性,造成阅读不顺;更大的问题是明显有原图中英文的残留痕迹,就像是抠图没抠干净再新建图层生硬地输入了译文。
案例 6:实景指示牌

翻译效果:


翻译准确度:★★★★★
排版一致性:★★★★★
简评:识别翻译准确,存在感较低的文字也做了识别。
III. Qwen-MT-Image实测小结

我们拿 Qwen-MT-Image 在多种场景下试了一圈,从跨语言翻译、图文排版,到图表信息识别,它给出了不少“基本可用”的结果,但你要说这它现在就能取代设计,翻译,排版的工作,成为一个翻译+设计的“瑞士军刀”?不好意思,还有些距离。
主要存在两类问题,简单捋一下:
第一类,是翻译精度和风格控制的问题。
翻译这事,听起来都是“把一种语言换成另一种”,但需要遵循的规则并不少。一本诗集和一篇论文的翻译,从用词到字句长度,整体文风,都不尽相同——前者讲求文学性、审美;后者死磕术语、准确。
用 LLM(大语言模型)翻译,你只要在提示词里跟它说清楚:比如我要一个有网感,时尚,高级感的广告语翻译,你得到的译文自然是这个路子的不会跑偏。
以我们在案例 5 中的操作为例:

我可以从这一轮给出的 4 个译文中选择最满意的文本,再进行图像的排版制作。
而 Qwen-MT-Image 虽然也有参数能够明确译文的领域,风格,使用场景,但属于开盲的操作,因为你在对译文结果未知的情况下它就直接进行了图像输出,不满意的话,只会陷入抽卡的循环,反而耗时耗 Token.
第二类,是设计排版“自由度失灵”的问题。
比如最常见的商业场景:一张图文并茂的宣发海报,客户要求中英双语两个版本,你直接上传原图,理论上模型翻译完、排版好,设计师可以直接摸鱼。
现实就是,它能帮你干,但结果能否交付则另说。首先,它没法让你像用 PS 那样精细控制字体、字号、间距。这对品牌方来说可不是小事,一个大小写错误,你觉得“专业性”这三个字何在?更严重的是,在多个案例中还存在着“原文烙印”残留的问题——有的图上,英文没删干净,结果中英文叠一起,画面直接报废。

另外,在类似案例 6 的情景中,用户需要获取的是实时的,准确的信息,并不需要考虑设计方面的要求,那么该模型确实具有可用性。但这类“工具型”需求,早已成熟的诸如谷歌拍照翻译等 APP 即可满足用户需求。
总的说,Qwen-MT-Image 属于那种方向对,但现有能力还不够强的产品。
朝着图文翻译自动化这个大方向走没错,而且在几个关键点,比如跨语种识别、多模态输入、排版还原方面已经搭好骨架了。但眼下,精度、风格控制、用户交互还处于初步阶段,还没真正落地开箱即用的程度。
随着模型能力的进一步提升,版本的迭代优化,它将有潜力真正落地到电商图翻译、社交媒体视觉运营、智能排版等具体场景上,把那些冗长繁复的人类工作流程进一步简化。
Ⅳ. 如何在 302.AI 上使用
302.AI 提供按需付费无订阅的服务模式,用户可以根据自身业务需求灵活选择使用。
获取模型API
相关文档:API→API超市→图片处理→通义万相→qwen-mt-image→查看文档;


点击【调试】在线调用 API

想体验 qwen-mt-image 模型?
👉立即注册免费试用302.AI,开启你的AI之旅!👈
为什么选择302.AI?
● 灵活付费:无需月费,按需付费,成本可控
● 丰富功能:从文字、图片到视频,应有尽有,满足多种场景需求
● 开源生态:支持开发者深度定制,打造专属AI应用
● 易用性:界面友好,操作简单,快速上手
