GLM-4.6V 实测:当视觉模型学会“动手”,它离“顶尖”还差什么?丨302.AI 基准实验室

智谱 AI 于 12 月 8 日正式开源了其新一代多模态模型 GLM-4.6V 系列,包含面向高性能场景的 106B 版本与轻量本地部署的 9B Flash 版。此次升级不仅将训练上下文窗口一举推至 128K tokens,更在模型架构中做了一个关键变革:让工具调用(Function Call)成为视觉模型的原生能力。这意味着,模型不再止步于识别图像,而是能自主调用工具、处理结果并持续执行——从看清世界到动手完成的路径被首次彻底打通。

GLM-4.6V 实测:当视觉模型学会“动手”,它离“顶尖”还差什么?丨302.AI 基准实验室

其中最值得关注的突破,是 “图像即参数,结果即上下文” 这一设计理念。传统多模态流程中,图像需先转为文字描述再调用工具,环节繁琐且信息易损耗。而 GLM-4.6V 允许截图、图表、文档页面等直接作为工具参数输入,并可将工具返回的图片、网页等重新纳入视觉理解链路,实现闭环任务处理。无论是根据街拍图自动调用搜图工具比价生成导购清单,还是解析长文档后跨页抽取数据制成对比表格,模型都能在单次推理中自主规划并完成。

在性能表现上,GLM-4.6V 同样给出了扎实的成绩。在 MMBench、MathVista、OCRBench 等 30 余项多模态评测中,其整体精度达到同参数规模下的 SOTA水平。具体来看,9B 轻量版整体表现已超越 Qwen3-VL-8B,而 106B 版本则凭借 12B 激活参数,在多项任务中比肩参数量 2 倍于自身的 Qwen3-VL-235B,显示出优异的效率与能力。

GLM-4.6V 实测:当视觉模型学会“动手”,它离“顶尖”还差什么?丨302.AI 基准实验室

具体落地到应用层面,GLM-4.6V 适配四大核心场景:

  1. 智能图文创作:能理解复杂图文并自动调用工具配图、审核质量,直接输出结构化内容
  2. 视觉购物导购:可完成从识图、比价到生成导购清单的完整流程
  3. 前端代码复刻:能够实现接近像素级的网页设计稿还原,并支持基于截图的自然语言交互修改
  4. 长文档与视频理解:得益于 128K 长上下文,可一次性处理百余页文档或小时级视频,实现跨页、跨帧的深度分析与信息精准定位

此番升级还伴随着大幅降价——API 调用价格较上一代降低 50%,轻量版 GLM-4.6V-Flash 更将免费开放。可谓是能力跃进与成本优化双重驱动。

302.AI 现已接入 GML-4.6V 系列模型 API,本期实测将针对 GLM-4.6V 展开多维度的实测对比,直观感受其在多模态任务中的实际应用表现。


I. 实测模型基础信息

(1)各实测模型在 302.AI 的价格:

模型名称说明上下文302.AI内的价格
glm-4.6v输入长度[0, 32k]128000输入:$0.145/ 1M tokens输出:$0.43/ 1M tokens
输入长度[32k,128k]128000输入:$0.29/ 1M tokens输出:$0.86/ 1M tokens
gemini-3-pro-preview输入/输出<=200K tokens1000000输入:$2/ 1M tokens输出:$12/ 1M tokens
输入/输出>200K tokens1000000输入:$4/ 1M tokens输出:$18/ 1M tokens
gpt-5.1400000输入:$1.25/ 1M tokens输出:$10/ 1M tokens

(2)测评目的:

本评测侧重模型对逻辑,数学,编程,人类直觉,多模态等问题的测试,非专业前沿领域的权威测试。旨在观察对比模型的进化趋势,提供选型参考。

(3)测评方法:

本次测评使用302.AI收录的题库进行独立测试。3款模型分别就逻辑与数学(共10题),人类直觉(共7题),编程模拟(共12题)以及多模态推理(共20题)进行案例测试,对应记分规则取最终结果,下文选取代表性案例进行展示。

题库地址:https://docs.google.com/spreadsheets/d/1sBxs60yWsxc9I5Va8Rjc1_le1Omg2hOXbwqOzpImZio/edit?gid=0#gid=0

💡记分规则:

按满分10分记分,设定对应扣分标准,最终取每轮得分的平均值。

(4)测评工具:

302.AI 的API超市→在线使用


II. 测试结果总览

302.AI 题库测试结果:

GLM-4.6V 实测:当视觉模型学会“动手”,它离“顶尖”还差什么?丨302.AI 基准实验室
GLM-4.6V 实测:当视觉模型学会“动手”,它离“顶尖”还差什么?丨302.AI 基准实验室

302.AI 多模态模型测评分数总榜单:

GLM-4.6V 实测:当视觉模型学会“动手”,它离“顶尖”还差什么?丨302.AI 基准实验室

III. 案例展示

下文主要展示多模态相关案例

案例1:逻辑推理

测试点:细粒度感知,推理能力,因果与事件判断

提示词:三维视角图形推断:请从ABCD中选出正确视角

答案:C

GLM-4.6V 实测:当视觉模型学会“动手”,它离“顶尖”还差什么?丨302.AI 基准实验室

GLM-4.6V 推断错误

GLM-4.6V 实测:当视觉模型学会“动手”,它离“顶尖”还差什么?丨302.AI 基准实验室

GPT-5.1Gemini 3 Pro 的答案,均推断正确:

GLM-4.6V 实测:当视觉模型学会“动手”,它离“顶尖”还差什么?丨302.AI 基准实验室
GLM-4.6V 实测:当视觉模型学会“动手”,它离“顶尖”还差什么?丨302.AI 基准实验室

提示词:请将图中打乱顺序的漫画按照逻辑排列出正确顺序 正确答案:E→F→A→C→B→D

GLM-4.6V 实测:当视觉模型学会“动手”,它离“顶尖”还差什么?丨302.AI 基准实验室

GLM-4.6V 误读了图F所示的鸟持枪的意图,偏离漫画原本逻辑导致排序答案错误。

GLM-4.6V 实测:当视觉模型学会“动手”,它离“顶尖”还差什么?丨302.AI 基准实验室

GPT-5.1 的回答,仅有B和C这两个容易混淆的图顺序错误,其他顺序排列正确,漫画内涵解读上已经非常接近原意了。

GLM-4.6V 实测:当视觉模型学会“动手”,它离“顶尖”还差什么?丨302.AI 基准实验室

案例2:认知与文化理解

测试点:基础感知,逻辑关联,世界知识,文化理解

提示词

图中作品属于以下哪一种风格?

A:印象派,B:后印象派,C:现代主义,D:达达主义

GLM-4.6V 实测:当视觉模型学会“动手”,它离“顶尖”还差什么?丨302.AI 基准实验室

GLM-4.6V 判断正确

GLM-4.6V 实测:当视觉模型学会“动手”,它离“顶尖”还差什么?丨302.AI 基准实验室

提示词:请判断图上表情包想表达什么?

GLM-4.6V 实测:当视觉模型学会“动手”,它离“顶尖”还差什么?丨302.AI 基准实验室

GLM-4.6V 似乎并未能理解这个梗图的背后含义,只输出了一些表层理解。

GLM-4.6V 实测:当视觉模型学会“动手”,它离“顶尖”还差什么?丨302.AI 基准实验室

Gemini 3 Pro 的满分回答:

GLM-4.6V 实测:当视觉模型学会“动手”,它离“顶尖”还差什么?丨302.AI 基准实验室

提示词:这则漫画想表达什么?

GLM-4.6V 实测:当视觉模型学会“动手”,它离“顶尖”还差什么?丨302.AI 基准实验室

GLM-4.6V 判断基本正确,推断合理

GLM-4.6V 实测:当视觉模型学会“动手”,它离“顶尖”还差什么?丨302.AI 基准实验室

再来看看依然稳定发挥的 Gemini 3 Pro 的回答,从幽默感和“个性”来讲,与 Gemini 3 Pro 的对比显得 GLM-4.6V 的输出较为理性务实

GLM-4.6V 实测:当视觉模型学会“动手”,它离“顶尖”还差什么?丨302.AI 基准实验室

案例3:OCR识别

测试点:模糊信息识别、数据提取、图表分析

给出一张模糊且有字迹遮盖的信息图片

提示词:将图中表格识别为可直接复制的Markdown内容

GLM-4.6V 实测:当视觉模型学会“动手”,它离“顶尖”还差什么?丨302.AI 基准实验室

GLM-4.6V 返回的内容如下,清晰直观,基本无误,信息缺失部分也标注了“未填写”

GLM-4.6V 实测:当视觉模型学会“动手”,它离“顶尖”还差什么?丨302.AI 基准实验室

进阶一下,尝试让模型将这个图表信息处理为可视化数据图:

GLM-4.6V 实测:当视觉模型学会“动手”,它离“顶尖”还差什么?丨302.AI 基准实验室

GLM-4.6V 准确提取信息后生成了对应的基础数据表格、票房占比饼状图、周度票房柱状图以及数据卡片,但是生成的饼状图存在明显数据错误。

GLM-4.6V 实测:当视觉模型学会“动手”,它离“顶尖”还差什么?丨302.AI 基准实验室

案例4:前端复刻

测试点:视觉理解加+工具调用

提示词:复刻图中网页

对于这个 Suno 网页的复刻案例,GLM-4.6V 的完成度算中规中矩,抛开复杂的交互逻辑,单从布局和基本内容的视觉还原来讲,并未实现所谓“像素级前端复刻”(例如第二页作者名“Mojano”写错为“Mojava”),样式细节也存在偏差(第二页歌曲卡片的播放量位置变为了右下角)等问题

GLM-4.6V 实测:当视觉模型学会“动手”,它离“顶尖”还差什么?丨302.AI 基准实验室

案例5:视频理解

测试点:视频理解,细粒度推理

给出一段 AI 生成存在明显bug的视频,让模型分析这段视频所出现的不合理之处

GLM-4.6V 的回答并未抓住重点,看似言之有理,但视频所描述画面并非发生在罚球情况下,故推理有误。

GLM-4.6V 实测:当视觉模型学会“动手”,它离“顶尖”还差什么?丨302.AI 基准实验室

Gemini 3 Pro 的回答,起码明确指出了穿模漏洞和人物运动轨迹违反物理常识的问题。

GLM-4.6V 实测:当视觉模型学会“动手”,它离“顶尖”还差什么?丨302.AI 基准实验室

IV. GLM-4.6V 模型实测结论

GLM-4.6V 实测:当视觉模型学会“动手”,它离“顶尖”还差什么?丨302.AI 基准实验室

基于本次实测,我们对 GLM-4.6V 可以得出以下几个核心结论:

首先,必须承认,GLM-4.6V 类似于一位特点鲜明的“偏科生”,从其在不同维度的测评表现来看,模型发挥存在显著的场景分化,工程实用性强,而认知灵活性稍显不足,这表明模型的核心能力聚焦于执行而非感知。换句话说,其突破点在于架构设计所指向的工具调用与任务闭环能力而非泛化的多模态理解精度

其次,这种“偏科”体现在具体表现上:在OCR表格识别、艺术风格判断等结构化、有明确规则的任务中,它输出稳定、理性规范,展现出扎实的工程化潜力。然而,一旦面临需要强推理(如三维空间想象、漫画逻辑排序)或深层次文化理解(如解读网络梗图)的场景时,它便容易显得照本宣科,缺乏一丝灵性和精准度。

这一分化恰恰揭示了它的适用场景——即在处理定义清晰的任务时更具优势。也就是说,对于那些需要从复杂文档中提取信息、将图表转化为数据、或进行标准化识别的实际任务,GLM-4.6V 会是一个高效、可信的工具。结合 API 价格的大幅下调与轻量版的免费开源策略,也算是为开发者提供了一个高性价比的视觉任务自动化入口。

综合而言,GLM-4.6V 代表了一条务实的技术路径: 它不执着于在所有感知赛道上争冠,而是聚焦于将视觉信号切实转化为可执行的动作。但同时,其在真实任务中与顶尖闭源模型的对比表现也清晰地提醒我们: 在奋力奔向执行高地时,作为基石的感知与认知基本功,仍需持续锤炼,那段可提升空间依然是其迈向顶尖过程中不可忽视的追索之路。


V. 如何在 302.AI 上使用

1. 聊天机器人中使用

步骤指引 :应用超市→机器人→聊天机器人→立即体验

GLM-4.6V 实测:当视觉模型学会“动手”,它离“顶尖”还差什么?丨302.AI 基准实验室

选择模型:国产模型→glm-4.6v/glm-4.6v-flash→确认→创建

GLM-4.6V 实测:当视觉模型学会“动手”,它离“顶尖”还差什么?丨302.AI 基准实验室

2. 使用模型 API

步骤指引:API超市→语言大模型→智谱→glm-4.6v/glm-4.6v-flash

GLM-4.6V 实测:当视觉模型学会“动手”,它离“顶尖”还差什么?丨302.AI 基准实验室
GLM-4.6V 实测:当视觉模型学会“动手”,它离“顶尖”还差什么?丨302.AI 基准实验室

点击【立即体验】在线调用 API

GLM-4.6V 实测:当视觉模型学会“动手”,它离“顶尖”还差什么?丨302.AI 基准实验室

想即刻体验 GLM-4.6V 系列模型?

👉立即注册免费试用302.AI,开启你的AI之旅!👈

为什么选择302.AI?

● 灵活付费:无需月费,按需付费,成本可控

● 丰富功能:从文字、图片到视频,应有尽有,满足多种场景需求

● 开源生态:支持开发者深度定制,打造专属AI应用

● 易用性:界面友好,操作简单,快速上手

GLM-4.6V 实测:当视觉模型学会“动手”,它离“顶尖”还差什么?丨302.AI 基准实验室
All Rights Reserved by 302.AI
喜欢 (0)
302.AI302.AI
上一页 2天前
下一页 2025 年 8 月 20 日 下午7:16

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注