智谱压轴力作 GLM-4.7 实测:从基准刷榜到任务交付,稳坐开源第一 丨302.AI 基准实验室

随着2025年接近尾声,大模型领域的竞争未见放缓,反而迎来了一波重磅更新。今日凌晨,智谱突袭发布了其新一代旗舰模型——GLM-4.7,以一系列 SOTA 表现,为今年的开源战场献上了堪称“压轴”的力作。

此次更新将核心焦点投向了编码能力、长程任务规划与智能体协作,不仅在多项国际主流基准测试中横扫开源榜单,更以任务交付为核心,致力于成为开发者手中真正高效、可靠的全栈编程工具,全力冲刺“全球大模型第一股”。

智谱压轴力作 GLM-4.7 实测:从基准刷榜到任务交付,稳坐开源第一 丨302.AI 基准实验室

从功能亮点来看,GLM-4.7 在三个维度实现显著提升:

  1. 编程与智能体能力全面增强:模型在多语言编码、终端任务执行中表现突出,在 LiveCodeBench V6 达到 84.9% 的开源 SOTA 分数,超过 Claude Sonnet 4.5。模型支持在 Claude Code、Kilo Code 等主流框架中实现“先思考、再行动”的机制,显著提升复杂任务的稳定性和完成度。
  2. 前端审美与内容生成质量跃升:无论是网页、PPT 还是海报设计,GLM-4.7 在视觉一致性、版式布局与配色方案上均体现出接近专业水准的生成效果,基本实现即开即用。
  3. 推理与工具调用能力突破:在需要复杂逻辑的数学推理与多步骤工具调用场景中,模型表现尤为出色——在包含工具使用的 HLE(人类最后考试)测试中获得 42.8% 的成绩,超过 GPT-5.1;在 τ²-Bench 交互式工具调用评测中以 87.4 分创开源 SOTA。
智谱压轴力作 GLM-4.7 实测:从基准刷榜到任务交付,稳坐开源第一 丨302.AI 基准实验室

GLM-4.7 可谓“开源即巅峰”:在全球百万用户盲测的 Code Arena 专业编码评估中,它位列开源第一、国产第一,超过 GPT-5.2此外,模型进一步优化了“交错式思考”机制,并创新引入保留式思考与轮级思考,支持在同一会话内动态控制推理开销,在长程、复杂任务中兼顾效率与稳定性,真正向“以任务完成为核心的智能协作系统”迈进。

智谱压轴力作 GLM-4.7 实测:从基准刷榜到任务交付,稳坐开源第一 丨302.AI 基准实验室

302.AI 已第一时间接入 GLM-4.7 系列模型 API,本期实测将针对模型特性展开实测,重点对比 4.7 版本相较于 4.6 版本的改进与性能提升。


I. 实测模型基础信息

(1) The price of each real model at 302.AI:

模型名称上下文clarification302.AI内的价格
GLM-4.7200000输入[0, 32k],输出[0, 0.2k]输入:$0.286/ 1M tokens输出:$1.142/ 1M tokens
输入[0, 32k],输出[0.2k+]输入:$0.43/ 1M tokens输出:$2/ 1M tokens
输入[32k, 200k]输入:$0.572/ 1M tokens输出:$2.29/ 1M tokens
GLM-4.6200000输入[0, 32k],输出[0, 0.2k]输入:$0.286/ 1M tokens输出:$1.142/ 1M tokens
输入[0, 32k],输出[0.2k+]输入:$0.43/ 1M tokens输出:$2/ 1M tokens
输入[32k, 200k]输入:$0.572/ 1M tokens输出:$2.29/ 1M tokens

(2) Purpose of the assessment:

本评测侧重模型对逻辑,数学,编程,人类直觉等问题的测试,非专业前沿领域的权威测试。旨在观察对比模型的进化趋势,提供选型参考。

(3) Measurement methods:

本次测评使用302.AI收录的题库进行独立测试。3款模型分别就逻辑与数学(共10题),人类直觉(共7题)以及编程模拟(共12题)进行案例测试,对应记分规则取最终结果,下文选取代表性案例进行展示。

题库地址:https://docs.google.com/spreadsheets/d/1sBxs60yWsxc9I5Va8Rjc1_le1Omg2hOXbwqOzpImZio/edit?gid=0#gid=0

💡Scoring Rules:

Points are scored out of 10, with corresponding deductions set, and the final average of each round's score is taken.

(4) Assessment tools:


II. 测试结果总览

302.AI 题库测试结果:

智谱压轴力作 GLM-4.7 实测:从基准刷榜到任务交付,稳坐开源第一 丨302.AI 基准实验室
智谱压轴力作 GLM-4.7 实测:从基准刷榜到任务交付,稳坐开源第一 丨302.AI 基准实验室

302.AI 多模态模型测评分数总榜单:

智谱压轴力作 GLM-4.7 实测:从基准刷榜到任务交付,稳坐开源第一 丨302.AI 基准实验室

III. 案例展示

案例 1:PPT生成

GLM-4.7 将代码层面的结构化思维和审美能力成功迁移到了视觉创作领域,生成的 PPT 在标题层级、元素尺寸和留白上更加合理、明确,结构更清晰。且几乎无需调整版式,即开即用。

clue:采用圣诞风格配色为星巴克咖啡生成一份6页的圣诞饮咖活动企划PPT

智谱压轴力作 GLM-4.7 实测:从基准刷榜到任务交付,稳坐开源第一 丨302.AI 基准实验室

案例 2:前端编程-Mac模拟

GLM-4.7 的编程能力较 GLM-4.6 实现了显著提升,其增强的审美与交付质量在前端编程中尤为突出,能够生成具有更优质代码结构、更富现代设计感的 UI/UX 界面。

clue:用HTML创建一个模拟Mac操作系统界面的页面,包含桌面、菜单栏、Dock和应用窗口等功能。

对比 GLM-4.6 的效果,GLM-4.7 生成的 Mac 系统模拟界面完全实现了核心功能且超出预期:

  • 经典 Mac 布局(部菜单栏+底部 Dock+桌面图标)
  • 完整的窗口管理(完整实现拖拽移动/最大化/最小化/多窗口并存)
  • Mac 视觉风格还原(毛玻璃效果、圆角、阴影等)
  • 启动动画(经典的 logo 渐显效果)
智谱压轴力作 GLM-4.7 实测:从基准刷榜到任务交付,稳坐开源第一 丨302.AI 基准实验室

GLM-4.6 生成效果:

智谱压轴力作 GLM-4.7 实测:从基准刷榜到任务交付,稳坐开源第一 丨302.AI 基准实验室

Claude Opus 4.5 的生成效果,同样是不是水准的发挥,但在 GLM-4.7 这一版效果面前难得略逊一筹。

智谱压轴力作 GLM-4.7 实测:从基准刷榜到任务交付,稳坐开源第一 丨302.AI 基准实验室

案例 3:前端编程-小游戏

clue

使用Canvas和JavaScript,生成一个完整的HTML5游戏文件,实现一个平台跳跃小游戏:

要求包含简单的跳跃特效

确保所有游戏逻辑和渲染代码都在同一个HTML文件中。

GLM-4.7在完整实现了核心功能的同时,在 UI 和交互上也更加精良

  • Canvas 渲染质量更高:程序化生成角色、平台、粒子等所有美术资源
  • 良好的物理系统实现:包括重力加速度、摩擦模拟、碰撞特效触发等
智谱压轴力作 GLM-4.7 实测:从基准刷榜到任务交付,稳坐开源第一 丨302.AI 基准实验室

GLM-4.6 生成效果:

智谱压轴力作 GLM-4.7 实测:从基准刷榜到任务交付,稳坐开源第一 丨302.AI 基准实验室

对比此前 GPT-5.2 的案例,在物理逻辑和视觉设计上都是 GLM-4.7 效果更好。

智谱压轴力作 GLM-4.7 实测:从基准刷榜到任务交付,稳坐开源第一 丨302.AI 基准实验室

案例 4:前端编程-3D场景原型

GLM-4.7 在技术栈整合和复杂任务规划上的能力整体有所提升,能够更可靠地理解和完成包含 3D 渲染模块的综合性前端或游戏开发任务。

clue

核心需求: 用Three.js制作一个日式禅意庭院3D场景,包含所有代码的一个HTML文件。

场景包含:

  1. 建筑:木亭(方柱+圆柱组合)、沙地(带细微纹路)、石水钵、鹅卵石小径
  2. 植物:2-3棵简化樱花树(锥体+球体组合),有飘落花瓣
  3. 氛围:月光方向光、灯笼点光源、淡雾、可调日夜循环
  4. 动画:水面波动、花瓣飘落
  5. 交互:鼠标旋转缩放视角,dat.GUI调整参数

要求: 用内置几何体,代码简洁直接运行。

智谱压轴力作 GLM-4.7 实测:从基准刷榜到任务交付,稳坐开源第一 丨302.AI 基准实验室

clue

请使用 Three.js 库创建一个 3D 场景。

核心要求:

主体:用数万个粒子(Points)构建一个螺旋状的星系。

动画:让整个星系围绕其垂直中心轴缓慢、持续地旋转。

光照:在星系中心放置一个点光源(PointLight),使其能够照亮粒子。

请将所有代码(HTML, CSS, JS)整合到一个可以直接在浏览器中运行的 HTML 文件里。

智谱压轴力作 GLM-4.7 实测:从基准刷榜到任务交付,稳坐开源第一 丨302.AI 基准实验室

Vibe Coding?对于 GLM-4.7 来说也不在话下,只需给到简单的提示词,它甚至能为你创建一个自带主题的 Markdown 编辑器:

clue:创建一个功能性的、双栏实时预览的Markdown笔记应用。

智谱压轴力作 GLM-4.7 实测:从基准刷榜到任务交付,稳坐开源第一 丨302.AI 基准实验室

IV. GLM-4.7 模型实测结论

智谱压轴力作 GLM-4.7 实测:从基准刷榜到任务交付,稳坐开源第一 丨302.AI 基准实验室

经过本次实测,GLM-4.7 展现出的综合能力,特别是其在任务完成度上的飞跃,已不言自明。相较于前代 GLM-4.6,其实力提升可概括为一次“扎实的进步”。

从多项测试案例来看,GLM-4.7 在以下两方面表现尤为突出:

  1. 智能体编程:从“写代码”到“交项目”

GLM-4.7 的智能体特质更加成熟可靠。无论是实现功能完整的 Mac 桌面模拟器,还是开发带物理引擎的平台跳跃游戏,它都能输出结构清晰、可直接运行、且具备现代 UI/UX 观感的代码。更重要的是,在面对如“禅意庭院”“旋转星系”这类融合 3D 渲染、动画与交互的复合型任务时,GLM-4.7 能够有效整合技术栈、规划实现路径,证明了其处理复杂、长周期开发任务的能力已进入实用阶段。

  1. 审美与内容生成:从“能用”到“能用且美观”

GLM-4.7 在视觉输出质量上进步显著。生成的 PPT 版式专业、配色协调,基本实现“即开即用”;前端代码呈现的界面也具有更强的设计整体性与现代感。这说明其美学能力已从基础的功能实现,延伸至用户体验的优化层面。

这种从“生成片段”到“交付成品”的跨越,源于其底层思考机制的创新:“交错式思考”确保单步逻辑严谨,“保留式思考”维持长程对话连贯,“轮级思考”则支持根据任务复杂度动态调配推理资源。三者协同,显著提升了模型在真实场景中的理解力与执行稳定性,有效减少了无效输出与反复调试。

综合来看,凭借本次迭代,智谱 GLM-4.7 已坐稳“2025 年开源模型第一梯队”。它在多项硬核基准测试中取得的 SOTA 成绩,在我们的实测中得到了体现——更强的工程实用性和更优的交付质量。这也进一步揭示:谁更能稳定理解需求、流畅协同工具、并输出可直接使用的成果,谁就能在下一阶段的实用化竞争中占据先机。


V. 如何在 302.AI 上使用

1. Use in chatbots

步骤指引 :应用超市→机器人→聊天机器人→立即体验

智谱压轴力作 GLM-4.7 实测:从基准刷榜到任务交付,稳坐开源第一 丨302.AI 基准实验室

选择模型:国产模型→glm-4.7系列模型→确认→创建

智谱压轴力作 GLM-4.7 实测:从基准刷榜到任务交付,稳坐开源第一 丨302.AI 基准实验室

2. Using the Model API

步骤指引:API超市→语言大模型→智谱→glm-4.7系列模型

智谱压轴力作 GLM-4.7 实测:从基准刷榜到任务交付,稳坐开源第一 丨302.AI 基准实验室
智谱压轴力作 GLM-4.7 实测:从基准刷榜到任务交付,稳坐开源第一 丨302.AI 基准实验室

点击【立即体验】在线调用 API

智谱压轴力作 GLM-4.7 实测:从基准刷榜到任务交付,稳坐开源第一 丨302.AI 基准实验室

想即刻体验 GLM-4.7 系列模型?

👉立即注册免费试用302.AI,开启你的AI之旅!👈

为什么选择302.AI?

● 灵活付费:无需月费,按需付费,成本可控

● 丰富功能:从文字、图片到视频,应有尽有,满足多种场景需求

● 开源生态:支持开发者深度定制,打造专属AI应用

● 易用性:界面友好,操作简单,快速上手

智谱压轴力作 GLM-4.7 实测:从基准刷榜到任务交付,稳坐开源第一 丨302.AI 基准实验室
All Rights Reserved by 302.AI
Like (0)
302.AI302.AI
Previous 1 day ago
Next 2025 年 1 月 15 日 pm6:16

相关推荐

Leave a Reply

Your email address will not be published. Required fields are marked *