I. 实测模型基础信息
II. 测试结果总览
- 302.AI 题库测试结果：
- 302.AI 多模态模型测评分数总榜单：
III. 案例展示
IV. GLM-4.7 模型实测结论
- V. 如何在 302.AI 上使用
  - 1. 聊天机器人中使用
  - 2. 使用模型 API

随着2025年接近尾声，大模型领域的竞争未见放缓，反而迎来了一波重磅更新。今日凌晨，智谱突袭发布了其新一代旗舰模型——GLM-4.7，以一系列 SOTA 表现，为今年的开源战场献上了堪称“压轴”的力作。

此次更新将核心焦点投向了编码能力、长程任务规划与智能体协作，不仅在多项国际主流基准测试中横扫开源榜单，更以任务交付为核心，致力于成为开发者手中真正高效、可靠的全栈编程工具，全力冲刺“全球大模型第一股”。

智谱压轴力作 GLM-4.7 实测：从基准刷榜到任务交付，稳坐开源第一丨302.AI 基准实验室

从功能亮点来看，GLM-4.7 在三个维度实现显著提升：

编程与智能体能力全面增强：模型在多语言编码、终端任务执行中表现突出，在 LiveCodeBench V6 达到 84.9% 的开源 SOTA 分数，超过 Claude Sonnet 4.5。模型支持在 Claude Code、Kilo Code 等主流框架中实现“先思考、再行动”的机制，显著提升复杂任务的稳定性和完成度。
前端审美与内容生成质量跃升：无论是网页、PPT 还是海报设计，GLM-4.7 在视觉一致性、版式布局与配色方案上均体现出接近专业水准的生成效果，基本实现即开即用。
推理与工具调用能力突破：在需要复杂逻辑的数学推理与多步骤工具调用场景中，模型表现尤为出色——在包含工具使用的 HLE（人类最后考试）测试中获得 42.8% 的成绩，超过 GPT-5.1；在 τ²-Bench 交互式工具调用评测中以 87.4 分创开源 SOTA。

GLM-4.7 可谓“开源即巅峰”：在全球百万用户盲测的 Code Arena 专业编码评估中，它位列开源第一、国产第一，超过 GPT-5.2。此外，模型进一步优化了“交错式思考”机制，并创新引入保留式思考与轮级思考，支持在同一会话内动态控制推理开销，在长程、复杂任务中兼顾效率与稳定性，真正向“以任务完成为核心的智能协作系统”迈进。

302.AI 已第一时间接入 GLM-4.7 系列模型 API，本期实测将针对模型特性展开实测，重点对比 4.7 版本相较于 4.6 版本的改进与性能提升。

I. 实测模型基础信息

(1) The price of each real model at 302.AI:

模型名称	上下文	clarification	302.AI内的价格
GLM-4.7	200000	输入[0, 32k]，输出[0, 0.2k]	输入：$0.286/ 1M tokens输出：$1.142/ 1M tokens
		输入[0, 32k],输出[0.2k+]	输入：$0.43/ 1M tokens输出：$2/ 1M tokens
		输入[32k, 200k]	输入：$0.572/ 1M tokens输出：$2.29/ 1M tokens
GLM-4.6	200000	输入[0, 32k]，输出[0, 0.2k]	输入：$0.286/ 1M tokens输出：$1.142/ 1M tokens
		输入[0, 32k],输出[0.2k+]	输入：$0.43/ 1M tokens输出：$2/ 1M tokens
		输入[32k, 200k]	输入：$0.572/ 1M tokens输出：$2.29/ 1M tokens

(2) Purpose of the assessment:

本评测侧重模型对逻辑，数学，编程，人类直觉等问题的测试，非专业前沿领域的权威测试。旨在观察对比模型的进化趋势，提供选型参考。

(3) Measurement methods:

本次测评使用302.AI收录的题库进行独立测试。3款模型分别就逻辑与数学（共10题），人类直觉（共7题）以及编程模拟（共12题）进行案例测试，对应记分规则取最终结果，下文选取代表性案例进行展示。

题库地址：https://docs.google.com/spreadsheets/d/1sBxs60yWsxc9I5Va8Rjc1_le1Omg2hOXbwqOzpImZio/edit?gid=0#gid=0

💡Scoring Rules:

Points are scored out of 10, with corresponding deductions set, and the final average of each round's score is taken.

(4) Assessment tools:

302.AI 的API超市→在线使用
302.AI 的应用超市→聊天机器人应用

II. 测试结果总览

302.AI 题库测试结果：

302.AI 多模态模型测评分数总榜单：

III. 案例展示

案例 1：PPT生成

GLM-4.7 将代码层面的结构化思维和审美能力成功迁移到了视觉创作领域，生成的 PPT 在标题层级、元素尺寸和留白上更加合理、明确，结构更清晰。且几乎无需调整版式，即开即用。

clue：采用圣诞风格配色为星巴克咖啡生成一份6页的圣诞饮咖活动企划PPT

案例 2：前端编程-Mac模拟

GLM-4.7 的编程能力较 GLM-4.6 实现了显著提升，其增强的审美与交付质量在前端编程中尤为突出，能够生成具有更优质代码结构、更富现代设计感的 UI/UX 界面。

clue：用HTML创建一个模拟Mac操作系统界面的页面，包含桌面、菜单栏、Dock和应用窗口等功能。

对比 GLM-4.6 的效果，GLM-4.7 生成的 Mac 系统模拟界面完全实现了核心功能且超出预期：

经典 Mac 布局（部菜单栏+底部 Dock+桌面图标）
完整的窗口管理（完整实现拖拽移动/最大化/最小化/多窗口并存）
Mac 视觉风格还原（毛玻璃效果、圆角、阴影等）
启动动画（经典的 logo 渐显效果）

附 GLM-4.6 生成效果：

附 Claude Opus 4.5 的生成效果，同样是不是水准的发挥，但在 GLM-4.7 这一版效果面前难得略逊一筹。

案例 3：前端编程-小游戏

clue：
使用Canvas和JavaScript，生成一个完整的HTML5游戏文件，实现一个平台跳跃小游戏：
要求包含简单的跳跃特效
确保所有游戏逻辑和渲染代码都在同一个HTML文件中。

GLM-4.7在完整实现了核心功能的同时，在 UI 和交互上也更加精良：

Canvas 渲染质量更高：程序化生成角色、平台、粒子等所有美术资源
良好的物理系统实现：包括重力加速度、摩擦模拟、碰撞特效触发等

附 GLM-4.6 生成效果：

对比此前 GPT-5.2 的案例，在物理逻辑和视觉设计上都是 GLM-4.7 效果更好。

案例 4：前端编程-3D场景原型

GLM-4.7 在技术栈整合和复杂任务规划上的能力整体有所提升，能够更可靠地理解和完成包含 3D 渲染模块的综合性前端或游戏开发任务。

clue：
核心需求：用Three.js制作一个日式禅意庭院3D场景，包含所有代码的一个HTML文件。
场景包含：
建筑：木亭（方柱+圆柱组合）、沙地（带细微纹路）、石水钵、鹅卵石小径
植物：2-3棵简化樱花树（锥体+球体组合），有飘落花瓣
氛围：月光方向光、灯笼点光源、淡雾、可调日夜循环
动画：水面波动、花瓣飘落
交互：鼠标旋转缩放视角，dat.GUI调整参数
要求：用内置几何体，代码简洁直接运行。

clue：
请使用 Three.js 库创建一个 3D 场景。
核心要求：
主体：用数万个粒子（Points）构建一个螺旋状的星系。
动画：让整个星系围绕其垂直中心轴缓慢、持续地旋转。
光照：在星系中心放置一个点光源（PointLight），使其能够照亮粒子。
请将所有代码（HTML, CSS, JS）整合到一个可以直接在浏览器中运行的 HTML 文件里。

Vibe Coding？对于 GLM-4.7 来说也不在话下，只需给到简单的提示词，它甚至能为你创建一个自带主题的 Markdown 编辑器：

clue：创建一个功能性的、双栏实时预览的Markdown笔记应用。

IV. GLM-4.7 模型实测结论

经过本次实测，GLM-4.7 展现出的综合能力，特别是其在任务完成度上的飞跃，已不言自明。相较于前代 GLM-4.6，其实力提升可概括为一次“扎实的进步”。

从多项测试案例来看，GLM-4.7 在以下两方面表现尤为突出：

智能体编程：从“写代码”到“交项目”

GLM-4.7 的智能体特质更加成熟可靠。无论是实现功能完整的 Mac 桌面模拟器，还是开发带物理引擎的平台跳跃游戏，它都能输出结构清晰、可直接运行、且具备现代 UI/UX 观感的代码。更重要的是，在面对如“禅意庭院”“旋转星系”这类融合 3D 渲染、动画与交互的复合型任务时，GLM-4.7 能够有效整合技术栈、规划实现路径，证明了其处理复杂、长周期开发任务的能力已进入实用阶段。

审美与内容生成：从“能用”到“能用且美观”

GLM-4.7 在视觉输出质量上进步显著。生成的 PPT 版式专业、配色协调，基本实现“即开即用”；前端代码呈现的界面也具有更强的设计整体性与现代感。这说明其美学能力已从基础的功能实现，延伸至用户体验的优化层面。

这种从“生成片段”到“交付成品”的跨越，源于其底层思考机制的创新：“交错式思考”确保单步逻辑严谨，“保留式思考”维持长程对话连贯，“轮级思考”则支持根据任务复杂度动态调配推理资源。三者协同，显著提升了模型在真实场景中的理解力与执行稳定性，有效减少了无效输出与反复调试。

综合来看，凭借本次迭代，智谱 GLM-4.7 已坐稳“2025 年开源模型第一梯队”。它在多项硬核基准测试中取得的 SOTA 成绩，在我们的实测中得到了体现——更强的工程实用性和更优的交付质量。这也进一步揭示：谁更能稳定理解需求、流畅协同工具、并输出可直接使用的成果，谁就能在下一阶段的实用化竞争中占据先机。

V. 如何在 302.AI 上使用

1. Use in chatbots

步骤指引：应用超市→机器人→聊天机器人→立即体验

选择模型：国产模型→glm-4.7系列模型→确认→创建

2. Using the Model API

步骤指引：API超市→语言大模型→智谱→glm-4.7系列模型

点击【立即体验】在线调用 API

想即刻体验 GLM-4.7 系列模型？

👉立即注册免费试用302.AI，开启你的AI之旅！👈

为什么选择302.AI？

● 灵活付费：无需月费，按需付费，成本可控

● 丰富功能：从文字、图片到视频，应有尽有，满足多种场景需求

● 开源生态：支持开发者深度定制，打造专属AI应用

● 易用性：界面友好，操作简单，快速上手

智谱压轴力作 GLM-4.7 实测：从基准刷榜到任务交付，稳坐开源第一 丨302.AI 基准实验室

I. 实测模型基础信息

(2) Purpose of the assessment:

(3) Measurement methods:

(4) Assessment tools:

II. 测试结果总览

302.AI 题库测试结果：

302.AI 多模态模型测评分数总榜单：

III. 案例展示

案例 1：PPT生成

案例 2：前端编程-Mac模拟

案例 3：前端编程-小游戏

案例 4：前端编程-3D场景原型

IV. GLM-4.7 模型实测结论

V. 如何在 302.AI 上使用

1. Use in chatbots

2. Using the Model API

相关推荐

从文本助手到生产力智能体——2025大模型年度测评：多模态、强推理与真交付 | 302.AI 基准实验室

懂交付，更懂质感：MiniMax M2.1 Vs. GLM 4.7 国产开源顶流对决丨302.AI 基准实验室

302.AI客户端：零配置，支持任意模型，最适合新手的Vibe Coding工具 | 新品发布

谷歌的“普惠核弹”：Gemini 3 Flash 实测——更快、更强、更省可以兼得丨302.AI 基准实验室

Leave a Reply

智谱压轴力作 GLM-4.7 实测：从基准刷榜到任务交付，稳坐开源第一丨302.AI 基准实验室