302.AI 基准实验室 | 智谱发布推理模型GLM-Zero-Preview，数学、推理、编程三方面实测对比结果如何？

302.AI • 2025 年 1 月 2 日下午6:58 • 基准实验室 • 1244 意见

在2024年的最后一天，智谱发布了推理模型GLM-Zero 的初代版本 GLM-Zero-Preview，这是智谱首个基于扩展强化学习技术训练的推理模型。

据了解，GLM-Zero-Preview 擅长处理数理逻辑、代码和需要深度推理的复杂问题。同基座模型相比，GLM-Zero-Preview 既没有显著降低通用任务能力，又大幅提升了专家任务能力。

GLM-Zero-Preview在 AIME 2024、MATH500 和 LiveCodeBench 等评测中，效果与 OpenAI o1-preview 相当。而与现有模型不同的是，GLM-Zero-Preview能够初步实现推理过程中自主决策、问题拆解和尝试多种方式解决问题。

> 在302.AI上使用

目前，302.AI的聊天机器人和API超市均上线了GLM-Zero-Preview模型，并提供按需付费的服务方式，无论是企业还是个人用户，都能够依据实际需求灵活选择使用模型。

【聊天机器人】

用户可以通过聊天机器人快速体验最新模型。302.AI的聊天机器人提供市场上多种先进模型，并持续进行实时更新，保持与市场的发展同步。以下是具体的获取步骤：

1、进入302.AI——点击左侧菜单栏使用机器人——选择聊天机器人——点击模型——选择GLM-Zero-Preview模型并确定，最后点击创建聊天机器人按钮；

【API超市】

企业用户可以通过302.AI的API超市快速、便捷地调用模型，还能够根据特定项目需求进行定制化开发，加快AI应用的研发与部署流程。以下是在API超市中获取GLM-Zero-Preview的详细步骤：

1、进入302.AI后——点击使用API——选择API超市——分类中点击语言大模型——然后选择国产模型。

2、点击【查看文档】进入后，修改参数模型名称即可获得GLM-Zero-Preview的API。

> 实测对比

接下来实测将围绕GLM-Zero-Preview模型进行，主要实测对比模型数学、推理、编程方面。

实测1-2使用的工具为：302.AI的模型竞技场

对比模型：o1-preview、GLM-Zero-Preview、QwQ-32B-Preview

实测3使用的工具为：302.AI聊天机器人的Artifacts功能

对比模型：GLM-Zero-Preview、Claude-3.5-sonnet

参与对比的模型价格（由高至低排序）：

其中，可以看到o1-preview和Claude-3.5-sonnet的输入输出价格均高于GLM-Zero-Preview模型。

实测1：数学测试

提示词：设A，B为两个不同随机事件，且相互独立，已知P(A)=2P(B)，P(AUB)=5/8，则A，B中至少有一个发生的条件下，A，B中恰好有一个发生的概率为多少？

分析：来自2025年考研数学一卷的题目，正确答案是4/5。

o1-preview：最新考研题目也难不倒o1，回答正确。

GLM-Zero-Preview：GLM也没问题，在输出的回答中可以看到模型一次次思考，最后答案正确。

QwQ-32B-Preview：QwQ给出的答案也是正确的。

实测2：逻辑推理测试

提示词：

分析：这是一道比较复杂的逻辑推理题，难点在于模型要了解题目中的条件“如果有人说的话是与数学老师有关的话，那么就是假话”，先给大家看下正确答案：甲：物理老师；乙：化学老师；丙：数学老师；丁：生物老师。

o1-preview：o1居然答出来了，回答正确！

GLM-Zero-Preview：分析的过程很长，可以看到GLM一直在假设可能的情况，但很可惜最后给出的答案，只有丙的身份是正确的。

QwQ-32B-Preview：QwQ给出的分析篇幅非常长，但可惜最后给出的两个答案都是错误。

实测3：编程测试

提示词：请用前端代码生成一个连连看游戏，所有代码放在一个文件输出，需要包含游戏说明

GLM-Zero-Preview：尽管整个游戏界面相对简单，但首先游戏是可实现的。从游戏说明中可以看出，生成的游戏逻辑非常严谨，消除相同方块时不得经过其他方块。这更符合我们日常生活中玩连连看游戏的逻辑。

Claude-3.5-sonnet：Claude生成的效果界面美观度明显更胜一筹，且用户在每一步操作后，都能实时看到剩余配对数变化。然而，在游戏逻辑设计上，Claude的规则相对简单，只要是相同的图案，均能够被消除，并没有设置任何限制。相比之下，这一点不如GLM-Zero-Preview。

> 总结

通过以上实测，可以初步得出以下结论：

数学测试：在面对考研数学题目时，GLM-Zero-Preview输出的答案展现了详细的思考过程，并给出了正确答案，表现出色。

逻辑推理测试：在处理复杂问题时的推理能力时，尽管没有完全回答正确，但展示了详细的思考推理过程，这表明模型具备一定深度的分析能力。

编程测试：虽然界面设计略显简单，但能够生成可运行的代码，且游戏逻辑对比Claude更加严谨和有深度。

总体来看，GLM-Zero-Preview展现了不错的数学和编程能力，尽管在某些复杂的逻辑推理问题上未能给出完全正确的答案，但其详尽的推理过程确实反映了模型在分析能力。此外，我们也可以看出，国产模型与国外模型的差距正在一步步缩小。未来，随着技术的不断迭代和模型的进一步优化，希望GLM-Zero-Preview正式版能在更多复杂任务中展现出更强的能力。

免费试用302.AI，开启你的AI之旅！👈

为什么选择302.AI？

● 灵活付费：无需月费，按需付费，成本可控
● 丰富功能：从文字、图片到视频，应有尽有，满足多种场景需求
● 开源生态：支持开发者深度定制，打造专属AI应用
● 易用性：界面友好，操作简单，快速上手

302.AI 新品发布 | 图像创意站：GPT-Image-1玩法全解析，轻松生成惊艳作品

GLM-Zero LLM302.AI 基准实验室 | 模型测评

喜欢 (0)

302.AI

302.AI 基准实验室 | 实测Doubao文生图模型v2.1版本，中英文内容生成轻松拿捏！

上一页 2024 年 12 月 31 日上午10:35

302.AI 新品发布 | 无需再死记硬背Excel公式和函数，AI Excel工具帮你解放大脑！

下一页 2025 年 1 月 3 日下午7:57

懂交付，更懂质感：MiniMax M2.1 Vs. GLM 4.7 国产开源顶流对决丨302.AI 基准实验室

12 月 23 日，MiniMax 正式对外发布其新一代旗舰级 Coding & Agent 模型 MiniMax M2.1。与许多大模型发布会执着于罗列通用知识得分不同，M2.1 这次把所有的聚光灯都打在了“编程”与“智能体”这两个关键词上，官方定位直言不讳：为真实世界的复杂任务而生。显然，这不仅仅是一次常规的版本迭代，更像是 MiniMax 在…
2025 年 12 月 31 日 • 基准实验室
1.6K01
302.AI客户端：零配置，支持任意模型，最适合新手的Vibe Coding工具 | 新品发布

在AI行业飞速发展的2025 年，最炙手可热的关键词之一绝对少不了 “Vibe Coding” 。所谓 Vibe Coding，即“氛围感编程”——你只需使用自然语言描述需求，AI 便会为你生成代码。这一变革彻底粉碎了编程的技术高墙，让每一位普通人都能跳过晦涩的编程语言，亲手打造专属应用。为Vibe Coding打造的工具也层出不穷，在 Cursor、L…
2025 年 12 月 26 日 • 新品发布
1.1K00
智谱压轴力作 GLM-4.7 实测：从基准刷榜到任务交付，稳坐开源第一丨302.AI 基准实验室

随着2025年接近尾声，大模型领域的竞争未见放缓，反而迎来了一波重磅更新。今日凌晨，智谱突袭发布了其新一代旗舰模型——GLM-4.7，以一系列 SOTA 表现，为今年的开源战场献上了堪称“压轴”的力作。此次更新将核心焦点投向了编码能力、长程任务规划与智能体协作，不仅在多项国际主流基准测试中横扫开源榜单，更以任务交付为核心，致力于成为开发者手中真正高效、可靠…
2025 年 12 月 23 日 • 基准实验室
3.4K00
谷歌的“普惠核弹”：Gemini 3 Flash 实测——更快、更强、更省可以兼得丨302.AI 基准实验室

12 月 18 日深夜，谷歌闪击式抛出一枚“重磅炸弹”——Gemini 3 Flash 发布。这次发布没有过多的预热，但其展现出的性能与成本组合，足以让整个 AI 领域重新审视现有的竞争格局。简而言之，Gemini 3 Flash 做了一件看似矛盾的事：它以一个“轻量版”模型的定位和极低的成本，提供了接近甚至部分超越旗舰模型的顶尖性能。性能：打破“轻量即…
2025 年 12 月 19 日 • 基准实验室
1.6K00

发表回复

droversointeru 2025 年 6 月 9 日上午1:29
I believe that is among the most significant info for me. And i’m happy studying your article. But should remark on few basic issues, The website style is great, the articles is in point of fact excellent : D. Just right activity, cheers
回复
Virgilio Fremon 2025 年 6 月 16 日下午5:35
A lot of thanks for every one of your hard work on this site. Gloria loves working on investigations and it is simple to grasp why. Almost all know all regarding the lively form you present great tactics through your website and boost participation from other people on that article and my girl is without question discovering so much. Enjoy the rest of the new year. You’re performing a brilliant job.
回复
Kurtis Elfering 2025 年 7 月 1 日上午12:29
The very root of your writing while sounding agreeable in the beginning, did not really sit perfectly with me after some time. Somewhere throughout the sentences you managed to make me a believer unfortunately only for a while. I nevertheless have got a problem with your leaps in assumptions and one would do nicely to fill in those breaks. If you can accomplish that, I would definitely be amazed.
回复
Wendi Limon 2025 年 7 月 1 日上午10:22
Great – I should definitely pronounce, impressed with your website. I had no trouble navigating through all the tabs and related info ended up being truly easy to do to access. I recently found what I hoped for before you know it in the least. Quite unusual. Is likely to appreciate it for those who add forums or something, site theme . a tones way for your customer to communicate. Excellent task..
回复
Missy Thone 2025 年 7 月 28 日下午8:04
excellent post.Never knew this, thanks for letting me know.
回复
bandar toto macau 2025 年 8 月 16 日下午1:01
It’s really a nice and useful piece of info. I’m glad that you shared this helpful info with us. Please keep us informed like this. Thanks for sharing.
回复
olxtoto 2025 年 8 月 17 日上午8:12
I like this web site so much, saved to bookmarks.
回复
toto togel 2025 年 8 月 21 日下午12:24
I’ve recently started a site, the info you offer on this web site has helped me tremendously. Thanks for all of your time & work.
回复
situs toto 2025 年 8 月 21 日下午3:05
I am glad to be one of several visitants on this outstanding website (:, thankyou for putting up.
回复
toto slot login alternatif 2025 年 8 月 21 日下午11:20
Thank you for another fantastic article. Where else could anybody get that type of information in such an ideal way of writing? I have a presentation next week, and I’m on the look for such information.
回复
idn poker 2025 年 8 月 22 日上午7:54
There is evidently a lot to realize about this. I believe you made certain good points in features also.
回复
outdoor audio systems austin 2025 年 8 月 25 日上午10:01
Pretty! This was a really wonderful post. Thank you for your provided information.
回复
Frosted brand 2025 年 8 月 25 日下午3:21
Wow! Thank you! I constantly needed to write on my blog something like that. Can I include a portion of your post to my blog?
回复