资讯丨智谱发布推理模型GLM-Zero-Preview,数学、推理、编程三方面实测对比结果如何?

在2024年的最后一天,智谱发布了推理模型GLM-Zero 的初代版本 GLM-Zero-Preview,这是智谱首个基于扩展强化学习技术训练的推理模型。

据了解,GLM-Zero-Preview 擅长处理数理逻辑、代码和需要深度推理的复杂问题同基座模型相比,GLM-Zero-Preview 既没有显著降低通用任务能力,又大幅提升了专家任务能力。

GLM-Zero-Preview在 AIME 2024、MATH500 和 LiveCodeBench 等评测中,效果与 OpenAI o1-preview 相当。而与现有模型不同的是,GLM-Zero-Preview能够初步实现推理过程中自主决策、问题拆解和尝试多种方式解决问题。

资讯丨智谱发布推理模型GLM-Zero-Preview,数学、推理、编程三方面实测对比结果如何?

> 在302.AI上使用

目前,302.AI的聊天机器人和API超市均上线了GLM-Zero-Preview模型并提供按需付费的服务方式无论是企业还是个人用户,都能够依据实际需求灵活选择使用模型。

【聊天机器人】

用户可以通过聊天机器人快速体验最新模型。302.AI的聊天机器人提供市场上多种先进模型,并持续进行实时更新,保持与市场的发展同步。以下是具体的获取步骤:

1、进入302.AI——点击左侧菜单栏使用机器人——选择聊天机器人——点击模型——选择GLM-Zero-Preview模型并确定,最后点击创建聊天机器人按钮;

资讯丨智谱发布推理模型GLM-Zero-Preview,数学、推理、编程三方面实测对比结果如何?

API超市】

企业用户可以通过302.AIAPI超市快速、便捷地调用模型,还能够根据特定项目需求进行定制化开发,加快AI应用的研发与部署流程。以下是在API超市中获取GLM-Zero-Preview的详细步骤:

1、进入302.AI后——点击使用API——选择API超市——分类中点击语言大模型——然后选择国产模型。

资讯丨智谱发布推理模型GLM-Zero-Preview,数学、推理、编程三方面实测对比结果如何?

2、点击【查看文档】进入后,修改参数模型名称即可获得GLM-Zero-Preview的API。

资讯丨智谱发布推理模型GLM-Zero-Preview,数学、推理、编程三方面实测对比结果如何?

> 实测对比

接下来实测将围绕GLM-Zero-Preview模型进行,主要实测对比模型数学、推理、编程方面。

实测1-2使用的工具为:302.AI的模型竞技场

对比模型:o1-preview、GLM-Zero-Preview、QwQ-32B-Preview

实测3使用的工具为:302.AI聊天机器人的Artifacts功能

对比模型:GLM-Zero-Preview、Claude-3.5-sonnet

参与对比的模型价格(由高至低排序):

资讯丨智谱发布推理模型GLM-Zero-Preview,数学、推理、编程三方面实测对比结果如何?

其中,可以看到o1-preview和Claude-3.5-sonnet的输入输出价格均高于GLM-Zero-Preview模型。

实测1:数学测试

提示词:设A,B为两个不同随机事件,且相互独立,已知P(A)=2P(B),P(AUB)=5/8,则A,B中至少有一个发生的条件下,A,B中恰好有一个发生的概率为多少?

分析:来自2025年考研数学一卷的题目,正确答案是4/5。

o1-preview:最新考研题目也难不倒o1,回答正确。

资讯丨智谱发布推理模型GLM-Zero-Preview,数学、推理、编程三方面实测对比结果如何?

GLM-Zero-Preview:GLM也没问题,在输出的回答中可以看到模型一次次思考,最后答案正确

资讯丨智谱发布推理模型GLM-Zero-Preview,数学、推理、编程三方面实测对比结果如何?

QwQ-32B-Preview:QwQ给出的答案也是正确的。

资讯丨智谱发布推理模型GLM-Zero-Preview,数学、推理、编程三方面实测对比结果如何?

实测2:逻辑推理测试

提示词:

资讯丨智谱发布推理模型GLM-Zero-Preview,数学、推理、编程三方面实测对比结果如何?

分析:这是一道比较复杂的逻辑推理题,难点在于模型要了解题目中的条件“如果有人说的话是与数学老师有关的话,那么就是假话”,先给大家看下正确答案:甲:物理老师;乙:化学老师;丙:数学老师;丁:生物老师。

o1-preview:o1居然答出来了,回答正确!

资讯丨智谱发布推理模型GLM-Zero-Preview,数学、推理、编程三方面实测对比结果如何?

GLM-Zero-Preview:分析的过程很长,可以看到GLM一直在假设可能的情况,但很可惜最后给出的答案,只有丙的身份是正确的。

资讯丨智谱发布推理模型GLM-Zero-Preview,数学、推理、编程三方面实测对比结果如何?

QwQ-32B-Preview:QwQ给出的分析篇幅非常长,但可惜最后给出的两个答案都是错误

资讯丨智谱发布推理模型GLM-Zero-Preview,数学、推理、编程三方面实测对比结果如何?

实测3:编程测试

提示词:请用前端代码生成一个连连看游戏,所有代码放在一个文件输出,需要包含游戏说明

GLM-Zero-Preview:尽管整个游戏界面相对简单,但首先游戏是可实现的。从游戏说明中可以看出,生成的游戏逻辑非常严谨,消除相同方块时不得经过其他方块。这更符合我们日常生活中玩连连看游戏的逻辑。

资讯丨智谱发布推理模型GLM-Zero-Preview,数学、推理、编程三方面实测对比结果如何?

Claude-3.5-sonnet:Claude生成的效果界面美观度明显更胜一筹,且用户在每一步操作后,都能实时看到剩余配对数变化。然而,在游戏逻辑设计上,Claude的规则相对简单,只要是相同的图案,均能够被消除,并没有设置任何限制。相比之下,这一点不如GLM-Zero-Preview。

资讯丨智谱发布推理模型GLM-Zero-Preview,数学、推理、编程三方面实测对比结果如何?

> 总结

通过以上实测,可以初步得出以下结论:

数学测试:在面对考研数学题目时,GLM-Zero-Preview输出的答案展现了详细的思考过程,并给出了正确答案,表现出色。

逻辑推理测试:在处理复杂问题时的推理能力时,尽管没有完全回答正确,但展示了详细的思考推理过程,这表明模型具备一定深度的分析能力

编程测试:虽然界面设计略显简单,但能够生成可运行的代码,且游戏逻辑对比Claude更加严谨和有深度

总体来看,GLM-Zero-Preview展现了不错的数学和编程能力,尽管在某些复杂的逻辑推理问题上未能给出完全正确的答案,但其详尽的推理过程确实反映了模型在分析能力。此外,我们也可以看出,国产模型与国外模型的差距正在一步步缩小。未来,随着技术的不断迭代和模型的进一步优化,希望GLM-Zero-Preview正式版能在更多复杂任务中展现出更强的能力。

Like (0)
302.AI302.AI
Previous 2024 年 12 月 31 日 上午10:35
Next 2025 年 1 月 3 日 下午7:57

相关推荐

  • 资讯丨一款易用且功能强大的手绘风画图工具——302 AI画图板

    在日常的工作生活中,单纯的文字描述往往难以传达复杂的想法和创意。这些时候,我们常常会利用各种图形来表达我们的观点,例如思维导图、流程图、原型图等。这些图像不仅能够帮助我们理清思路,还能将复杂的信息变得更加直观和易于理解。 > 302.AI AI画图板的优势 302.AI捕捉到了用户的需求,不久前在工具超市中上线了一款AI画图板工具,这一工具在Excal…

    2025 年 1 月 9 日
    24800
  • 资讯丨低成本实现虚拟模特换装,电商新神器——302 AI换衣

    随着AI技术的快速发展,市场上出现了一种新型AI工具——AI 换衣。这类工具提供了精确的虚拟试穿能力,且操作简单,逐渐成为电商商家们的新宠。 302.AI紧跟市场发展,近日在工具超市最新上线了一款AI 换衣工具。这一工具能够准确渲染服装细节,并且支持多种服装类别,包括上衣、下装、夹克、连衣裙等。更重要的是,302.AI提供按需付费的使用方式,用户只需要依据自…

    2025 年 1 月 13 日
    22300
  • 资讯丨“Thinking Claude”prompt真的这么神?302带你实测揭秘看看

    最近,又一个prompt在网上火了起来,这一prompt名为“ Thinking Claude”,有网友称它为Claude3.5的神级prompt,而更让人意想不到的的是,这个prompt背后的作者,居然是一个十七岁的少年! “Thinking Claude”的核心在于它引导Claude进行一种更为“人性化”的思考方式,强调思维过程的自然流动,而非简单的结构…

    2024 年 11 月 15 日
    53800
  • 资讯丨302.AI 代码竞技场:大模型编程能力的“超级擂台”

    一个大模型能力强不强,我们常常会从多个维度去评估,其中编程能力是尤为关键的一项。 对于许多用户而言,想要准确测试大模型的代码能力却常常不知道该从何入手,或者不知道选择哪个平台进行测试。 为了帮助用户解决这一问题,302.AI最新上线了一款工具——代码竞技场,这一工具集结了多种先进模型,为用户提供了一个广阔、便捷、易用的代码测试平台。 工具界面展示: 302.…

    2025 年 2 月 19 日
    10500
  • 资讯丨如何1秒钟为大模型API增加长期记忆?限时免费体验!

    众所周知,大模型是没有记忆的。从专业角度来解释,所有的大模型API都是无状态API(每个请求是自足的,不依赖于以前的请求或者状态,这样的API可以更容易地进行扩展)。但是想让AI真正的成为“人”,记忆又是必不可少的。 短期记忆的实现 现阶段比较普遍的大模型实现记忆方法,就是每次请求时,把聊天记录简单的塞入上下文,让大模型看了聊天记录再进行回答。 但是这么做,…

    2025 年 1 月 17 日
    40400

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注