资讯丨智谱发布推理模型GLM-Zero-Preview,数学、推理、编程三方面实测对比结果如何?

在2024年的最后一天,智谱发布了推理模型GLM-Zero 的初代版本 GLM-Zero-Preview,这是智谱首个基于扩展强化学习技术训练的推理模型。

据了解,GLM-Zero-Preview 擅长处理数理逻辑、代码和需要深度推理的复杂问题同基座模型相比,GLM-Zero-Preview 既没有显著降低通用任务能力,又大幅提升了专家任务能力。

GLM-Zero-Preview在 AIME 2024、MATH500 和 LiveCodeBench 等评测中,效果与 OpenAI o1-preview 相当。而与现有模型不同的是,GLM-Zero-Preview能够初步实现推理过程中自主决策、问题拆解和尝试多种方式解决问题。

资讯丨智谱发布推理模型GLM-Zero-Preview,数学、推理、编程三方面实测对比结果如何?

> 在302.AI上使用

目前,302.AI的聊天机器人和API超市均上线了GLM-Zero-Preview模型并提供按需付费的服务方式无论是企业还是个人用户,都能够依据实际需求灵活选择使用模型。

【聊天机器人】

用户可以通过聊天机器人快速体验最新模型。302.AI的聊天机器人提供市场上多种先进模型,并持续进行实时更新,保持与市场的发展同步。以下是具体的获取步骤:

1、进入302.AI——点击左侧菜单栏使用机器人——选择聊天机器人——点击模型——选择GLM-Zero-Preview模型并确定,最后点击创建聊天机器人按钮;

资讯丨智谱发布推理模型GLM-Zero-Preview,数学、推理、编程三方面实测对比结果如何?

API超市】

企业用户可以通过302.AIAPI超市快速、便捷地调用模型,还能够根据特定项目需求进行定制化开发,加快AI应用的研发与部署流程。以下是在API超市中获取GLM-Zero-Preview的详细步骤:

1、进入302.AI后——点击使用API——选择API超市——分类中点击语言大模型——然后选择国产模型。

资讯丨智谱发布推理模型GLM-Zero-Preview,数学、推理、编程三方面实测对比结果如何?

2、点击【查看文档】进入后,修改参数模型名称即可获得GLM-Zero-Preview的API。

资讯丨智谱发布推理模型GLM-Zero-Preview,数学、推理、编程三方面实测对比结果如何?

> 实测对比

接下来实测将围绕GLM-Zero-Preview模型进行,主要实测对比模型数学、推理、编程方面。

实测1-2使用的工具为:302.AI的模型竞技场

对比模型:o1-preview、GLM-Zero-Preview、QwQ-32B-Preview

实测3使用的工具为:302.AI聊天机器人的Artifacts功能

对比模型:GLM-Zero-Preview、Claude-3.5-sonnet

参与对比的模型价格(由高至低排序):

资讯丨智谱发布推理模型GLM-Zero-Preview,数学、推理、编程三方面实测对比结果如何?

其中,可以看到o1-preview和Claude-3.5-sonnet的输入输出价格均高于GLM-Zero-Preview模型。

实测1:数学测试

提示词:设A,B为两个不同随机事件,且相互独立,已知P(A)=2P(B),P(AUB)=5/8,则A,B中至少有一个发生的条件下,A,B中恰好有一个发生的概率为多少?

分析:来自2025年考研数学一卷的题目,正确答案是4/5。

o1-preview:最新考研题目也难不倒o1,回答正确。

资讯丨智谱发布推理模型GLM-Zero-Preview,数学、推理、编程三方面实测对比结果如何?

GLM-Zero-Preview:GLM也没问题,在输出的回答中可以看到模型一次次思考,最后答案正确

资讯丨智谱发布推理模型GLM-Zero-Preview,数学、推理、编程三方面实测对比结果如何?

QwQ-32B-Preview:QwQ给出的答案也是正确的。

资讯丨智谱发布推理模型GLM-Zero-Preview,数学、推理、编程三方面实测对比结果如何?

实测2:逻辑推理测试

提示词:

资讯丨智谱发布推理模型GLM-Zero-Preview,数学、推理、编程三方面实测对比结果如何?

分析:这是一道比较复杂的逻辑推理题,难点在于模型要了解题目中的条件“如果有人说的话是与数学老师有关的话,那么就是假话”,先给大家看下正确答案:甲:物理老师;乙:化学老师;丙:数学老师;丁:生物老师。

o1-preview:o1居然答出来了,回答正确!

资讯丨智谱发布推理模型GLM-Zero-Preview,数学、推理、编程三方面实测对比结果如何?

GLM-Zero-Preview:分析的过程很长,可以看到GLM一直在假设可能的情况,但很可惜最后给出的答案,只有丙的身份是正确的。

资讯丨智谱发布推理模型GLM-Zero-Preview,数学、推理、编程三方面实测对比结果如何?

QwQ-32B-Preview:QwQ给出的分析篇幅非常长,但可惜最后给出的两个答案都是错误

资讯丨智谱发布推理模型GLM-Zero-Preview,数学、推理、编程三方面实测对比结果如何?

实测3:编程测试

提示词:请用前端代码生成一个连连看游戏,所有代码放在一个文件输出,需要包含游戏说明

GLM-Zero-Preview:尽管整个游戏界面相对简单,但首先游戏是可实现的。从游戏说明中可以看出,生成的游戏逻辑非常严谨,消除相同方块时不得经过其他方块。这更符合我们日常生活中玩连连看游戏的逻辑。

资讯丨智谱发布推理模型GLM-Zero-Preview,数学、推理、编程三方面实测对比结果如何?

Claude-3.5-sonnet:Claude生成的效果界面美观度明显更胜一筹,且用户在每一步操作后,都能实时看到剩余配对数变化。然而,在游戏逻辑设计上,Claude的规则相对简单,只要是相同的图案,均能够被消除,并没有设置任何限制。相比之下,这一点不如GLM-Zero-Preview。

资讯丨智谱发布推理模型GLM-Zero-Preview,数学、推理、编程三方面实测对比结果如何?

> 总结

通过以上实测,可以初步得出以下结论:

数学测试:在面对考研数学题目时,GLM-Zero-Preview输出的答案展现了详细的思考过程,并给出了正确答案,表现出色。

逻辑推理测试:在处理复杂问题时的推理能力时,尽管没有完全回答正确,但展示了详细的思考推理过程,这表明模型具备一定深度的分析能力

编程测试:虽然界面设计略显简单,但能够生成可运行的代码,且游戏逻辑对比Claude更加严谨和有深度

总体来看,GLM-Zero-Preview展现了不错的数学和编程能力,尽管在某些复杂的逻辑推理问题上未能给出完全正确的答案,但其详尽的推理过程确实反映了模型在分析能力。此外,我们也可以看出,国产模型与国外模型的差距正在一步步缩小。未来,随着技术的不断迭代和模型的进一步优化,希望GLM-Zero-Preview正式版能在更多复杂任务中展现出更强的能力。

Like (0)
302.AI302.AI
Previous 2024 年 12 月 31 日 上午10:35
Next 2025 年 1 月 3 日 下午7:57

相关推荐

  • 资讯丨DeepSeek-VL2发布,实测看图说话、文字识别和图形推理能力如何?

    12月13日,DeepSeek 官方发布博文,宣布开源 DeepSeek-VL2 模型。 据了解,在模型架构上,DeepSeek-VL2 视觉部分使用切图策略支持动态分辨率图像,语言部分采用 MoE 架构低成本高性能, MoE是一种混合专家(Mixture-of-Experts)架构,旨在提高模型的性能和效率。 在官方给出的测评结果中显示,DeepSeek-…

    2024 年 12 月 23 日
    1.5K00
  • AI老照片修复功能,不止修复了画面也修复了记忆

    随着AI技术的发展,不断突破着传统界限。许多曾经存在想象中的事情变成了现实,这或许就是科技的意义。 最近看到了一个非常令人感动的文章“他用Luma和Suno复活了逝去11年的爱人,给我看破防了。” (参考原文:https://mp.weixin.qq.com/s/DIkPAA-P9P1AWveAFeNtqA) 原文是这样的,作者在X上看到了一个名为Koya …

    2024 年 7 月 17 日
    46400
  • Coze正式开启付费计划!GPT-4白嫖时代结束?

    7月刚刚到来,Coze海外版就静悄悄开启付费计划,推出了Coze Premium Pricing Plans,得知这一消息的众多AI爱好者纷纷表示白嫖GPT-4的时代要结束了。 Coze是由字节跳动推出的AI聊天机器人构建平台,它允许用户快速创建、调试和优化AI聊天机器人的应用程序。这个平台特别适合对AI和机器人技术感兴趣的人,尤其是那些缺乏编程经验的用户。…

    2024 年 7 月 12 日
    67500
  • 资讯丨最新模型真实测评对比:o3-mini & Gemini 2.0 pro & DeepSeek-R1

    自年前DeepSeek发布R1模型后便迅速引发了各界的广泛关注。 最近,各模型厂家都坐不住了,频频出招。 先是1月底,是OpenAI正式发布 o3-mini,这是OpenAI推理系列中最新、最具成本效益的模型。该模型支持低、中、高三档推理难度,并针对科学、数学、编程等领域进行了优化。 2月6日,谷歌也加入了 DeepSeek 、OpenAI 的战局,发布多个…

    2025 年 2 月 10 日
    51900
  • 资讯丨实测Doubao文生图模型v2.1版本,中英文内容生成竟轻松拿捏!

    12月,字节跳动豆包大模型团队推出文生图模型 v2.1版本,这次的升级对比通用 2.0和通用 2.0 PRO版本,除了结构准确和美感明显提升外,重点支持了中英文字符渲染。 据了解,豆包文生图模型v2.1通过打通 LLM 和 DiT 构架,构建了高质量文字渲染能力,大幅提升文字生成准确率。这种原生的文字渲染能力,让文字与整体画面的融合更为自然和实用。 >…

    2024 年 12 月 31 日
    72500

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注