资讯丨马斯克号称地表最强的Grok 3系列模型,在实测中到底能否超越R1和o3-mini?

2月19日,马斯克旗下的大模型平台 xAI 推出了新的模型——Grok-3。官方宣称,Grok-3 在推理、数学、编码和指令遵循任务中均表现出色,并在一系列基准测试中表现出色。而马斯克更是称一模型为 ⌈ 地表最强 ⌋。

资讯丨马斯克号称地表最强的Grok 3系列模型,在实测中到底能否超越R1和o3-mini?

根据了解,grok-3 并非单一模型,而是一个包含多个版本的模型家族。其中包括了变体版本—— grok-3-reasoner(推理版)。这一个版本能够像 OpenAI 的 o3-mini 和 DeepSeek 的 R1 等推理模型一样,仔细思考问题,并在给出结果前进行彻底的事实核查,从而避免了一些通常会困扰模型的错误。

除了推理版本外,grok-3 还引入了一项名为【DeepSearch】的新功能。xAI将其描述为一种新型搜索引擎,能够扫描互联网和X平台上的信息,并以摘要的形式回应用户查询。

关于grok-3系列模型的详细介绍可查看官方文档:https://x.ai/blog/grok-3

grok-3系列模型对比:

为了更好理解三个版本的差异,我们会使用同一问题进行测试,并通过对输出结果对比分析具体的不同之处。

提示词:为什么我爸妈结婚的时候没邀请我参加婚礼?用中文回答

grok-3常规版本:常规版直接给出答案,看不到推理过程。

资讯丨马斯克号称地表最强的Grok 3系列模型,在实测中到底能否超越R1和o3-mini?

grok-3-reasoner(推理版本):推理版会展示了思考链路,再输出答案。

资讯丨马斯克号称地表最强的Grok 3系列模型,在实测中到底能否超越R1和o3-mini?

grok-3 -deepSearch(搜索版):这一版本会通过检索网络信息输出结构化报告,与前面的版本都不同,这更加适合市场调研等领域应用。

资讯丨马斯克号称地表最强的Grok 3系列模型,在实测中到底能否超越R1和o3-mini?

模型实测:

根据上述比较,我们将深入测试推理版本grok-3-reasoner,并通过与同类型模型o3-mini(medium)和DeepSeek-R1进行对比,更直观地观察这三个模型的表现:

以下实测使用的是相同的提示词,且摘取模型第一次输出的结果。

实测1和实测2使用的工具为:302.AI的模型竞技场

实测3使用工具为:302.AI聊天机器人-Artifacts功能

实测1:弱智吧题目

提示词:生蚝煮熟了叫什么?

考察点:看似简单的名称辨析,其实是测试模型对语言逻辑、科学常识的综合理解能力。

o3-mini :分析错误,回答错误

资讯丨马斯克号称地表最强的Grok 3系列模型,在实测中到底能否超越R1和o3-mini?

DeepSeek-R1:回答正确,解析清晰且合理。

资讯丨马斯克号称地表最强的Grok 3系列模型,在实测中到底能否超越R1和o3-mini?

grok-3-reasoner :仔细观察模型的答案,可以发现模型实际上知道正确答案,但为了增加趣味性,最后给出了“熟蚝”这个答案。

资讯丨马斯克号称地表最强的Grok 3系列模型,在实测中到底能否超越R1和o3-mini?

第1轮实测结果:DeepSeek-R1 >grok-3-reasoner>o3-mini

实测2:计算推理测试

提示词:请在错误的等式中添加一对括号:1+2×3+4×5+6×7+8×9=479,以使等式成立

考察点:测试模型的数学计算、逻辑推理、问题解决能力以及对数学符号的理解。

o3-mini:给出了验算步骤,最后回答正确。

资讯丨马斯克号称地表最强的Grok 3系列模型,在实测中到底能否超越R1和o3-mini?

DeepSeek-R1:回答错误,结合思维链来看,模型已经意识到答案与原始答案不一致,但很可惜仍未提供正确答案。

资讯丨马斯克号称地表最强的Grok 3系列模型,在实测中到底能否超越R1和o3-mini?

grok-3-reasoner:未能输出答案,模型持续思考并反复测试可能的答案,在输出长达一分钟后不得不手动暂停。通过思考过程可以观察到,在测试答案时,模型添加的括号数量超过一个,这已经与题目的原意不相符了。

资讯丨马斯克号称地表最强的Grok 3系列模型,在实测中到底能否超越R1和o3-mini?

第2轮实测结果: o3-mini > DeepSeek-R1> grok-3-reasoner

实测3:编程测试

提示词:用前端代码制作一个碰撞小游戏:小球在弹跳,一侧放置了方块,小球碰到方块则得分,方块全部消失即通关,界面需要包含开始游戏按钮、游戏说明。所有代码放在一起输出。

o3-mini:界面设计一般,小球弹跳较流畅,得分正常实时变化,但缺乏交互,用户无法通过任何方式对游戏进行操作。

资讯丨马斯克号称地表最强的Grok 3系列模型,在实测中到底能否超越R1和o3-mini?

DeepSeek-R1:界面设计在三个模型中最好,小球弹跳正常,得分显示正常,且用户能通过键盘操作游戏,整体表现上明显优于其他两个模型

资讯丨马斯克号称地表最强的Grok 3系列模型,在实测中到底能否超越R1和o3-mini?

grok-3-reasoner :界面设计中规中矩,功能实现基本符合预期,得分系统能够实时更新显示,小球的弹跳也还算流畅自然。然而,缺乏足够的互动性,玩家无法对游戏进行操作。

资讯丨马斯克号称地表最强的Grok 3系列模型,在实测中到底能否超越R1和o3-mini?

第3轮实测结果:DeepSeek-R1 >grok-3-reasoner=o3-mini

实测结果总结:

通过以上三个简单的对比实测,能够初步得出以下结论:

(1)在弱智吧题目测试中的表现排名:DeepSeek-R1 > grok-3-reasoner>o3-mini

智吧题目测试中,grok-3 实际上知道正确答案,但为了增加趣味性,它选择了输出一个错误的答案,这种做法让测试过程变得更加有趣。

(2)在计算推理方面表现排名:o3-mini > DeepSeek-R1> grok-3-reasoner

在进行计算推理任务的过程中,多次尝试提问 grok-3,但遗憾的是始终未能输出最后答案。这表明当前的模型在处理此类任务时仍存在一些不足之处。

(3)在编程方面表现依次排名:DeepSeek-R1 >grok-3-reasoner=o3-mini

在编程任务中,grok-3 界面设计和功能实现相对中规中矩,与 o3-mini 表现相似,与 DeepSeek-R1 相比,在用户交互体验上略显不足

总之,在以上的实测中,grok-3的表现并不太亮眼。尽管官方宣传grok-3的评分很高,但对于大多数普通用户来说,评分只是一个次要参考,最重要的是要选出一个合适、顺手的模型使用。最后,希望今天的实测能够为大家在选择模型时提供有效的参考。

在302.AI上使用grok-3系列模型

302.AI的聊天机器人和API超市均上线了 grok-3系列模型并提供按需付费的服务方式企业和个人用户可按需灵活选用。

1、使用模型对话

依次点击使用机器人→聊天机器人→ 模型→其他模型→grok-3系列→ 创建聊天机器人;

资讯丨马斯克号称地表最强的Grok 3系列模型,在实测中到底能否超越R1和o3-mini?

2、使用模型API

企业用户可以通过302.AI的API超市快速、便捷地调用模型,还能够根据特定项目需求进行定制化开发。

相关文档:使用API→API超市→语言大模型→其他模型→查看文档;

API名称如下:

grok-3(常规版本)

grok-3-reasoner (推理版本)

grok-3-deepsearch(搜索功能版)

资讯丨马斯克号称地表最强的Grok 3系列模型,在实测中到底能否超越R1和o3-mini?

Like (0)
302.AI302.AI
Previous 2025 年 2 月 21 日 下午6:51
Next 2025 年 2 月 25 日 下午10:23

相关推荐

  • 资讯丨实测Anthropic首款混合推理模型——Claude 3.7 Sonnet,程序员的外挂来了?!

    2月25日凌晨,Anthropic发布了首款混合推理模型——Claude 3.7 Sonnet。 Claude 3.7 Sonnet 能够在标准模式(Normal) 下既提供近乎即时的响应,也可以也能切换到扩展思考模式(Extended),进行详细的逐步推理。 在扩展思考模式的加持下,Claude 3.7 Sonnet 在数学、物理、指令遵循、编码等方面获得…

    2025 年 2 月 25 日
    9600
  • 资讯丨xAI官宣Grok API开启公测,唯一模型grok-beta表现能否达到预期?

    11月6日,备受瞩目的2024年美国总统选举结果终于揭晓,马斯克公开支持的美国共和党总统候选人特朗普获得最终胜利。 作为特朗普的“榜一大哥”马斯克,是人工智能初创公司xAI的始人之一和主要投资者。在11月4日,xAI刚刚官宣Grok API正式开启公测。 根据xAI公司官方发布的文档,可以看到xAI的API目前只有一个模型——“grok-beta”。 从官方…

    2024 年 11 月 8 日
    21500
  • 资讯丨智谱发布推理模型GLM-Zero-Preview,数学、推理、编程三方面实测对比结果如何?

    在2024年的最后一天,智谱发布了推理模型GLM-Zero 的初代版本 GLM-Zero-Preview,这是智谱首个基于扩展强化学习技术训练的推理模型。 据了解,GLM-Zero-Preview 擅长处理数理逻辑、代码和需要深度推理的复杂问题。同基座模型相比,GLM-Zero-Preview 既没有显著降低通用任务能力,又大幅提升了专家任务能力。 GLM-…

    2025 年 1 月 2 日
    42900
  • 资讯丨Meta AI新模型Llama 3.3 70B推理、编程全面评测,真实表现如何?

    12月6日,Meta AI推出了新开源模型Llama 3.3 70B。Meta AI副总裁Ahmad Al-Dahle在社交媒体平台发布的一篇帖子中表示,这款仅支持文本的Llama 3.3 70B模型与Meta最大型模型Llama 3.1 405B的性能相当,但运行起来更简单、更经济高效。 据了解,Llama 3.3 70B上下文长度为128K,是一款自回归…

    2024 年 12 月 10 日
    17700
  • 视频生成模型神仙打架?到底哪家更胜一筹

    自从OpenAI发布了正在研发和测试中的文生视频大模型Sora后,AI视频生成工具接连“内卷”,开始”神仙打架“模式。 首先,在当地时间6月12日,Luma创始人官宣并发布新视频模型——Dream Machine。Dream Machine可以在120秒内生成120帧的视频,具备流畅的运动、电影摄影和戏剧效果。6月28日,Luma宣布首尾帧制作加入Dream…

    2024 年 7 月 17 日
    48200

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注