302.AI 基准实验室 | 马斯克号称地表最强的Grok 3系列模型,在实测中到底能否超越R1和o3-mini?

2月19日,马斯克旗下的大模型平台 xAI 推出了新的模型——Grok-3。官方宣称,Grok-3 在推理、数学、编码和指令遵循任务中均表现出色,并在一系列基准测试中表现出色。而马斯克更是称一模型为 ⌈ 地表最强 ⌋。

302.AI 基准实验室 | 马斯克号称地表最强的Grok 3系列模型,在实测中到底能否超越R1和o3-mini?

根据了解,grok-3 并非单一模型,而是一个包含多个版本的模型家族。其中包括了变体版本—— grok-3-reasoner(推理版)。这一个版本能够像 OpenAI 的 o3-mini 和 DeepSeek 的 R1 等推理模型一样,仔细思考问题,并在给出结果前进行彻底的事实核查,从而避免了一些通常会困扰模型的错误。

除了推理版本外,grok-3 还引入了一项名为【DeepSearch】的新功能。xAI将其描述为一种新型搜索引擎,能够扫描互联网和X平台上的信息,并以摘要的形式回应用户查询。

关于grok-3系列模型的详细介绍可查看官方文档:https://x.ai/blog/grok-3


Grok-3系列模型对比

为了更好理解三个版本的差异,我们会使用同一问题进行测试,并通过对输出结果对比分析具体的不同之处。

提示词:为什么我爸妈结婚的时候没邀请我参加婚礼?用中文回答

grok-3常规版本:常规版直接给出答案,看不到推理过程。

302.AI 基准实验室 | 马斯克号称地表最强的Grok 3系列模型,在实测中到底能否超越R1和o3-mini?

grok-3-reasoner(推理版本):推理版会展示了思考链路,再输出答案。

302.AI 基准实验室 | 马斯克号称地表最强的Grok 3系列模型,在实测中到底能否超越R1和o3-mini?

grok-3 -deepSearch(搜索版):这一版本会通过检索网络信息输出结构化报告,与前面的版本都不同,这更加适合市场调研等领域应用。

302.AI 基准实验室 | 马斯克号称地表最强的Grok 3系列模型,在实测中到底能否超越R1和o3-mini?


grok-3系列模型模型实测:

根据上述比较,我们将深入测试推理版本grok-3-reasoner,并通过与同类型模型o3-mini(medium)和DeepSeek-R1进行对比,更直观地观察这三个模型的表现:

以下实测使用的是相同的提示词,且摘取模型第一次输出的结果。

实测1和实测2使用的工具为:302.AI的模型竞技场

实测3使用工具为:302.AI聊天机器人-Artifacts功能

实测1:弱智吧题目

提示词:生蚝煮熟了叫什么?

考察点:看似简单的名称辨析,其实是测试模型对语言逻辑、科学常识的综合理解能力。

o3-mini :分析错误,回答错误

302.AI 基准实验室 | 马斯克号称地表最强的Grok 3系列模型,在实测中到底能否超越R1和o3-mini?

DeepSeek-R1:回答正确,解析清晰且合理。

302.AI 基准实验室 | 马斯克号称地表最强的Grok 3系列模型,在实测中到底能否超越R1和o3-mini?

grok-3-reasoner :仔细观察模型的答案,可以发现模型实际上知道正确答案,但为了增加趣味性,最后给出了“熟蚝”这个答案。

302.AI 基准实验室 | 马斯克号称地表最强的Grok 3系列模型,在实测中到底能否超越R1和o3-mini?

第1轮实测结果:DeepSeek-R1 >grok-3-reasoner>o3-mini

实测2:计算推理测试

提示词:请在错误的等式中添加一对括号:1+2×3+4×5+6×7+8×9=479,以使等式成立

考察点:测试模型的数学计算、逻辑推理、问题解决能力以及对数学符号的理解。

o3-mini:给出了验算步骤,最后回答正确。

302.AI 基准实验室 | 马斯克号称地表最强的Grok 3系列模型,在实测中到底能否超越R1和o3-mini?

DeepSeek-R1:回答错误,结合思维链来看,模型已经意识到答案与原始答案不一致,但很可惜仍未提供正确答案。

302.AI 基准实验室 | 马斯克号称地表最强的Grok 3系列模型,在实测中到底能否超越R1和o3-mini?

grok-3-reasoner:未能输出答案,模型持续思考并反复测试可能的答案,在输出长达一分钟后不得不手动暂停。通过思考过程可以观察到,在测试答案时,模型添加的括号数量超过一个,这已经与题目的原意不相符了。

302.AI 基准实验室 | 马斯克号称地表最强的Grok 3系列模型,在实测中到底能否超越R1和o3-mini?

第2轮实测结果: o3-mini > DeepSeek-R1> grok-3-reasoner

实测3:编程测试

提示词:用前端代码制作一个碰撞小游戏:小球在弹跳,一侧放置了方块,小球碰到方块则得分,方块全部消失即通关,界面需要包含开始游戏按钮、游戏说明。所有代码放在一起输出。

o3-mini:界面设计一般,小球弹跳较流畅,得分正常实时变化,但缺乏交互,用户无法通过任何方式对游戏进行操作。

302.AI 基准实验室 | 马斯克号称地表最强的Grok 3系列模型,在实测中到底能否超越R1和o3-mini?

DeepSeek-R1:界面设计在三个模型中最好,小球弹跳正常,得分显示正常,且用户能通过键盘操作游戏,整体表现上明显优于其他两个模型

302.AI 基准实验室 | 马斯克号称地表最强的Grok 3系列模型,在实测中到底能否超越R1和o3-mini?

grok-3-reasoner :界面设计中规中矩,功能实现基本符合预期,得分系统能够实时更新显示,小球的弹跳也还算流畅自然。然而,缺乏足够的互动性,玩家无法对游戏进行操作。

302.AI 基准实验室 | 马斯克号称地表最强的Grok 3系列模型,在实测中到底能否超越R1和o3-mini?

第3轮实测结果:DeepSeek-R1 >grok-3-reasoner=o3-mini


Grok-3实测结果总结:

通过以上三个简单的对比实测,能够初步得出以下结论:

(1)在弱智吧题目测试中的表现排名:DeepSeek-R1 > grok-3-reasoner>o3-mini

智吧题目测试中,grok-3 实际上知道正确答案,但为了增加趣味性,它选择了输出一个错误的答案,这种做法让测试过程变得更加有趣。

(2)在计算推理方面表现排名:o3-mini > DeepSeek-R1> grok-3-reasoner

在进行计算推理任务的过程中,多次尝试提问 grok-3,但遗憾的是始终未能输出最后答案。这表明当前的模型在处理此类任务时仍存在一些不足之处。

(3)在编程方面表现依次排名:DeepSeek-R1 >grok-3-reasoner=o3-mini

在编程任务中,grok-3 界面设计和功能实现相对中规中矩,与 o3-mini 表现相似,与 DeepSeek-R1 相比,在用户交互体验上略显不足

总之,在以上的实测中,grok-3的表现并不太亮眼。尽管官方宣传grok-3的评分很高,但对于大多数普通用户来说,评分只是一个次要参考,最重要的是要选出一个合适、顺手的模型使用。最后,希望今天的实测能够为大家在选择模型时提供有效的参考。


在302.AI上使用grok-3系列模型

302.AI的聊天机器人和API超市均上线了 grok-3系列模型并提供按需付费的服务方式企业和个人用户可按需灵活选用。

1、使用模型对话

依次点击使用机器人→聊天机器人→ 模型→其他模型→grok-3系列→ 创建聊天机器人;

302.AI 基准实验室 | 马斯克号称地表最强的Grok 3系列模型,在实测中到底能否超越R1和o3-mini?

2、使用模型API

企业用户可以通过302.AI的API超市快速、便捷地调用模型,还能够根据特定项目需求进行定制化开发。

相关文档:使用API→API超市→语言大模型→其他模型→查看文档;

API名称如下:

grok-3(常规版本)

grok-3-reasoner (推理版本)

grok-3-deepsearch(搜索功能版)

302.AI 基准实验室 | 马斯克号称地表最强的Grok 3系列模型,在实测中到底能否超越R1和o3-mini?


👉立即注册免费试用302.AI,开启你的AI之旅!👈

为什么选择302.AI?

● 灵活付费:无需月费,按需付费,成本可控
● 丰富功能:从文字、图片到视频,应有尽有,满足多种场景需求
● 开源生态:支持开发者深度定制,打造专属AI应用
● 易用性:界面友好,操作简单,快速上手

302.AI 新品发布 | 图像创意站:GPT-Image-1玩法全解析,轻松生成惊艳作品
All Rights Reserved by 302.AI
Like (0)
302.AI302.AI
Previous 2025 年 2 月 21 日 下午6:51
Next 2025 年 2 月 25 日 下午10:23

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注