302.AI 基准实验室 | 马斯克号称地表最强的Grok 3系列模型,在实测中到底能否超越R1和o3-mini?

2月19日,马斯克旗下的大模型平台 xAI 推出了新的模型——Grok-3。官方宣称,Grok-3 在推理、数学、编码和指令遵循任务中均表现出色,并在一系列基准测试中表现出色。而马斯克更是称一模型为 ⌈ 地表最强 ⌋。

302.AI 基准实验室 | 马斯克号称地表最强的Grok 3系列模型,在实测中到底能否超越R1和o3-mini?

根据了解,grok-3 并非单一模型,而是一个包含多个版本的模型家族。其中包括了变体版本—— grok-3-reasoner(推理版)。这一个版本能够像 OpenAI 的 o3-mini 和 DeepSeek 的 R1 等推理模型一样,仔细思考问题,并在给出结果前进行彻底的事实核查,从而避免了一些通常会困扰模型的错误。

除了推理版本外,grok-3 还引入了一项名为【DeepSearch】的新功能。xAI将其描述为一种新型搜索引擎,能够扫描互联网和X平台上的信息,并以摘要的形式回应用户查询。

关于grok-3系列模型的详细介绍可查看官方文档:https://x.ai/blog/grok-3


Grok-3系列模型对比

为了更好理解三个版本的差异,我们会使用同一问题进行测试,并通过对输出结果对比分析具体的不同之处。

提示词:为什么我爸妈结婚的时候没邀请我参加婚礼?用中文回答

grok-3常规版本:常规版直接给出答案,看不到推理过程。

302.AI 基准实验室 | 马斯克号称地表最强的Grok 3系列模型,在实测中到底能否超越R1和o3-mini?

grok-3-reasoner(推理版本):推理版会展示了思考链路,再输出答案。

302.AI 基准实验室 | 马斯克号称地表最强的Grok 3系列模型,在实测中到底能否超越R1和o3-mini?

grok-3 -deepSearch(搜索版):这一版本会通过检索网络信息输出结构化报告,与前面的版本都不同,这更加适合市场调研等领域应用。

302.AI 基准实验室 | 马斯克号称地表最强的Grok 3系列模型,在实测中到底能否超越R1和o3-mini?


grok-3系列模型模型实测:

根据上述比较,我们将深入测试推理版本grok-3-reasoner,并通过与同类型模型o3-mini(medium)和DeepSeek-R1进行对比,更直观地观察这三个模型的表现:

以下实测使用的是相同的提示词,且摘取模型第一次输出的结果。

实测1和实测2使用的工具为:302.AI的模型竞技场

实测3使用工具为:302.AI聊天机器人-Artifacts功能

实测1:弱智吧题目

提示词:生蚝煮熟了叫什么?

考察点:看似简单的名称辨析,其实是测试模型对语言逻辑、科学常识的综合理解能力。

o3-mini :分析错误,回答错误

302.AI 基准实验室 | 马斯克号称地表最强的Grok 3系列模型,在实测中到底能否超越R1和o3-mini?

DeepSeek-R1:回答正确,解析清晰且合理。

302.AI 基准实验室 | 马斯克号称地表最强的Grok 3系列模型,在实测中到底能否超越R1和o3-mini?

grok-3-reasoner :仔细观察模型的答案,可以发现模型实际上知道正确答案,但为了增加趣味性,最后给出了“熟蚝”这个答案。

302.AI 基准实验室 | 马斯克号称地表最强的Grok 3系列模型,在实测中到底能否超越R1和o3-mini?

第1轮实测结果:DeepSeek-R1 >grok-3-reasoner>o3-mini

实测2:计算推理测试

提示词:请在错误的等式中添加一对括号:1+2×3+4×5+6×7+8×9=479,以使等式成立

考察点:测试模型的数学计算、逻辑推理、问题解决能力以及对数学符号的理解。

o3-mini:给出了验算步骤,最后回答正确。

302.AI 基准实验室 | 马斯克号称地表最强的Grok 3系列模型,在实测中到底能否超越R1和o3-mini?

DeepSeek-R1:回答错误,结合思维链来看,模型已经意识到答案与原始答案不一致,但很可惜仍未提供正确答案。

302.AI 基准实验室 | 马斯克号称地表最强的Grok 3系列模型,在实测中到底能否超越R1和o3-mini?

grok-3-reasoner:未能输出答案,模型持续思考并反复测试可能的答案,在输出长达一分钟后不得不手动暂停。通过思考过程可以观察到,在测试答案时,模型添加的括号数量超过一个,这已经与题目的原意不相符了。

302.AI 基准实验室 | 马斯克号称地表最强的Grok 3系列模型,在实测中到底能否超越R1和o3-mini?

第2轮实测结果: o3-mini > DeepSeek-R1> grok-3-reasoner

实测3:编程测试

提示词:用前端代码制作一个碰撞小游戏:小球在弹跳,一侧放置了方块,小球碰到方块则得分,方块全部消失即通关,界面需要包含开始游戏按钮、游戏说明。所有代码放在一起输出。

o3-mini:界面设计一般,小球弹跳较流畅,得分正常实时变化,但缺乏交互,用户无法通过任何方式对游戏进行操作。

302.AI 基准实验室 | 马斯克号称地表最强的Grok 3系列模型,在实测中到底能否超越R1和o3-mini?

DeepSeek-R1:界面设计在三个模型中最好,小球弹跳正常,得分显示正常,且用户能通过键盘操作游戏,整体表现上明显优于其他两个模型

302.AI 基准实验室 | 马斯克号称地表最强的Grok 3系列模型,在实测中到底能否超越R1和o3-mini?

grok-3-reasoner :界面设计中规中矩,功能实现基本符合预期,得分系统能够实时更新显示,小球的弹跳也还算流畅自然。然而,缺乏足够的互动性,玩家无法对游戏进行操作。

302.AI 基准实验室 | 马斯克号称地表最强的Grok 3系列模型,在实测中到底能否超越R1和o3-mini?

第3轮实测结果:DeepSeek-R1 >grok-3-reasoner=o3-mini


Grok-3实测结果总结:

通过以上三个简单的对比实测,能够初步得出以下结论:

(1)在弱智吧题目测试中的表现排名:DeepSeek-R1 > grok-3-reasoner>o3-mini

智吧题目测试中,grok-3 实际上知道正确答案,但为了增加趣味性,它选择了输出一个错误的答案,这种做法让测试过程变得更加有趣。

(2)在计算推理方面表现排名:o3-mini > DeepSeek-R1> grok-3-reasoner

在进行计算推理任务的过程中,多次尝试提问 grok-3,但遗憾的是始终未能输出最后答案。这表明当前的模型在处理此类任务时仍存在一些不足之处。

(3)在编程方面表现依次排名:DeepSeek-R1 >grok-3-reasoner=o3-mini

在编程任务中,grok-3 界面设计和功能实现相对中规中矩,与 o3-mini 表现相似,与 DeepSeek-R1 相比,在用户交互体验上略显不足

总之,在以上的实测中,grok-3的表现并不太亮眼。尽管官方宣传grok-3的评分很高,但对于大多数普通用户来说,评分只是一个次要参考,最重要的是要选出一个合适、顺手的模型使用。最后,希望今天的实测能够为大家在选择模型时提供有效的参考。


在302.AI上使用grok-3系列模型

302.AI的聊天机器人和API超市均上线了 grok-3系列模型并提供按需付费的服务方式企业和个人用户可按需灵活选用。

1、使用模型对话

依次点击使用机器人→聊天机器人→ 模型→其他模型→grok-3系列→ 创建聊天机器人;

302.AI 基准实验室 | 马斯克号称地表最强的Grok 3系列模型,在实测中到底能否超越R1和o3-mini?

2、使用模型API

企业用户可以通过302.AI的API超市快速、便捷地调用模型,还能够根据特定项目需求进行定制化开发。

相关文档:使用API→API超市→语言大模型→其他模型→查看文档;

API名称如下:

grok-3(常规版本)

grok-3-reasoner (推理版本)

grok-3-deepsearch(搜索功能版)

302.AI 基准实验室 | 马斯克号称地表最强的Grok 3系列模型,在实测中到底能否超越R1和o3-mini?


👉立即注册免费试用302.AI,开启你的AI之旅!👈

为什么选择302.AI?

● 灵活付费:无需月费,按需付费,成本可控
● 丰富功能:从文字、图片到视频,应有尽有,满足多种场景需求
● 开源生态:支持开发者深度定制,打造专属AI应用
● 易用性:界面友好,操作简单,快速上手

302.AI 新品发布 | 图像创意站:GPT-Image-1玩法全解析,轻松生成惊艳作品
All Rights Reserved by 302.AI
Like (0)
302.AI302.AI
Previous 2025 年 2 月 21 日 下午6:51
Next 2025 年 2 月 25 日 下午10:23

相关推荐

  • 302.AI 基准实验室丨编程能力超越Claude Opus 4?DeepSeek V3.1最新版本实测

    DeepSeek 昨晚在 Hugging Face 发布了其最新升级模型 DeepSeek-V3.1-Base。这次更新并没有任何预热宣传,甚至没有放上模型卡。唯一已知的信息是:上下文窗口从原有的64k扩展至128k,从网页、App、小程序都可体验这一模型。从上传的模型版本看,模型尺寸达 685B,支持 BF16、F8_E4M3、F32 等张量类型,平衡模型…

    2025 年 8 月 20 日 基准实验室
    8290
  • 302.AI 赛博月刊丨Vol.8 攻守易形:当开源变成中国主场

    AI 行业大事记 2025 年 8 月 联合出品: Jomy @ 302.AI 南乔 @ ShowMeAI 大聪明 @ 赛博禅心 说明: ①本文讨论了 2025 年7月 AI行业的 103 件大事,涵盖模型、图像、视频、音频、3D、机器人、应用、新闻/融资等多个领域。 ② 本文分类中的「模型」均指代语言模型; ③ 本文分类中的「融资」包含了融资、收购、团队成…

    2025 年 8 月 18 日 赛博月刊
    3450
  • 302.AI 基准实验室丨从视觉语言到GUI交互:智谱GLM-4.5V挑战顶级闭源模型实测

    视觉语言大模型(VLM)作为智能系统的核心基础,正在不断从基础的“识别”向更深层的“推理”跃迁。今年上半年,多模态大模型在视觉领域呈现百花齐放之势,各厂商竞相布局。然而,视觉能力的下一站是“推理”——不满足于让模型读图后回答“这是什么”,更需其调用推理能力理解背后的意图与情境。这种对视觉逻辑和上下文的理解能力,既是实现通用人工智能(AGI)的关键一步,也是构…

    2025 年 8 月 15 日 基准实验室
    4441
  • 302.AI 基准实验室丨GPT-5评测:没能炸场,却精准打脸了竞品:便宜、能打,还不装

    尘埃落定,当地时间 8 月 7 日,OpenAI 终于发布了最新的旗舰 AI 模型 GPT-5。OpenAI 宣称,GPT-5 是其迄今为止最智能、最快、最实用的模型,在编码、数学、写作、健康、视觉感知等领域均展现出卓越的性能。首席执行官 Sam Altman 将 GPT-5 形容为一次“重大升级”,称与其对话“就像在与某个领域的博士级专家交流”。 GPT-…

    2025 年 8 月 8 日 基准实验室
    1.1K1

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Comments(15)

  • vorbelutr ioperbir
    vorbelutr ioperbir 2025 年 6 月 15 日 下午2:53

    I couldn’t resist commenting

  • Lacy Melear
    Lacy Melear 2025 年 6 月 16 日 下午4:24

    I always was concerned in this topic and still am, thankyou for putting up.

  • olxtoto slot
    olxtoto slot 2025 年 8 月 15 日 下午8:37

    I’m not that much of a online reader to be honest but your sites really nice, keep it up! I’ll go ahead and bookmark your website to come back later. All the best

  • pengeluaran togel hk
    pengeluaran togel hk 2025 年 8 月 18 日 上午12:15

    I haven¦t checked in here for some time as I thought it was getting boring, but the last few posts are good quality so I guess I¦ll add you back to my daily bloglist. You deserve it my friend :)

  • slot gacor
    slot gacor 2025 年 8 月 18 日 下午6:07

    I am no longer positive where you’re getting your info, however good topic. I must spend a while studying more or figuring out more. Thanks for fantastic information I was in search of this information for my mission.

  • Prozenith
    Prozenith 2025 年 8 月 20 日 上午7:04

    This is a topic close to my heart cheers, where are your contact details though?

  • macan empire
    macan empire 2025 年 8 月 20 日 上午11:20

    I always was concerned in this topic and stock still am, thankyou for putting up.

  • Dentiste Ville-Émard
    Dentiste Ville-Émard 2025 年 8 月 20 日 下午4:24

    Have you ever considered about adding a little bit more than just your articles? I mean, what you say is valuable and all. However imagine if you added some great images or video clips to give your posts more, “pop”! Your content is excellent but with pics and videos, this site could certainly be one of the best in its field. Very good blog!

  • situs toto togel
    situs toto togel 2025 年 8 月 20 日 下午7:50

    I will immediately grasp your rss as I can not in finding your e-mail subscription hyperlink or e-newsletter service. Do you have any? Kindly allow me know in order that I may just subscribe. Thanks.

  • Dentiste Saint-Jean-sur-Richelieu
    Dentiste Saint-Jean-sur-Richelieu 2025 年 8 月 20 日 下午11:04

    Hello, i feel that i saw you visited my site thus i came to “return the favor”.I am trying to to find things to enhance my website!I suppose its adequate to make use of some of your ideas!!

  • toto togel
    toto togel 2025 年 8 月 21 日 上午10:17

    What’s Happening i am new to this, I stumbled upon this I’ve found It positively helpful and it has aided me out loads. I hope to contribute & assist other users like its helped me. Great job.

  • unblocked games
    unblocked games 2025 年 8 月 21 日 下午11:04

    superb post.Ne’er knew this, thankyou for letting me know.

  • algo trading system
    algo trading system 2025 年 8 月 23 日 上午11:02

    An impressive share, I just given this onto a colleague who was doing a little analysis on this. And he in fact bought me breakfast because I found it for him.. smile. So let me reword that: Thnx for the treat! But yeah Thnkx for spending the time to discuss this, I feel strongly about it and love reading more on this topic. If possible, as you become expertise, would you mind updating your blog with more details? It is highly helpful for me. Big thumb up for this blog post!

  • vehicle tuner
    vehicle tuner 2025 年 8 月 23 日 下午6:58

    I?¦ll right away grab your rss as I can not to find your e-mail subscription link or e-newsletter service. Do you’ve any? Kindly allow me realize so that I may just subscribe. Thanks.

  • slot rajabotak
    slot rajabotak 2025 年 8 月 25 日 下午5:53

    Hi there very nice blog!! Man .. Beautiful .. Superb .. I will bookmark your web site and take the feeds also…I am happy to seek out numerous helpful info right here in the submit, we’d like work out extra strategies on this regard, thank you for sharing. . . . . .