302.AI 基准实验室 | 马斯克号称地表最强的Grok 3系列模型，在实测中到底能否超越R1和o3-mini？

302.AI • 2025 年 2 月 24 日下午10:33 • 基准实验室 • 1374 意见

2月19日，马斯克旗下的大模型平台 xAI 推出了新的模型——Grok-3。官方宣称，Grok-3 在推理、数学、编码和指令遵循任务中均表现出色，并在一系列基准测试中表现出色。而马斯克更是称一模型为 ⌈ 地表最强 ⌋。

（非推理模式的Grok-3与其它大模型能力对比）

根据了解，grok-3 并非单一模型，而是一个包含多个版本的模型家族。其中包括了变体版本—— grok-3-reasoner（推理版）。这一个版本能够像 OpenAI 的 o3-mini 和 DeepSeek 的 R1 等推理模型一样，仔细思考问题，并在给出结果前进行彻底的事实核查，从而避免了一些通常会困扰模型的错误。

除了推理版本外，grok-3 还引入了一项名为【DeepSearch】的新功能。xAI将其描述为一种新型搜索引擎，能够扫描互联网和X平台上的信息，并以摘要的形式回应用户查询。

关于grok-3系列模型的详细介绍可查看官方文档：https://x.ai/blog/grok-3

Grok-3系列模型对比

为了更好理解三个版本的差异，我们会使用同一问题进行测试，并通过对输出结果对比分析具体的不同之处。

提示词：为什么我爸妈结婚的时候没邀请我参加婚礼？用中文回答

grok-3常规版本：常规版直接给出答案，看不到推理过程。

grok-3-reasoner（推理版本）：推理版会展示了思考链路，再输出答案。

grok-3 -deepSearch（搜索版）：这一版本会通过检索网络信息输出结构化报告，与前面的版本都不同，这更加适合市场调研等领域应用。

grok-3系列模型模型实测：

根据上述比较，我们将深入测试推理版本grok-3-reasoner，并通过与同类型模型o3-mini（medium）和DeepSeek-R1进行对比，更直观地观察这三个模型的表现：

以下实测使用的是相同的提示词，且摘取模型第一次输出的结果。

实测1和实测2使用的工具为：302.AI的模型竞技场

实测3使用工具为：302.AI聊天机器人-Artifacts功能

实测1：弱智吧题目

提示词：生蚝煮熟了叫什么？

考察点：看似简单的名称辨析，其实是测试模型对语言逻辑、科学常识的综合理解能力。

o3-mini ：分析错误，回答错误。

DeepSeek-R1：回答正确，解析清晰且合理。

grok-3-reasoner ：仔细观察模型的答案，可以发现模型实际上知道正确答案，但为了增加趣味性，最后给出了“熟蚝”这个答案。

第1轮实测结果：DeepSeek-R1 >grok-3-reasoner>o3-mini

实测2：计算推理测试

提示词：请在错误的等式中添加一对括号:1+2×3+4×5+6×7+8×9=479，以使等式成立

考察点：测试模型的数学计算、逻辑推理、问题解决能力以及对数学符号的理解。

o3-mini：给出了验算步骤，最后回答正确。

DeepSeek-R1：回答错误，结合思维链来看，模型已经意识到答案与原始答案不一致，但很可惜仍未提供正确答案。

grok-3-reasoner：未能输出答案，模型持续思考并反复测试可能的答案，在输出长达一分钟后不得不手动暂停。通过思考过程可以观察到，在测试答案时，模型添加的括号数量超过一个，这已经与题目的原意不相符了。

第2轮实测结果： o3-mini > DeepSeek-R1> grok-3-reasoner

实测3：编程测试

提示词：用前端代码制作一个碰撞小游戏：小球在弹跳，一侧放置了方块，小球碰到方块则得分，方块全部消失即通关，界面需要包含开始游戏按钮、游戏说明。所有代码放在一起输出。

o3-mini：界面设计一般，小球弹跳较流畅，得分正常实时变化，但缺乏交互，用户无法通过任何方式对游戏进行操作。

DeepSeek-R1：界面设计在三个模型中最好，小球弹跳正常，得分显示正常，且用户能通过键盘操作游戏，整体表现上明显优于其他两个模型。

grok-3-reasoner ：界面设计中规中矩，功能实现基本符合预期，得分系统能够实时更新显示，小球的弹跳也还算流畅自然。然而，缺乏足够的互动性，玩家无法对游戏进行操作。

第3轮实测结果：DeepSeek-R1 >grok-3-reasoner=o3-mini

Grok-3实测结果总结：

通过以上三个简单的对比实测，能够初步得出以下结论：

（1）在弱智吧题目测试中的表现排名：DeepSeek-R1 > grok-3-reasoner>o3-mini

智吧题目测试中，grok-3 实际上知道正确答案，但为了增加趣味性，它选择了输出一个错误的答案，这种做法让测试过程变得更加有趣。

（2）在计算推理方面表现排名：o3-mini > DeepSeek-R1> grok-3-reasoner

在进行计算推理任务的过程中，多次尝试提问 grok-3，但遗憾的是始终未能输出最后答案。这表明当前的模型在处理此类任务时仍存在一些不足之处。

（3）在编程方面表现依次排名：DeepSeek-R1 >grok-3-reasoner=o3-mini

在编程任务中，grok-3 界面设计和功能实现相对中规中矩，与 o3-mini 表现相似，与 DeepSeek-R1 相比，在用户交互体验上略显不足。

总之，在以上的实测中，grok-3的表现并不太亮眼。尽管官方宣传grok-3的评分很高，但对于大多数普通用户来说，评分只是一个次要参考，最重要的是要选出一个合适、顺手的模型使用。最后，希望今天的实测能够为大家在选择模型时提供有效的参考。

在302.AI上使用grok-3系列模型
302.AI的聊天机器人和API超市均上线了 grok-3系列模型，并提供按需付费的服务方式，企业和个人用户可按需灵活选用。
1、使用模型对话
依次点击使用机器人→聊天机器人→ 模型→其他模型→grok-3系列→ 创建聊天机器人；
2、使用模型API
企业用户可以通过302.AI的API超市快速、便捷地调用模型，还能够根据特定项目需求进行定制化开发。
相关文档：使用API→API超市→语言大模型→其他模型→查看文档；
API名称如下：
grok-3（常规版本）
grok-3-reasoner （推理版本）
grok-3-deepsearch（搜索功能版）

👉立即注册免费试用302.AI，开启你的AI之旅！👈

为什么选择302.AI？

● 灵活付费：无需月费，按需付费，成本可控
● 丰富功能：从文字、图片到视频，应有尽有，满足多种场景需求
● 开源生态：支持开发者深度定制，打造专属AI应用
● 易用性：界面友好，操作简单，快速上手

302.AI 新品发布 | 图像创意站：GPT-Image-1玩法全解析，轻松生成惊艳作品

Deepseek Grok 3 LLM302.AI 基准实验室 | 模型测评

喜欢 (0)

302.AI

302.AI 基准实验室 | 通义万相2.1模型实测绝了！汉字竟在视频里“活”了

上一页 2025 年 2 月 21 日下午6:51

302.AI 基准实验室 | 实测Anthropic首款混合推理模型——Claude 3.7 Sonnet，程序员的外挂来了？！

下一页 2025 年 2 月 25 日下午10:23

懂交付，更懂质感：MiniMax M2.1 Vs. GLM 4.7 国产开源顶流对决丨302.AI 基准实验室

12 月 23 日，MiniMax 正式对外发布其新一代旗舰级 Coding & Agent 模型 MiniMax M2.1。与许多大模型发布会执着于罗列通用知识得分不同，M2.1 这次把所有的聚光灯都打在了“编程”与“智能体”这两个关键词上，官方定位直言不讳：为真实世界的复杂任务而生。显然，这不仅仅是一次常规的版本迭代，更像是 MiniMax 在…
2025 年 12 月 31 日 • 基准实验室
1.7K01
302.AI客户端：零配置，支持任意模型，最适合新手的Vibe Coding工具 | 新品发布

在AI行业飞速发展的2025 年，最炙手可热的关键词之一绝对少不了 “Vibe Coding” 。所谓 Vibe Coding，即“氛围感编程”——你只需使用自然语言描述需求，AI 便会为你生成代码。这一变革彻底粉碎了编程的技术高墙，让每一位普通人都能跳过晦涩的编程语言，亲手打造专属应用。为Vibe Coding打造的工具也层出不穷，在 Cursor、L…
2025 年 12 月 26 日 • 新品发布
1.1K00
智谱压轴力作 GLM-4.7 实测：从基准刷榜到任务交付，稳坐开源第一丨302.AI 基准实验室

随着2025年接近尾声，大模型领域的竞争未见放缓，反而迎来了一波重磅更新。今日凌晨，智谱突袭发布了其新一代旗舰模型——GLM-4.7，以一系列 SOTA 表现，为今年的开源战场献上了堪称“压轴”的力作。此次更新将核心焦点投向了编码能力、长程任务规划与智能体协作，不仅在多项国际主流基准测试中横扫开源榜单，更以任务交付为核心，致力于成为开发者手中真正高效、可靠…
2025 年 12 月 23 日 • 基准实验室
3.5K00
谷歌的“普惠核弹”：Gemini 3 Flash 实测——更快、更强、更省可以兼得丨302.AI 基准实验室

12 月 18 日深夜，谷歌闪击式抛出一枚“重磅炸弹”——Gemini 3 Flash 发布。这次发布没有过多的预热，但其展现出的性能与成本组合，足以让整个 AI 领域重新审视现有的竞争格局。简而言之，Gemini 3 Flash 做了一件看似矛盾的事：它以一个“轻量版”模型的定位和极低的成本，提供了接近甚至部分超越旗舰模型的顶尖性能。性能：打破“轻量即…
2025 年 12 月 19 日 • 基准实验室
1.6K00

发表回复

vorbelutr ioperbir 2025 年 6 月 15 日下午2:53
I couldn’t resist commenting
回复
Lacy Melear 2025 年 6 月 16 日下午4:24
I always was concerned in this topic and still am, thankyou for putting up.
回复
olxtoto slot 2025 年 8 月 15 日下午8:37
I’m not that much of a online reader to be honest but your sites really nice, keep it up! I’ll go ahead and bookmark your website to come back later. All the best
回复
pengeluaran togel hk 2025 年 8 月 18 日上午12:15
I haven¦t checked in here for some time as I thought it was getting boring, but the last few posts are good quality so I guess I¦ll add you back to my daily bloglist. You deserve it my friend :)
回复
slot gacor 2025 年 8 月 18 日下午6:07
I am no longer positive where you’re getting your info, however good topic. I must spend a while studying more or figuring out more. Thanks for fantastic information I was in search of this information for my mission.
回复
Prozenith 2025 年 8 月 20 日上午7:04
This is a topic close to my heart cheers, where are your contact details though?
回复
macan empire 2025 年 8 月 20 日上午11:20
I always was concerned in this topic and stock still am, thankyou for putting up.
回复
Dentiste Ville-Émard 2025 年 8 月 20 日下午4:24
Have you ever considered about adding a little bit more than just your articles? I mean, what you say is valuable and all. However imagine if you added some great images or video clips to give your posts more, “pop”! Your content is excellent but with pics and videos, this site could certainly be one of the best in its field. Very good blog!
回复
situs toto togel 2025 年 8 月 20 日下午7:50
I will immediately grasp your rss as I can not in finding your e-mail subscription hyperlink or e-newsletter service. Do you have any? Kindly allow me know in order that I may just subscribe. Thanks.
回复
Dentiste Saint-Jean-sur-Richelieu 2025 年 8 月 20 日下午11:04
Hello, i feel that i saw you visited my site thus i came to “return the favor”.I am trying to to find things to enhance my website!I suppose its adequate to make use of some of your ideas!!
回复
toto togel 2025 年 8 月 21 日上午10:17
What’s Happening i am new to this, I stumbled upon this I’ve found It positively helpful and it has aided me out loads. I hope to contribute & assist other users like its helped me. Great job.
回复
unblocked games 2025 年 8 月 21 日下午11:04
superb post.Ne’er knew this, thankyou for letting me know.
回复
algo trading system 2025 年 8 月 23 日上午11:02
An impressive share, I just given this onto a colleague who was doing a little analysis on this. And he in fact bought me breakfast because I found it for him.. smile. So let me reword that: Thnx for the treat! But yeah Thnkx for spending the time to discuss this, I feel strongly about it and love reading more on this topic. If possible, as you become expertise, would you mind updating your blog with more details? It is highly helpful for me. Big thumb up for this blog post!
回复
vehicle tuner 2025 年 8 月 23 日下午6:58
I?¦ll right away grab your rss as I can not to find your e-mail subscription link or e-newsletter service. Do you’ve any? Kindly allow me realize so that I may just subscribe. Thanks.
回复
slot rajabotak 2025 年 8 月 25 日下午5:53
Hi there very nice blog!! Man .. Beautiful .. Superb .. I will bookmark your web site and take the feeds also…I am happy to seek out numerous helpful info right here in the submit, we’d like work out extra strategies on this regard, thank you for sharing. . . . . .
回复