2月19日,马斯克旗下的大模型平台 xAI 推出了新的模型——Grok-3。官方宣称,Grok-3 在推理、数学、编码和指令遵循任务中均表现出色,并在一系列基准测试中表现出色。而马斯克更是称一模型为 ⌈ 地表最强 ⌋。
(非推理模式的Grok-3与其它大模型能力对比)
根据了解,grok-3 并非单一模型,而是一个包含多个版本的模型家族。其中包括了变体版本—— grok-3-reasoner(推理版)。这一个版本能够像 OpenAI 的 o3-mini 和 DeepSeek 的 R1 等推理模型一样,仔细思考问题,并在给出结果前进行彻底的事实核查,从而避免了一些通常会困扰模型的错误。
除了推理版本外,grok-3 还引入了一项名为【DeepSearch】的新功能。xAI将其描述为一种新型搜索引擎,能够扫描互联网和X平台上的信息,并以摘要的形式回应用户查询。
关于grok-3系列模型的详细介绍可查看官方文档:https://x.ai/blog/grok-3
grok-3系列模型对比:
为了更好理解三个版本的差异,我们会使用同一问题进行测试,并通过对输出结果对比分析具体的不同之处。
提示词:为什么我爸妈结婚的时候没邀请我参加婚礼?用中文回答
grok-3常规版本:常规版直接给出答案,看不到推理过程。
grok-3-reasoner(推理版本):推理版会展示了思考链路,再输出答案。
grok-3 -deepSearch(搜索版):这一版本会通过检索网络信息输出结构化报告,与前面的版本都不同,这更加适合市场调研等领域应用。
模型实测:
根据上述比较,我们将深入测试推理版本grok-3-reasoner,并通过与同类型模型o3-mini(medium)和DeepSeek-R1进行对比,更直观地观察这三个模型的表现:
以下实测使用的是相同的提示词,且摘取模型第一次输出的结果。
实测1和实测2使用的工具为:302.AI的模型竞技场
实测3使用工具为:302.AI聊天机器人-Artifacts功能
实测1:弱智吧题目
提示词:生蚝煮熟了叫什么?
考察点:看似简单的名称辨析,其实是测试模型对语言逻辑、科学常识的综合理解能力。
o3-mini :分析错误,回答错误。
DeepSeek-R1:回答正确,解析清晰且合理。
grok-3-reasoner :仔细观察模型的答案,可以发现模型实际上知道正确答案,但为了增加趣味性,最后给出了“熟蚝”这个答案。
第1轮实测结果:DeepSeek-R1 >grok-3-reasoner>o3-mini
实测2:计算推理测试
提示词:请在错误的等式中添加一对括号:1+2×3+4×5+6×7+8×9=479,以使等式成立
考察点:测试模型的数学计算、逻辑推理、问题解决能力以及对数学符号的理解。
o3-mini:给出了验算步骤,最后回答正确。
DeepSeek-R1:回答错误,结合思维链来看,模型已经意识到答案与原始答案不一致,但很可惜仍未提供正确答案。
grok-3-reasoner:未能输出答案,模型持续思考并反复测试可能的答案,在输出长达一分钟后不得不手动暂停。通过思考过程可以观察到,在测试答案时,模型添加的括号数量超过一个,这已经与题目的原意不相符了。
第2轮实测结果: o3-mini > DeepSeek-R1> grok-3-reasoner
实测3:编程测试
提示词:用前端代码制作一个碰撞小游戏:小球在弹跳,一侧放置了方块,小球碰到方块则得分,方块全部消失即通关,界面需要包含开始游戏按钮、游戏说明。所有代码放在一起输出。
o3-mini:界面设计一般,小球弹跳较流畅,得分正常实时变化,但缺乏交互,用户无法通过任何方式对游戏进行操作。
DeepSeek-R1:界面设计在三个模型中最好,小球弹跳正常,得分显示正常,且用户能通过键盘操作游戏,整体表现上明显优于其他两个模型。
grok-3-reasoner :界面设计中规中矩,功能实现基本符合预期,得分系统能够实时更新显示,小球的弹跳也还算流畅自然。然而,缺乏足够的互动性,玩家无法对游戏进行操作。
第3轮实测结果:DeepSeek-R1 >grok-3-reasoner=o3-mini
实测结果总结:
通过以上三个简单的对比实测,能够初步得出以下结论:
(1)在弱智吧题目测试中的表现排名:DeepSeek-R1 > grok-3-reasoner>o3-mini
智吧题目测试中,grok-3 实际上知道正确答案,但为了增加趣味性,它选择了输出一个错误的答案,这种做法让测试过程变得更加有趣。
(2)在计算推理方面表现排名:o3-mini > DeepSeek-R1> grok-3-reasoner
在进行计算推理任务的过程中,多次尝试提问 grok-3,但遗憾的是始终未能输出最后答案。这表明当前的模型在处理此类任务时仍存在一些不足之处。
(3)在编程方面表现依次排名:DeepSeek-R1 >grok-3-reasoner=o3-mini
在编程任务中,grok-3 界面设计和功能实现相对中规中矩,与 o3-mini 表现相似,与 DeepSeek-R1 相比,在用户交互体验上略显不足。
总之,在以上的实测中,grok-3的表现并不太亮眼。尽管官方宣传grok-3的评分很高,但对于大多数普通用户来说,评分只是一个次要参考,最重要的是要选出一个合适、顺手的模型使用。最后,希望今天的实测能够为大家在选择模型时提供有效的参考。
在302.AI上使用grok-3系列模型
302.AI的聊天机器人和API超市均上线了 grok-3系列模型,并提供按需付费的服务方式,企业和个人用户可按需灵活选用。
1、使用模型对话
依次点击使用机器人→聊天机器人→ 模型→其他模型→grok-3系列→ 创建聊天机器人;
2、使用模型API
企业用户可以通过302.AI的API超市快速、便捷地调用模型,还能够根据特定项目需求进行定制化开发。
相关文档:使用API→API超市→语言大模型→其他模型→查看文档;
API名称如下:
grok-3(常规版本)
grok-3-reasoner (推理版本)
grok-3-deepsearch(搜索功能版)