302.AI 基准实验室 | xAI官宣Grok API开启公测，grok-beta表现能否达到预期？ -

11月6日，备受瞩目的2024年美国总统选举结果终于揭晓，马斯克公开支持的美国共和党总统候选人特朗普获得最终胜利。

作为特朗普的“榜一大哥”马斯克，是人工智能初创公司xAI的始人之一和主要投资者。在11月4日，xAI刚刚官宣Grok API正式开启公测。

根据xAI公司官方发布的文档，可以看到xAI的API目前只有一个模型——“grok-beta”。

从官方文档了解到，grok-beta性能与 Grok 2 相当，但效率、速度和功能有所提高。grok-beta上下文长度为128000 token，能够处理更长的文本输入，理解更复杂的上下文关系。此外，grok-beta还支持函数调用和自定义系统提示词。

官方关于grok-beta的信息描述并不多，其功能或技术特点尚未完全公开。但可以确定的是，grok-beta就是xAI下一代模型的初版本。

在302.AI上使用grok-beta

目前，302.AI已经支持了grok-beta模型，用户可以快速获取上手实测。那接下来，我们一起通过302.AI实测grok-beta模型看下表现如何。

302.AI提供按需付费的服务方式，为用户提供了更高的灵活性，能够精准地控制开支。

实测使用到的工具有：模型竞技场，聊天机器人，具体获取方式如下：

模型竞技场：

1、进入302.AI，点击使用工具——工具超市——工作效率，找到模型竞技场后创建工具“

2、进入模型竞技场后，左侧勾选需要的模型，右侧输入提示词提问即可，通过模型竞技场能够直观对比各个模型的表现：

聊天机器人：

1、点击使用机器人——找到聊天机器人——模型选择grok-beta，选择完成后点击【创建聊天机器人】：

2、进入聊天机器人后选择点击设置，可以打开实时预览功能，

模型实测对比：

1、推理能力

对比模型：gpt-4o、claude-3.5-sonnet-20241022、grok-beta

使用工具：302.AI的模型竞技场

提示词如下：

先来看下gpt-4o回答，虽然答案长，但是最终的答案是错误的：

再来看下claude-3.5-sonnet-20241022的回答，答案正确：

最后来看下grok-beta的回答，也是错误的：

2、理解能力

对比模型：gpt-4o、claude-3.5-sonnet-20241022、grok-beta

使用工具：302.AI的模型竞技场

提示词：我目前有两根香蕉，我昨天吃掉一根，现在还有几根

这个看似简单的数学问题实际上可以测试出模型的文本理解能力，但是根据三个模型的回答来看，只有GPT-4o回答正确，而Claude-3.5-sonnet-20241022和Grok-Beta均落入了语境陷阱里：

3、代码能力

对比模型：grok-beta、claude-3.5-sonnet-20241022

使用工具：302.AI的聊天机器人——Artifacts功能

提示词：使用React和SVG图形创建一个简单的2D生存游戏，玩家需要在10×10网格板上生存尽可能长时间，避开AI对手，收集物品以增加分数。

可以看到结果grok-beta基本能把整个游戏的框架制作出来，可以理解蓝色为AI，走动的红色为玩家，但是缺乏可以增加分数的物品元素：

对比grok-beta的效果，可以看到claude-3.5-sonnet-20241022生成的游戏更加完整，玩家、AI、可以增加分数的物品三个元素都有：

总结

通过实测发现，grok-beta在推理能力方面能力不如Claude 3.5-sonnet-20241022和其他同类产品般理想，而在文本理解能力和代码生成能力上，尽管grok-beta展现出了不错的理解层次，但在应对复杂场景时仍有一定的局限性。不过，grok-beta只是初始版本，目前发现出不足并不是坏事，这能够及时发现问题并通过后续的改进提升相关性能。

目前grok-beta模型为纯文本版本，而xAI透露预计在下周将发布一个可以摄取图像的多模态版本，或许我们期待下一版本的grok-beta看看。当然，302.AI也会持续给用户更新相关资讯，为大家带来更多模型性能和功能的实测！

👉立即注册免费试用302.AI，开启你的AI之旅！👈

为什么选择302.AI？

● 灵活付费：无需月费，按需付费，成本可控
● 丰富功能：从文字、图片到视频，应有尽有，满足多种场景需求
● 开源生态：支持开发者深度定制，打造专属AI应用
● 易用性：界面友好，操作简单，快速上手

发表回复

Yolande Etheridge 2025 年 7 月 28 日下午6:29
My partner and I absolutely love your blog and find most of your post’s to be just what I’m looking for. Do you offer guest writers to write content available for you? I wouldn’t mind publishing a post or elaborating on a number of the subjects you write concerning here. Again, awesome site!
回复

302.AI 基准实验室 | xAI官宣Grok API开启公测，grok-beta表现能否达到预期？

在302.AI上使用grok-beta

模型竞技场：

聊天机器人：

模型实测对比：

1、推理能力

2、理解能力

3、代码能力

总结

👉立即注册免费试用302.AI，开启你的AI之旅！👈

相关推荐

懂交付，更懂质感：MiniMax M2.1 Vs. GLM 4.7 国产开源顶流对决丨302.AI 基准实验室

302.AI客户端：零配置，支持任意模型，最适合新手的Vibe Coding工具 | 新品发布

智谱压轴力作 GLM-4.7 实测：从基准刷榜到任务交付，稳坐开源第一 丨302.AI 基准实验室

谷歌的“普惠核弹”：Gemini 3 Flash 实测——更快、更强、更省可以兼得丨302.AI 基准实验室

发表回复

评论（1）

智谱压轴力作 GLM-4.7 实测：从基准刷榜到任务交付，稳坐开源第一丨302.AI 基准实验室