302.AI 基准实验室 | xAI官宣Grok API开启公测,grok-beta表现能否达到预期?

302.AI 基准实验室 | xAI官宣Grok API开启公测,grok-beta表现能否达到预期?

11月6日,备受瞩目的2024年美国总统选举结果终于揭晓,马斯克公开支持的美国共和党总统候选人特朗普获得最终胜利。

作为特朗普的“榜一大哥”马斯克,是人工智能初创公司xAI的始人之一和主要投资者。在11月4日,xAI刚刚官宣Grok API正式开启公测。

根据xAI公司官方发布的文档,可以看到xAI的API目前只有一个模型——“grok-beta”。

302.AI 基准实验室 | xAI官宣Grok API开启公测,grok-beta表现能否达到预期?

从官方文档了解到,grok-beta性能与 Grok 2 相当,但效率、速度和功能有所提高。grok-beta上下文长度为128000 token,能够处理更长的文本输入,理解更复杂的上下文关系。此外,grok-beta还支持函数调用和自定义系统提示词。

302.AI 基准实验室 | xAI官宣Grok API开启公测,grok-beta表现能否达到预期?

官方关于grok-beta的信息描述并不多,其功能或技术特点尚未完全公开。但可以确定的是,grok-beta就是xAI下一代模型的初版本。


在302.AI上使用grok-beta

目前,302.AI已经支持了grok-beta模型,用户可以快速获取上手实测。那接下来,我们一起通过302.AI实测grok-beta模型看下表现如何。

302.AI提供按需付费的服务方式,为用户提供了更高的灵活性,能够精准地控制开支。

实测使用到的工具有:模型竞技场,聊天机器人,具体获取方式如下:

模型竞技场:

1、进入302.AI,点击使用工具——工具超市——工作效率,找到模型竞技场后创建工具“

302.AI 基准实验室 | xAI官宣Grok API开启公测,grok-beta表现能否达到预期?

2、进入模型竞技场后,左侧勾选需要的模型,右侧输入提示词提问即可,通过模型竞技场能够直观对比各个模型的表现:

302.AI 基准实验室 | xAI官宣Grok API开启公测,grok-beta表现能否达到预期?

聊天机器人:

1、点击使用机器人——找到聊天机器人——模型选择grok-beta,选择完成后点击【创建聊天机器人】:

302.AI 基准实验室 | xAI官宣Grok API开启公测,grok-beta表现能否达到预期?

2、进入聊天机器人后选择点击设置,可以打开实时预览功能,

302.AI 基准实验室 | xAI官宣Grok API开启公测,grok-beta表现能否达到预期?


模型实测对比:

1、推理能力

对比模型:gpt-4o、claude-3.5-sonnet-20241022、grok-beta

使用工具:302.AI的模型竞技场

提示词如下:

302.AI 基准实验室 | xAI官宣Grok API开启公测,grok-beta表现能否达到预期?

先来看下gpt-4o回答,虽然答案长,但是最终的答案是错误的:

302.AI 基准实验室 | xAI官宣Grok API开启公测,grok-beta表现能否达到预期?

再来看下claude-3.5-sonnet-20241022的回答,答案正确:

302.AI 基准实验室 | xAI官宣Grok API开启公测,grok-beta表现能否达到预期?

最后来看下grok-beta的回答,也是错误的:

302.AI 基准实验室 | xAI官宣Grok API开启公测,grok-beta表现能否达到预期?

2、理解能力

对比模型:gpt-4o、claude-3.5-sonnet-20241022、grok-beta

使用工具:302.AI的模型竞技场

提示词:我目前有两根香蕉,我昨天吃掉一根,现在还有几根

这个看似简单的数学问题实际上可以测试出模型的文本理解能力,但是根据三个模型的回答来看,只有GPT-4o回答正确,而Claude-3.5-sonnet-20241022和Grok-Beta均落入了语境陷阱里:

302.AI 基准实验室 | xAI官宣Grok API开启公测,grok-beta表现能否达到预期?

3、代码能力

对比模型:grok-beta、claude-3.5-sonnet-20241022

使用工具:302.AI的聊天机器人——Artifacts功能

提示词:使用React和SVG图形创建一个简单的2D生存游戏,玩家需要在10×10网格板上生存尽可能长时间,避开AI对手,收集物品以增加分数。

可以看到结果grok-beta基本能把整个游戏的框架制作出来,可以理解蓝色为AI,走动的红色为玩家,但是缺乏可以增加分数的物品元素:

302.AI 基准实验室 | xAI官宣Grok API开启公测,grok-beta表现能否达到预期?

对比grok-beta的效果,可以看到claude-3.5-sonnet-20241022生成的游戏更加完整,玩家、AI、可以增加分数的物品三个元素都有:

302.AI 基准实验室 | xAI官宣Grok API开启公测,grok-beta表现能否达到预期?


总结

通过实测发现,grok-beta在推理能力方面能力不如Claude 3.5-sonnet-20241022和其他同类产品般理想,而在文本理解能力和代码生成能力上,尽管grok-beta展现出了不错的理解层次,但在应对复杂场景时仍有一定的局限性。不过,grok-beta只是初始版本,目前发现出不足并不是坏事,这能够及时发现问题并通过后续的改进提升相关性能。

目前grok-beta模型为纯文本版本,而xAI透露预计在下周将发布一个可以摄取图像的多模态版本,或许我们期待下一版本的grok-beta看看。当然,302.AI也会持续给用户更新相关资讯,为大家带来更多模型性能和功能的实测!


👉立即注册免费试用302.AI,开启你的AI之旅!👈

为什么选择302.AI?

● 灵活付费:无需月费,按需付费,成本可控
● 丰富功能:从文字、图片到视频,应有尽有,满足多种场景需求
● 开源生态:支持开发者深度定制,打造专属AI应用
● 易用性:界面友好,操作简单,快速上手

302.AI 基准实验室 | xAI官宣Grok API开启公测,grok-beta表现能否达到预期?
All Rights Reserved by 302.AI
Like (0)
302.AI302.AI
Previous 2024 年 11 月 6 日 下午7:06
Next 2024 年 11 月 9 日 上午10:30

相关推荐

  • Claude Sonnet 4.5 对阵 GLM-4.6:中外大模型编程巅峰对决,胜负已分? 丨302.AI 基准实验室

    今年十一国庆可谓是大模型界尤为热闹的一个行业节点。就在假期前夕的 9 月 30 日,Anthropic 与智谱先后发布 Claude Sonnet 4.5 与 GLM-4.6。而二者的升级方向都十分默契地指向同一关键战场——编程能力。 前有 Anthropic 高调宣称 Claude Sonnet 4.5 是迄今为止最强大的编程模型,后有 GLM-4.6 在…

    19小时前 基准实验室
    820
  • 体验升级而非颠覆,API成本直降75%:DeepSeek-V3.2-Exp评测丨302.AI基准实验室

    赶在各大 AI 模型“神仙打架”的国庆热潮之前,深度求索延续了节前卡点更新的惯例,于 9 月 29 日正式上线了最新的实验性模型——DeepSeek-V3.2-Exp.该版本是针对企业场景优化的实验性模型,参数规模约为 7B-16B,延续了“小参数,高性能”的技术路线,重点解决了前代版本在专业领域精度不足与长文本推理效率较低的问题。 从官方发布的基准测试结果…

    3天前 基准实验室
    6190
  • 302.AI 赛博月刊丨Vol.9 GPT-5,输给了香蕉

    AI 行业大事记 2025 年 8 月 联合出品: Jomy @ 302.AI 南乔 @ ShowMeAI 大聪明 @ 赛博禅心 说明: ①本文讨论了 2025 年8月 AI行业的大事,涵盖模型、图像、视频、音频、3D、机器人、应用、新闻/融资等多个领域。 ② 本文分类中的「模型」均指代语言模型; ③ 本文分类中的「融资」包含了融资、收购、团队成员吸收等多种…

    2025 年 9 月 24 日 赛博月刊
    4260
  • 追平 DeepSeek-V3?美团 LongCat-Flash-Chat 实测:快,但不够“聪明”丨302.AI 基准实验室

    美团于 8 月底正式开源了其首个 560B 参数的 MoE 大模型 LongCat-Flash-Chat,并同步上线了官网。官方资料称,作为一款非思考型基础模型,LongCat-Flash-Chat 仅激活少量参数,性能就可比肩当前主流领先模型,尤其在智能体任务中表现优异。其面向推理效率的创新设计带来了极快的推理速度,更擅长处理长耗时的复杂智能体应用。 Lo…

    2025 年 9 月 19 日 基准实验室
    4310

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Comments(1)

  • Yolande Etheridge
    Yolande Etheridge 2025 年 7 月 28 日 下午6:29

    My partner and I absolutely love your blog and find most of your post’s to be just what I’m looking for. Do you offer guest writers to write content available for you? I wouldn’t mind publishing a post or elaborating on a number of the subjects you write concerning here. Again, awesome site!