资讯丨xAI官宣Grok API开启公测,唯一模型grok-beta表现能否达到预期?

11月6日,备受瞩目的2024年美国总统选举结果终于揭晓,马斯克公开支持的美国共和党总统候选人特朗普获得最终胜利。

作为特朗普的“榜一大哥”马斯克,是人工智能初创公司xAI的始人之一和主要投资者。在11月4日,xAI刚刚官宣Grok API正式开启公测。

根据xAI公司官方发布的文档,可以看到xAI的API目前只有一个模型——“grok-beta”。

资讯丨xAI官宣Grok API开启公测,唯一模型grok-beta表现能否达到预期?

从官方文档了解到,grok-beta性能与 Grok 2 相当,但效率、速度和功能有所提高。grok-beta上下文长度为128000 token,能够处理更长的文本输入,理解更复杂的上下文关系。此外,grok-beta还支持函数调用和自定义系统提示词。

资讯丨xAI官宣Grok API开启公测,唯一模型grok-beta表现能否达到预期?

官方关于grok-beta的信息描述并不多,其功能或技术特点尚未完全公开。但可以确定的是,grok-beta就是xAI下一代模型的初版本。

在302.AI上使用

目前,302.AI已经支持了grok-beta模型,用户可以快速获取上手实测。那接下来,我们一起通过302.AI实测grok-beta模型看下表现如何。

302.AI提供按需付费的服务方式,为用户提供了更高的灵活性,能够精准地控制开支。

实测使用到的工具有:模型竞技场,聊天机器人,具体获取方式如下:

模型竞技场:

1、进入302.AI,点击使用工具——工具超市——工作效率,找到模型竞技场后创建工具“

资讯丨xAI官宣Grok API开启公测,唯一模型grok-beta表现能否达到预期?

2、进入模型竞技场后,左侧勾选需要的模型,右侧输入提示词提问即可,通过模型竞技场能够直观对比各个模型的表现:

资讯丨xAI官宣Grok API开启公测,唯一模型grok-beta表现能否达到预期?

聊天机器人:

1、点击使用机器人——找到聊天机器人——模型选择grok-beta,选择完成后点击【创建聊天机器人】:

资讯丨xAI官宣Grok API开启公测,唯一模型grok-beta表现能否达到预期?

2、进入聊天机器人后选择点击设置,可以打开实时预览功能,

资讯丨xAI官宣Grok API开启公测,唯一模型grok-beta表现能否达到预期?

模型实测对比:

1、推理能力

对比模型:gpt-4o、claude-3.5-sonnet-20241022、grok-beta

使用工具:302.AI的模型竞技场

提示词如下:

资讯丨xAI官宣Grok API开启公测,唯一模型grok-beta表现能否达到预期?

先来看下gpt-4o回答,虽然答案长,但是最终的答案是错误的:

资讯丨xAI官宣Grok API开启公测,唯一模型grok-beta表现能否达到预期?

再来看下claude-3.5-sonnet-20241022的回答,答案正确:

资讯丨xAI官宣Grok API开启公测,唯一模型grok-beta表现能否达到预期?

最后来看下grok-beta的回答,也是错误的:

资讯丨xAI官宣Grok API开启公测,唯一模型grok-beta表现能否达到预期?

2、理解能力

对比模型:gpt-4o、claude-3.5-sonnet-20241022、grok-beta

使用工具:302.AI的模型竞技场

提示词:我目前有两根香蕉,我昨天吃掉一根,现在还有几根

这个看似简单的数学问题实际上可以测试出模型的文本理解能力,但是根据三个模型的回答来看,只有GPT-4o回答正确,而Claude-3.5-sonnet-20241022和Grok-Beta均落入了语境陷阱里:

资讯丨xAI官宣Grok API开启公测,唯一模型grok-beta表现能否达到预期?

3、代码能力

对比模型:grok-beta、claude-3.5-sonnet-20241022

使用工具:302.AI的聊天机器人——Artifacts功能

提示词:使用React和SVG图形创建一个简单的2D生存游戏,玩家需要在10×10网格板上生存尽可能长时间,避开AI对手,收集物品以增加分数。

可以看到结果grok-beta基本能把整个游戏的框架制作出来,可以理解蓝色为AI,走动的红色为玩家,但是缺乏可以增加分数的物品元素:

资讯丨xAI官宣Grok API开启公测,唯一模型grok-beta表现能否达到预期?

对比grok-beta的效果,可以看到claude-3.5-sonnet-20241022生成的游戏更加完整,玩家、AI、可以增加分数的物品三个元素都有:

资讯丨xAI官宣Grok API开启公测,唯一模型grok-beta表现能否达到预期?

总结

通过实测发现,grok-beta在推理能力方面能力不如Claude 3.5-sonnet-20241022和其他同类产品般理想,而在文本理解能力和代码生成能力上,尽管grok-beta展现出了不错的理解层次,但在应对复杂场景时仍有一定的局限性。不过,grok-beta只是初始版本,目前发现出不足并不是坏事,这能够及时发现问题并通过后续的改进提升相关性能。

目前grok-beta模型为纯文本版本,而xAI透露预计在下周将发布一个可以摄取图像的多模态版本,或许我们期待下一版本的grok-beta看看。当然,302.AI也会持续给用户更新相关资讯,为大家带来更多模型性能和功能的实测!

Like (0)
302.AI302.AI
Previous 2024 年 11 月 6 日 下午7:06
Next 2024 年 11 月 9 日 上午10:30

相关推荐

  • 资讯丨 Qwen团队推出的实验模型QwQ-32B-Preview能媲美o1?来实测看看表现

    11月28日,由Qwen团队推出了实验性研究模型QwQ-32B-Preview,这一模型专注于增强AI推理能力,同时在数学和编程方面表现也十分出色。 阿里云通义千问团队研究发现,当模型有足够的时间思考、质疑和反思时,其对数学和编程的理解就会深化,基于此QwQ取得了解决复杂问题的突破性进展,包括: 1、在考察科学问题解决能力的GPQA评测集上,QwQ获得65.…

    2024 年 12 月 2 日
    43900
  • 资讯丨实测对比Luma Labs新图像模型,Luma Photon能否胜出?

    近日,Luma Labs宣布推出两款全新图像生成模型:Luma Photon和Photon Flash,这两个图像生成模型是建立在新的突破性架构之上的,可提供超高品质的生成质量,不仅生成速度比市场上其他模型快,而且价格成本更低,为用户带来了新的视觉生成体验。 据官方介绍,在大规模双盲评估中,Luma Photon 在质量、创造力和理解力方面优于市场上的所有模…

    2024 年 12 月 4 日
    21500
  • 资讯丨谷歌突袭发布新模型Gemini 2.0 Flash实验版,原来这才是性价比之王?!

    12月12日的凌晨,当OpenAI的“12天连续发布”活动如火如荼地进行到第五天时,谷歌在毫无预兆的情况下,带来了其新系列大模型:Gemini 2.0,而Gemini 2.0 Flash Exp,则是Gemini 2.0 系列模型中的第一个模型。 虽然没有找到准确的参数,但据了解,Flash是Gemini模型序列中,除了专为端侧开发的Nano模型外,参数最小…

    2024 年 12 月 12 日
    26500
  • 资讯丨带你在302.AI玩转Runway新功能Expand Video

    11月底,Runway推出了新功能——Expand Video。这项功能允许用户通过简单的文本提示,在原始视频画面基础上生成额外的视觉内容,并灵活调整视频比例。这和早前很火的“图片扩图”功能非常相似,只不过Expand Video扩的不是静态的图片而是视频。 Expand Video功能的主要特点包括: 1、无缝扩展框架,同时保持视觉一致性,并以…

    2024 年 12 月 16 日
    21100
  • AI老照片修复功能,不止修复了画面也修复了记忆

    随着AI技术的发展,不断突破着传统界限。许多曾经存在想象中的事情变成了现实,这或许就是科技的意义。 最近看到了一个非常令人感动的文章“他用Luma和Suno复活了逝去11年的爱人,给我看破防了。” (参考原文:https://mp.weixin.qq.com/s/DIkPAA-P9P1AWveAFeNtqA) 原文是这样的,作者在X上看到了一个名为Koya …

    2024 年 7 月 17 日
    46400

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注