资讯丨xAI API列表新增视觉模型Grok-vision-beta,实测对比后竟有意外发现?!

11月初,xAI官宣Grok API开启公测后,我们便对当时列表中唯一的模型grok-beta进行了实测,尽管grok-beta在实测中发现了了一些不足,但其整体表现还是不错的。最近,xAI的API迎来了更新,其API列表中新增了一个名为grok-vision-beta的模型。

资讯丨xAI API列表新增视觉模型Grok-vision-beta,实测对比后竟有意外发现?!

根据xAI官方介绍,grok-vision-beta模型是其最新的图像理解模型,可以处理各种各样的视觉信息,包括文档、图表、截图和照片。不知这一模型的表现如何?下面我们将通过302.AI实测看看。

> 在302.AI上使用

302.AI目前已经提供了grok-vision-beta模型,如果想要快速体验模型可以通过302.AI的聊天机器人获得;如果想要更方便快捷接入集成这一模型的API,可以使用302.AI的API超市,以下分别是302.AI聊天机器人和API超市获取grok-vision-beta模型的步骤:

【聊天机器人】

进入302.AI,在左侧菜单栏点击【使用机器人】——【聊天机器人】——选择【模型】——下滑至专业模型找到【grok-vision-beta】——点击【确定】按钮,最后创建聊天机器人即可。

资讯丨xAI API列表新增视觉模型Grok-vision-beta,实测对比后竟有意外发现?!

【API超市】

在左侧菜单栏点击【使用API】——【API超市】——分类中选择【语言大模型】——【专业模型】。

资讯丨xAI API列表新增视觉模型Grok-vision-beta,实测对比后竟有意外发现?!

下滑页面即可看到有【grok-vision-beta】,按照惯例,302.AI的API超市中语言模型的API不仅能够通过【管理文档】快速接入API,还能进入【在线体验】高效便捷地测试模型的各种参数。

资讯丨xAI API列表新增视觉模型Grok-vision-beta,实测对比后竟有意外发现?!

> 实测:

实测将通过不同模型对比进行,这样能够更加直观看到模型的表现。

除了grok-vision-beta,我们还另外选择了两个模型进行对比,分别是:

gpt-4o-2024-11-20:11月20日OpenAI推出的GPT-4o最新版本,具备出色的多模态处理能力,能够处理文本、图像和视频输入。

gemini-exp-1121:11月21日谷歌推出的试验版模型,在多模态处理和复杂任务的优化能力方面表现出色,这一版本距离上一个试验版gemini-exp-1114推出仅时隔7天。

对比模型:grok-vision-beta、gpt-4o-2024-11-20、gemini-exp-1121

使用工具:302.AI的模型竞技场

实测1-流行梗图理解:

提示词:请问这个漫画表达了什么?

资讯丨xAI API列表新增视觉模型Grok-vision-beta,实测对比后竟有意外发现?!

分析:这个漫画是一个经典的网络流行梗“去码头整点薯条吃”,用两只小海鸥的对话对比两种不同的人生态度并通过漫画表达人们对于简单生活的向往和追求。首先看下gpt-4o-2024-11-20的回答,虽然答案不长,但整体回答大致是符合主题。然后是gemini-exp-1121的回答,整体回答比较详细的,通过层层分析揭开漫画表达的意思,并在最后总结升华了一下。最后是grok-vision-beta的回答其中提到“讽刺”,这略显不妥。漫画的整体风格主要以幽默为主,主要探讨不同的人生观念,并不存在讽刺的色彩。

资讯丨xAI API列表新增视觉模型Grok-vision-beta,实测对比后竟有意外发现?!

实测2-图形颜色识别:

提示词:请问图中蓝色物体和红色物体加起来一共有多少个?

资讯丨xAI API列表新增视觉模型Grok-vision-beta,实测对比后竟有意外发现?!

分析:第二轮实测是想测试模型的颜色识别能力,但从三个模型的回答中可以看到,没有模型回答正确。grok-vision-beta和gpt-4o-2024-11-20把蓝色物体和红色物体的数量都识别错误了,而gemini-exp-1121虽然最后结果错误,但其回答中红色物体数量是正确的

资讯丨xAI API列表新增视觉模型Grok-vision-beta,实测对比后竟有意外发现?!

实测3-图表内容理解:

提示词:请问图中参考人数最多的学校是哪个?还有泉秀中学比泉景中学的平均分高多少?

资讯丨xAI API列表新增视觉模型Grok-vision-beta,实测对比后竟有意外发现?!

分析:这一轮实测提出了两个问题,可以看到gpt-4o-2024-11-20和gemini-exp-1121两个问题的回答都是完全正确的。而grok-vision-beta第一个问题的回答也是正确的,但是第二个问题中把两个学校的平均分搞错了,从而导致最终的答案错误

资讯丨xAI API列表新增视觉模型Grok-vision-beta,实测对比后竟有意外发现?!

> 总结

通过以上三轮实测,可以得出以下结论:

流行梗图理解测试:grok-vision-beta在流行梗图理解测试中表现并不理想,在理解漫画的整体意图时,模型的回答显得偏离主题。

图形颜色识别测试:在图形颜色识别测试上和其他模型一样都未能提供准确答案,可以看出出在视觉信息处理的准确性方面依然存在不足

图表内容理解测试:在图表内容计算的测试中,grok-vision-beta在第一个问题上给出了正确的答案,表明其在面对一些简单问题的情况下具备一定的分析能力。但在处理复杂问题时,尤其是涉及多个数据点的计算时,模型的表现仍需加强

grok-vision-beta在实测中表现总体来说是并不理想的,不过通过以上实测对比,却意外发现谷歌时隔一周推出的新模型gemini-exp-1121在图像理解方面的表现非常不错,在视觉理解能力方面甚至超越了最新版GPT-4o模型。

如果想了解更多模型的资讯,请记得持续关注我们!

All Rights Reserved by 302.AI
Like (0)
302.AI302.AI
Previous 2024 年 11 月 28 日 下午7:49
Next 2024 年 12 月 2 日 下午7:26

相关推荐

  • 302.AI 新品发布 | AI绘图总翻车?绘图提示词专家帮你精准复刻图片,自由修改风格!

    许多人在使用AI绘图时,都会面临一些棘手的问题,比如想复刻某张图,但尝试了不同的关键词后生成效果依然货不对板;再比如想要对现有的图片进行风格调整使其更贴合自己的独特需求,但却难以维持画面元素的一致性。 针对以上痛点,302.AI 上新了一款AI绘图提示词专家工具,这一工具结合了“图片转提示词”和“风格修改”两大功能,用户不仅可以通过上传图片获得精准提示词复刻…

    2025 年 4 月 25 日 AI资讯
    1340
  • 资讯丨马斯克号称地表最强的Grok 3系列模型,在实测中到底能否超越R1和o3-mini?

    2月19日,马斯克旗下的大模型平台 xAI 推出了新的模型——Grok-3。官方宣称,Grok-3 在推理、数学、编码和指令遵循任务中均表现出色,并在一系列基准测试中表现出色。而马斯克更是称一模型为 ⌈ 地表最强 ⌋。 (非推理模式的Grok-3与其它大模型能力对比) 根据了解,grok-3 并非单一模型,而是一个包含多个版本的模型家族。其中包括了变体版本—…

    2025 年 2 月 24 日 AI资讯
    3040
  • 资讯丨通义万相2.1模型实测绝了!汉字竟在视频里“活”了

    继豆包图像模型攻克汉字生成的难题后,国内AI视频生成领域在中文生成方面再次来了新突破! 今年年初,阿里云推出了全新升级的的视频生成模型——通义万相2.1。据了解,这是⌈ 首个具备中文文字生成能力的视频生成模型 ⌋ 。 通义万相2.1视频模型一经推出,便以 84.70% 总分登顶权威评测榜单VBench榜首。除了中文文字生成的创新,该模型在复杂运动、大幅度动作…

    2025 年 2 月 21 日 AI资讯
    7680
  • 资讯丨302.AI 代码竞技场:大模型编程能力的“超级擂台”

    一个大模型能力强不强,我们常常会从多个维度去评估,其中编程能力是尤为关键的一项。 对于许多用户而言,想要准确测试大模型的代码能力却常常不知道该从何入手,或者不知道选择哪个平台进行测试。 为了帮助用户解决这一问题,302.AI最新上线了一款工具——代码竞技场,这一工具集结了多种先进模型,为用户提供了一个广阔、便捷、易用的代码测试平台。 工具界面展示: 302.…

    2025 年 2 月 19 日 AI资讯
    2720

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注