资讯丨xAI API列表新增视觉模型Grok-vision-beta,实测对比后竟有意外发现?!

11月初,xAI官宣Grok API开启公测后,我们便对当时列表中唯一的模型grok-beta进行了实测,尽管grok-beta在实测中发现了了一些不足,但其整体表现还是不错的。最近,xAI的API迎来了更新,其API列表中新增了一个名为grok-vision-beta的模型。

资讯丨xAI API列表新增视觉模型Grok-vision-beta,实测对比后竟有意外发现?!

根据xAI官方介绍,grok-vision-beta模型是其最新的图像理解模型,可以处理各种各样的视觉信息,包括文档、图表、截图和照片。不知这一模型的表现如何?下面我们将通过302.AI实测看看。

> 在302.AI上使用

302.AI目前已经提供了grok-vision-beta模型,如果想要快速体验模型可以通过302.AI的聊天机器人获得;如果想要更方便快捷接入集成这一模型的API,可以使用302.AI的API超市,以下分别是302.AI聊天机器人和API超市获取grok-vision-beta模型的步骤:

【聊天机器人】

进入302.AI,在左侧菜单栏点击【使用机器人】——【聊天机器人】——选择【模型】——下滑至专业模型找到【grok-vision-beta】——点击【确定】按钮,最后创建聊天机器人即可。

资讯丨xAI API列表新增视觉模型Grok-vision-beta,实测对比后竟有意外发现?!

【API超市】

在左侧菜单栏点击【使用API】——【API超市】——分类中选择【语言大模型】——【专业模型】。

资讯丨xAI API列表新增视觉模型Grok-vision-beta,实测对比后竟有意外发现?!

下滑页面即可看到有【grok-vision-beta】,按照惯例,302.AI的API超市中语言模型的API不仅能够通过【管理文档】快速接入API,还能进入【在线体验】高效便捷地测试模型的各种参数。

资讯丨xAI API列表新增视觉模型Grok-vision-beta,实测对比后竟有意外发现?!

> 实测:

实测将通过不同模型对比进行,这样能够更加直观看到模型的表现。

除了grok-vision-beta,我们还另外选择了两个模型进行对比,分别是:

gpt-4o-2024-11-20:11月20日OpenAI推出的GPT-4o最新版本,具备出色的多模态处理能力,能够处理文本、图像和视频输入。

gemini-exp-1121:11月21日谷歌推出的试验版模型,在多模态处理和复杂任务的优化能力方面表现出色,这一版本距离上一个试验版gemini-exp-1114推出仅时隔7天。

对比模型:grok-vision-beta、gpt-4o-2024-11-20、gemini-exp-1121

使用工具:302.AI的模型竞技场

实测1-流行梗图理解:

提示词:请问这个漫画表达了什么?

资讯丨xAI API列表新增视觉模型Grok-vision-beta,实测对比后竟有意外发现?!

分析:这个漫画是一个经典的网络流行梗“去码头整点薯条吃”,用两只小海鸥的对话对比两种不同的人生态度并通过漫画表达人们对于简单生活的向往和追求。首先看下gpt-4o-2024-11-20的回答,虽然答案不长,但整体回答大致是符合主题。然后是gemini-exp-1121的回答,整体回答比较详细的,通过层层分析揭开漫画表达的意思,并在最后总结升华了一下。最后是grok-vision-beta的回答其中提到“讽刺”,这略显不妥。漫画的整体风格主要以幽默为主,主要探讨不同的人生观念,并不存在讽刺的色彩。

资讯丨xAI API列表新增视觉模型Grok-vision-beta,实测对比后竟有意外发现?!

实测2-图形颜色识别:

提示词:请问图中蓝色物体和红色物体加起来一共有多少个?

资讯丨xAI API列表新增视觉模型Grok-vision-beta,实测对比后竟有意外发现?!

分析:第二轮实测是想测试模型的颜色识别能力,但从三个模型的回答中可以看到,没有模型回答正确。grok-vision-beta和gpt-4o-2024-11-20把蓝色物体和红色物体的数量都识别错误了,而gemini-exp-1121虽然最后结果错误,但其回答中红色物体数量是正确的

资讯丨xAI API列表新增视觉模型Grok-vision-beta,实测对比后竟有意外发现?!

实测3-图表内容理解:

提示词:请问图中参考人数最多的学校是哪个?还有泉秀中学比泉景中学的平均分高多少?

资讯丨xAI API列表新增视觉模型Grok-vision-beta,实测对比后竟有意外发现?!

分析:这一轮实测提出了两个问题,可以看到gpt-4o-2024-11-20和gemini-exp-1121两个问题的回答都是完全正确的。而grok-vision-beta第一个问题的回答也是正确的,但是第二个问题中把两个学校的平均分搞错了,从而导致最终的答案错误

资讯丨xAI API列表新增视觉模型Grok-vision-beta,实测对比后竟有意外发现?!

> 总结

通过以上三轮实测,可以得出以下结论:

流行梗图理解测试:grok-vision-beta在流行梗图理解测试中表现并不理想,在理解漫画的整体意图时,模型的回答显得偏离主题。

图形颜色识别测试:在图形颜色识别测试上和其他模型一样都未能提供准确答案,可以看出出在视觉信息处理的准确性方面依然存在不足

图表内容理解测试:在图表内容计算的测试中,grok-vision-beta在第一个问题上给出了正确的答案,表明其在面对一些简单问题的情况下具备一定的分析能力。但在处理复杂问题时,尤其是涉及多个数据点的计算时,模型的表现仍需加强

grok-vision-beta在实测中表现总体来说是并不理想的,不过通过以上实测对比,却意外发现谷歌时隔一周推出的新模型gemini-exp-1121在图像理解方面的表现非常不错,在视觉理解能力方面甚至超越了最新版GPT-4o模型。

如果想了解更多模型的资讯,请记得持续关注我们!

Like (0)
302.AI302.AI
Previous 2024 年 11 月 28 日 下午7:49
Next 2024 年 12 月 2 日 下午7:26

相关推荐

  • 资讯丨MINIMAX发布abab7-preview模型,数学编程能力不足但推理长文理解表现都不错?!

    11月初,MINIMAX发布了新款abab7-preview模型,该模型支持245K上下文,相对于abab6.5系列模型在长文、数学、写作等能力有大幅度提升。 根据网上搜索到的关于abab7-preview模型的资料并不多,想要进一步了解这一模型,可以通过实测看看真实的表现。 > 在302.AI上使用 目前,302.AI已经提供了abab7-previ…

    4天前
    2000
  • 资讯丨简单几步学会制作超真实的“毒液变身”特效,胆小慎进!

    最近,各社交媒体平台都被一种叫“毒液变身”的特效刷屏了,视频虽然仅有短短几秒钟,却通过生动的画面和动感的特效,给观众带来了强烈的视觉冲击,从而迅速吸引了大量网友的目光。甚至在某些短视频平台上,使用这一特效制作的视频获得了过万的点赞: “毒液变身”特效流行后,许多网友纷纷在线求教程,想要学习如何制作类似的视频。实际上,这些视频效果都是通过最新的视频生成模型——…

    2024 年 12 月 6 日
    6100
  • 揭秘神秘“小熊猫”模型,实测对比Recraft V3生成效果

    近日,一个名为red_panda的模型在Hugging Face的文本生成图像模型排行榜中位居榜首, 这引起了许多网友对这一神秘“小熊猫”背后公司身份的种种讨论。 有网友猜测小熊猫会不会是Midjourney的新产物,也有网友猜测可能是来自OpenAI: 甚至有网友猜测,因为熊猫生活在亚洲,而中国公司在视频生成方面表现卓越,所以猜测它来自像百度或腾讯这样的中…

    2024 年 11 月 1 日
    32600
  • 场景图生成工具的平替选择,超越Magnific的创意可能

    真的太卷了!Magnific AI居然推出了新功能! 2023年年末,一家名为Magnific AI的初创公司带着图像增强工具横空出世,仅半年后,Magnific AI的创始人宣布新功能“Relight ”。 根据相关资料,Magnific AI公司由两位创始人Javi Lopez 和 Emilio Nicolás 组成,于2023 年11月创立。Magni…

    2024 年 7 月 12 日
    23900
  • 资讯丨302.AI正式上线客户端!三个版本可供选择

    随着技术的发展,AI正一点一点融入到我们的日常和生活中,成为我们工作和生活的重要辅助工具。为了给用户带来多样的AI服务体验,11月14日,302.AI正式上线桌面客户端,并提供了以下三个版本给用户选择: 主账户版:支持Windows、Mac系统 子账户版:支持Windows、Mac系统 极简版:仅支持Mac系统 版本介绍: 主账号版: (展示的界面以Wind…

    2024 年 11 月 14 日
    36900

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注