AI视力考验:各AI模型的视觉理解能力如何?

近日,行业内有不少新模型涌现出大众的面前,我们会发现,有的模型会在其官方宣传中提到“多模态”一词,比如大家熟知的GPT-4o、Gemini 1.5 Pro等,在发布时都被定义为“原生多模态”,这些多模态LLM在相关的介绍中,都用到了“视觉能力”、“视觉理解”这样的表述。

简单的理解,就是这些模型能够“看得见,并看得懂”,仿佛人的眼睛。为此,很多人产生了疑问,AI模型真的拥有类人的视觉能力吗?

为了验证这一问题的答案,就在近日,奥本大学和阿尔伯塔大学的研究人员在一系列非常简单的视觉任务上测试了4个当今最先进的多模态模型,这些任务对人类来说极其简单,比如两个形状是否重叠、图片中有多少个五边形,或者单词中的哪个字母被圈了起来。

AI视力考验:各AI模型的视觉理解能力如何?

小编也借助这一研究中的视觉题目,给AI模型做了视力测试,看看结果是否和上述研究中的一样。

首先找到302.AI的模型竞技场,302.AI的模型竞技场提供了国内外众多最新、最全面的AI模型,且支持上传文档、图片、代码文件等,让所有模型一起分析。

用户可以选择不同的模型,并同时提出问题以获得回答,这种方式极大地方便了我们比较不同模型答案。最重要的是,302.AI提供的是按需付费的使用方式,无论是日常工作、生活需要使用模型机器人还是还是进行不同模型的测试研究,都能有效节省成本,便于使用。

AI视力考验:各AI模型的视觉理解能力如何?

小编勾选的,GPT-4o、GPT-4o mini、Gemini 1.5 Pro、Claude-3.5-Sonnet、Qwen-VL-Max、Step-1v-8k六种模型。首先提问简单的第一道题:“哪个字母被圈起来了?”

AI视力考验:各AI模型的视觉理解能力如何?

看下各模型的回答:

AI视力考验:各AI模型的视觉理解能力如何?

第一题就出现了三对三错的情况,GPT-4o mini、Claude-3.5-Sonnet、Step-1v-8k回答正确,而GPT-4o、Gemini 1.5 Pro、Qwen-VL-Max回答错误,那接下来增加难度,提问第二题:“蓝线和红线相交多少次?”

AI视力考验:各AI模型的视觉理解能力如何?

看下各模型答案:

AI视力考验:各AI模型的视觉理解能力如何?

第二题只有Gemini 1.5 Pro、Claude-3.5-Sonnet答对了。接下来换第三题,提问:“这两个圆圈相接吗?回答是/否。”

AI视力考验:各AI模型的视觉理解能力如何?

看下答案:

AI视力考验:各AI模型的视觉理解能力如何?

只有Claude-3.5-Sonnet答错了,其余都回答正确。最后一题:“图片中有多少个【形状】?请仅用数字格式回答。”,正确答案应该是8个,看下各模型回答:

AI视力考验:各AI模型的视觉理解能力如何?

最后一题居然没有模型答对,下面对四题答对情况整理一下:

AI视力考验:各AI模型的视觉理解能力如何?

通过简单的实践可以看到,这些模型的视觉对于简单的图像能基本回答正确,而稍微复杂点的图形问题就明显出现“蒙圈”状态。

而最后想说,研究的意义并不是想要否定这些模型的“视觉能力”,我们需要明确AI模型的“视力”并不可能等于传统意义上人类的视觉能力。模型处理视觉信息的方式是通过分析和识别图像数据中的模式和特征。随着深度学习技术的进步,AI在图像识别、物体检测和场景理解等方面已经取得了显著的成果。

参考文章:

https://mp.weixin.qq.com/s/1YFtLExzgwoy5GvWZX_2TQ

https://vlmsareblind.github.io/#task3

All Rights Reserved by 302.AI
Like (0)
302.AI302.AI
Previous 2024 年 7 月 23 日 下午5:45
Next 2024 年 7 月 25 日 下午5:34

相关推荐

  • 资讯丨FLUX 1.1 Pro推出Ultra模式,来302.AI实测揭秘真实效果

    11月6日,BlackForestLabs宣布推出FLUX1.1 pro的Ultra模式,添加了新的高分辨率功能,还增加了一个RAW参数,这一参数提升了生成图片的拟真度,让生成的图片摆脱了“AI味”,为用户带来了新的视觉体验。 据官网介绍,FLUX 1.1 Pro Ultra支持高达4兆像素(4MP)的图像生成,这是标准模式的四倍。这一提升使得生成的图像更加…

    2024 年 11 月 11 日 AI资讯
    6050
  • 资讯丨xAI官宣Grok API开启公测,唯一模型grok-beta表现能否达到预期?

    11月6日,备受瞩目的2024年美国总统选举结果终于揭晓,马斯克公开支持的美国共和党总统候选人特朗普获得最终胜利。 作为特朗普的“榜一大哥”马斯克,是人工智能初创公司xAI的始人之一和主要投资者。在11月4日,xAI刚刚官宣Grok API正式开启公测。 根据xAI公司官方发布的文档,可以看到xAI的API目前只有一个模型——“grok-beta”。 从官方…

    2024 年 11 月 8 日 AI资讯
    3150
  • 资讯丨302.AI已支持Anthropic最新模型Claude 3.5 Haiku,与其他模型对比表现如何?

    11月5日,Anthropic在社交媒体平台宣布Claude 3.5 Haiku可以通过API访问。Claude 3.5 Haiku是Anthropic公司在10月22日发布的新模型,在许多评估中的性能与 Claude 3 Opus不相上下,而成本和速度却与上一代Haiku相当。 根据官方介绍,Claude 3.5 Haiku 在各种编码、工具使用和推理任务…

    2024 年 11 月 6 日 AI资讯
    4250
  • Stable Diffusion 3.5 VS Flux.1 dev,谁才是开源图像生成模型的王者?

    10月22日,Stability AI推出最新图像生成模型Stable Diffusion 3.5,其中包括Stable Diffusion 3.5 Large、Stable Diffusion 3.5 Large Turbo两个版本,并宣布预计在10月29日上线Medium版本。 10月29日,Stable Diffusion 3.5 Medium如期推出…

    2024 年 11 月 5 日 AI资讯
    1.1K0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注