AI视力考验:各AI模型的视觉理解能力如何?

近日,行业内有不少新模型涌现出大众的面前,我们会发现,有的模型会在其官方宣传中提到“多模态”一词,比如大家熟知的GPT-4o、Gemini 1.5 Pro等,在发布时都被定义为“原生多模态”,这些多模态LLM在相关的介绍中,都用到了“视觉能力”、“视觉理解”这样的表述。

简单的理解,就是这些模型能够“看得见,并看得懂”,仿佛人的眼睛。为此,很多人产生了疑问,AI模型真的拥有类人的视觉能力吗?

为了验证这一问题的答案,就在近日,奥本大学和阿尔伯塔大学的研究人员在一系列非常简单的视觉任务上测试了4个当今最先进的多模态模型,这些任务对人类来说极其简单,比如两个形状是否重叠、图片中有多少个五边形,或者单词中的哪个字母被圈了起来。

AI视力考验:各AI模型的视觉理解能力如何?

小编也借助这一研究中的视觉题目,给AI模型做了视力测试,看看结果是否和上述研究中的一样。

首先找到302.AI的模型竞技场,302.AI的模型竞技场提供了国内外众多最新、最全面的AI模型,且支持上传文档、图片、代码文件等,让所有模型一起分析。

用户可以选择不同的模型,并同时提出问题以获得回答,这种方式极大地方便了我们比较不同模型答案。最重要的是,302.AI提供的是按需付费的使用方式,无论是日常工作、生活需要使用模型机器人还是还是进行不同模型的测试研究,都能有效节省成本,便于使用。

AI视力考验:各AI模型的视觉理解能力如何?

小编勾选的,GPT-4o、GPT-4o mini、Gemini 1.5 Pro、Claude-3.5-Sonnet、Qwen-VL-Max、Step-1v-8k六种模型。首先提问简单的第一道题:“哪个字母被圈起来了?”

AI视力考验:各AI模型的视觉理解能力如何?

看下各模型的回答:

AI视力考验:各AI模型的视觉理解能力如何?

第一题就出现了三对三错的情况,GPT-4o mini、Claude-3.5-Sonnet、Step-1v-8k回答正确,而GPT-4o、Gemini 1.5 Pro、Qwen-VL-Max回答错误,那接下来增加难度,提问第二题:“蓝线和红线相交多少次?”

AI视力考验:各AI模型的视觉理解能力如何?

看下各模型答案:

AI视力考验:各AI模型的视觉理解能力如何?

第二题只有Gemini 1.5 Pro、Claude-3.5-Sonnet答对了。接下来换第三题,提问:“这两个圆圈相接吗?回答是/否。”

AI视力考验:各AI模型的视觉理解能力如何?

看下答案:

AI视力考验:各AI模型的视觉理解能力如何?

只有Claude-3.5-Sonnet答错了,其余都回答正确。最后一题:“图片中有多少个【形状】?请仅用数字格式回答。”,正确答案应该是8个,看下各模型回答:

AI视力考验:各AI模型的视觉理解能力如何?

最后一题居然没有模型答对,下面对四题答对情况整理一下:

AI视力考验:各AI模型的视觉理解能力如何?

通过简单的实践可以看到,这些模型的视觉对于简单的图像能基本回答正确,而稍微复杂点的图形问题就明显出现“蒙圈”状态。

而最后想说,研究的意义并不是想要否定这些模型的“视觉能力”,我们需要明确AI模型的“视力”并不可能等于传统意义上人类的视觉能力。模型处理视觉信息的方式是通过分析和识别图像数据中的模式和特征。随着深度学习技术的进步,AI在图像识别、物体检测和场景理解等方面已经取得了显著的成果。

参考文章:

https://mp.weixin.qq.com/s/1YFtLExzgwoy5GvWZX_2TQ

https://vlmsareblind.github.io/#task3

Like (0)
302.AI302.AI
Previous 2024 年 7 月 23 日 下午5:45
Next 2024 年 7 月 25 日 下午5:34

相关推荐

  • 当提示词使用”过去时”,就能突破各AI模型的安全防线?

    近日,洛桑联邦理工学院的研究人员发现,当使用AI模型的时候,只要在提示词中把时间设定成过去,就能突破大模型的安全防线。原本只有1%的攻击成功率飙升至88%,几乎达到了“有求必应”的境界。这项发现不仅在英文环境下有效,在中文语境中同样适用,让网友们惊叹于破解大模型漏洞的简便性。 实验中,研究人员从JBB-Behaviors数据集中挑选了100个有害行为,通过将…

    2024 年 8 月 1 日
    19200
  • AI老照片修复功能,不止修复了画面也修复了记忆

    随着AI技术的发展,不断突破着传统界限。许多曾经存在想象中的事情变成了现实,这或许就是科技的意义。 最近看到了一个非常令人感动的文章“他用Luma和Suno复活了逝去11年的爱人,给我看破防了。” (参考原文:https://mp.weixin.qq.com/s/DIkPAA-P9P1AWveAFeNtqA) 原文是这样的,作者在X上看到了一个名为Koya …

    2024 年 7 月 17 日
    20100
  • OpenAI新模型GPT-4o mini,超高性价比模型能力如何?

    北京时间7月19日凌晨,OpenAI 突然宣布发布新模型GPT-4o mini,将全面替代GPT-3.5 Turbo。 OpenAI在今年5月发布了OpenAI公司迄今为止速度最快、综合能力最强,同样也是最贵的GPT-4o模型,而这次发布的GPT-4o mini则是一个规格更小、更便宜的变体,通过兼具“能力和性价比”,拓展低价位市场的竞争。 根据官网展示的价…

    2024 年 7 月 23 日
    52300
  • 资讯丨“Thinking Claude”prompt真的这么神?302带你实测揭秘看看

    最近,又一个prompt在网上火了起来,这一prompt名为“ Thinking Claude”,有网友称它为Claude3.5的神级prompt,而更让人意想不到的的是,这个prompt背后的作者,居然是一个十七岁的少年! “Thinking Claude”的核心在于它引导Claude进行一种更为“人性化”的思考方式,强调思维过程的自然流动,而非简单的结构…

    5天前
    11000
  • 资讯丨阿里发布长上下文模型Qwen2.5-Turbo,实测结果不达预期?

    继9月Qwen2.5发布后,11月18日,阿里巴巴通义千问团队再次发布新模型Qwen2.5-Turbo,大幅提升了上下文处理能力与推理速度。 据了解,Qwen2.5-Turbo上下文长度从 128k 显著增加到 1M 个 tokens,约相当于 100 万个英文单词或 150 万个中文字符。这一容量可容纳 10 部长篇小说、150 小时的语音记录或 3 万行…

    19小时前
    1700

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注