AI视力考验:各AI模型的视觉理解能力如何?

近日,行业内有不少新模型涌现出大众的面前,我们会发现,有的模型会在其官方宣传中提到“多模态”一词,比如大家熟知的GPT-4o、Gemini 1.5 Pro等,在发布时都被定义为“原生多模态”,这些多模态LLM在相关的介绍中,都用到了“视觉能力”、“视觉理解”这样的表述。

简单的理解,就是这些模型能够“看得见,并看得懂”,仿佛人的眼睛。为此,很多人产生了疑问,AI模型真的拥有类人的视觉能力吗?

为了验证这一问题的答案,就在近日,奥本大学和阿尔伯塔大学的研究人员在一系列非常简单的视觉任务上测试了4个当今最先进的多模态模型,这些任务对人类来说极其简单,比如两个形状是否重叠、图片中有多少个五边形,或者单词中的哪个字母被圈了起来。

AI视力考验:各AI模型的视觉理解能力如何?

小编也借助这一研究中的视觉题目,给AI模型做了视力测试,看看结果是否和上述研究中的一样。

首先找到302.AI的模型竞技场,302.AI的模型竞技场提供了国内外众多最新、最全面的AI模型,且支持上传文档、图片、代码文件等,让所有模型一起分析。

用户可以选择不同的模型,并同时提出问题以获得回答,这种方式极大地方便了我们比较不同模型答案。最重要的是,302.AI提供的是按需付费的使用方式,无论是日常工作、生活需要使用模型机器人还是还是进行不同模型的测试研究,都能有效节省成本,便于使用。

AI视力考验:各AI模型的视觉理解能力如何?

小编勾选的,GPT-4o、GPT-4o mini、Gemini 1.5 Pro、Claude-3.5-Sonnet、Qwen-VL-Max、Step-1v-8k六种模型。首先提问简单的第一道题:“哪个字母被圈起来了?”

AI视力考验:各AI模型的视觉理解能力如何?

看下各模型的回答:

AI视力考验:各AI模型的视觉理解能力如何?

第一题就出现了三对三错的情况,GPT-4o mini、Claude-3.5-Sonnet、Step-1v-8k回答正确,而GPT-4o、Gemini 1.5 Pro、Qwen-VL-Max回答错误,那接下来增加难度,提问第二题:“蓝线和红线相交多少次?”

AI视力考验:各AI模型的视觉理解能力如何?

看下各模型答案:

AI视力考验:各AI模型的视觉理解能力如何?

第二题只有Gemini 1.5 Pro、Claude-3.5-Sonnet答对了。接下来换第三题,提问:“这两个圆圈相接吗?回答是/否。”

AI视力考验:各AI模型的视觉理解能力如何?

看下答案:

AI视力考验:各AI模型的视觉理解能力如何?

只有Claude-3.5-Sonnet答错了,其余都回答正确。最后一题:“图片中有多少个【形状】?请仅用数字格式回答。”,正确答案应该是8个,看下各模型回答:

AI视力考验:各AI模型的视觉理解能力如何?

最后一题居然没有模型答对,下面对四题答对情况整理一下:

AI视力考验:各AI模型的视觉理解能力如何?

通过简单的实践可以看到,这些模型的视觉对于简单的图像能基本回答正确,而稍微复杂点的图形问题就明显出现“蒙圈”状态。

而最后想说,研究的意义并不是想要否定这些模型的“视觉能力”,我们需要明确AI模型的“视力”并不可能等于传统意义上人类的视觉能力。模型处理视觉信息的方式是通过分析和识别图像数据中的模式和特征。随着深度学习技术的进步,AI在图像识别、物体检测和场景理解等方面已经取得了显著的成果。

参考文章:

https://mp.weixin.qq.com/s/1YFtLExzgwoy5GvWZX_2TQ

https://vlmsareblind.github.io/#task3

(0)
302.AI302.AI
上一篇 2024 年 7 月 23 日 下午5:45
下一篇 2024 年 7 月 25 日 下午5:34

相关推荐

  • Glif生成的meme图瞎说什么大实话!如何免注册无次数限制使用?

    近日,在国外社交媒体平台上,一款叫做“Glif”的AI应用迅速蹿红,Glif有点类似国内的Coze,通过低代码或无代码的方式,并提供了非常多的工具作为节点,搭建工作流。 接下来先说一下Glif是什么,Glif是一个有趣的低代码平台,在基本层面上,Glif接受用户输入(文本、图像或点击按钮),并使用强大的AI模型生成输出(文本、图像、视频或这些的组合)。 概括…

    2024 年 7 月 17 日
    9200
  • Runway Gen-3 Alpha图生视频上线,图片转视频只需要一步?!

    7月30日凌晨,Runway官方在社交媒体平台宣布,在6月中旬推出的视频模型Gen-3Alpha正式推出图生视频功能。官方表示,图生视频功能将极大提高了生成视频的艺术控制和一致性。 这一更新允许用户将任何图像用作视频生成的第一帧,可以单独使用,也可以与文本提示一起使用。 简单的说就是,用户上传一张图片可以单独生成一个视频,也可以在上传图片后搭配文字描述,再生…

    2024 年 8 月 2 日
    10700
  • Ideogram推出2.0版本,连Midjourney都感受到了压力?看看到底有多厉害?!

    8月21日,由Ideogram团队倾力打造的创新型文本生成图像模型 Ideogram 2.0正式发布。 其实早在今年2月,Ideogram团队就发布了Ideogram模型1.0版本,但是其在AI生图领域并未引起太大波澜,但在这一次 Ideogram 2.0版本发布后,Ideogram官方直接在社交媒体平台自信宣称,这一版本比FLUX Pro和DALL·E3要…

    2024 年 8 月 26 日
    10000
  • 你真的会使用AI吗?CO-STAR超给力提示词框架,速看

    就在今年5月,新加坡政府科技局(GovTech)组织了首届 GPT-4 提示工程大赛,吸引了超过 400 名杰出的参与者。冠军获得者Sheila Teo分享了如何使用一些简单有效的技巧来优化对ChatGPT的使用。 对于AI使用者来说,结构化的提示词框架能够帮助我们以一种更系统、更明确的方式与 AI 交互。这种清晰性对于确保 AI 系统能准确理解用户的意图至…

    2024 年 7 月 12 日
    11000
  • Midjourney新版本v6.1上线,人像逼真细节再升级

    7月的最后一天,Midjourney宣布推出最新版本v6.1,这一消息在创意和技术领域引起了广泛关注。那这一新版本对比前一版本对比有什么不同呢,下面一起来看看。 Midjourney v6.1做了一系列升级: 1、更好的生成一致性(人像的手臂、腿、身体,动植物等题材) 2、更高的图像质量(减少伪影、增强纹理等) 3、更准确、更多细节、更精确理解图像里边的细小…

    2024 年 8 月 5 日
    10500

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注