时隔两月Meta再发布新模型Llama 3.2,视觉理解方面媲美GPT-4o-mini?!

距离7月23日Llama 3.1发布才刚刚过去 2 个月,Meta公司在9月26日又官宣推出最新AI模型系列Llama 3.2,此次Llama 3.2系列包括四个版本:1B、3B、11B和90B。

时隔两月Meta再发布新模型Llama 3.2,视觉理解方面媲美GPT-4o-mini?!

Llama 3.2 1B和Llama 3.2 3B都是轻量级的模型,适合边缘和移动设备的轻量级纯文本模型。而Llama 3.2 11B和Llama 3.2 90B则是中型模型,今天,小编就具体介绍一下Llama 3.2 11B和Llama 3.2 90B。

Llama 3.2 系列中最大的两个模型 11B 和 90B 支持图像推理用例,如文档级理解(包括图表和图形)、图像字幕以及视觉基础任务(例如基于自然语言描述在图像中精确定位对象)。

简单地理解就是,用户可以直接提问【企业去年哪个月的销售额最高?】然后 Llama 3.2可以根据可用的图表进行推理并快速提供答案。

除此之外,Llama 3.2 还能使用地图进行推理并帮助回答问题,比如用户提问【何时徒步旅行可能会变得更陡峭?】或者【地图上标记的特定路径的距离】。还有,Llama 3.2 11B 和 90B 模型可以通过从图像中提取细节、理解场景,制作一两句话作为图像字幕来帮助讲述故事,从而弥合视觉和语言之间的差距。

Meta官方通过评估表明,Llama 3.2 11B和Llama 3.2 90B在图像识别和一系列视觉理解任务上与领先的基础模型 Claude 3 Haiku 和 GPT4o-mini 相媲美:

时隔两月Meta再发布新模型Llama 3.2,视觉理解方面媲美GPT-4o-mini?!

Llama 3.2 11B和Llama 3.2 90B是不是真的如官方所说的这么厉害?我们可以一起来试一试,想要快速体验Llama 3.2 11B和Llama 3.2 90B模型,但又不熟悉使用API的用户,可以选择302.AI,302.AI的聊天机器人和模型竞技场已经更新最新的Llama 3.2 11B和Llama 3.2 90B模型,而且提供按需付费的服务方式,可以有效控制预算,无需担心资源浪费。

时隔两月Meta再发布新模型Llama 3.2,视觉理解方面媲美GPT-4o-mini?!

既然官方在发布时候提到Llama 3.2 11B和Llama 3.2 90B模型的视觉理解能力能够与Claude-3-Haiku和 GPT-4o-mini相媲美,那接下来,小编就使用302.AI的模型竞技场对比Llama 3.2 11B、Llama 3.2 90B、Claude-3-Haiku和 GPT-4o-mini这4种模型在视觉理解方面表现:

时隔两月Meta再发布新模型Llama 3.2,视觉理解方面媲美GPT-4o-mini?!

首先,测试一下四个模型的图表的理解能力,根据以下图片进行提问:

第一个问题:“2015年人口自然增长率为多少?”

时隔两月Meta再发布新模型Llama 3.2,视觉理解方面媲美GPT-4o-mini?!

我们可以看到,根据以上图表可以看到人口自然增长率为绿色折线,其中2015年的自然增长率在5%上下。再来看以下四个模型的回答,首先GPT-4o-mini和Claude-3-Haiku都比较接近答案,而Llama 3.2 11B和Llama 3.2 90B均回答错误,Llama 3.2 11B回答的是14.07%更接近的是图表中2016年或者是2014年的人口出生率,而Llama 3.2 90B回答的9.2%来源无从考究。

时隔两月Meta再发布新模型Llama 3.2,视觉理解方面媲美GPT-4o-mini?!

第二题,根据地图提出问题:“请问图中红线连接两地的距离是?”

这里通过地图测量工具测量出来的距离为5.1公里,所以答案小编认为接近5.1公里的答案都是正确的。

时隔两月Meta再发布新模型Llama 3.2,视觉理解方面媲美GPT-4o-mini?!

接下来看下四个模型的回答,首先GPT-4o-mini非常直接表示无法测量地图上的距离。而Claude-3-Haiku和Llama 3.2 11B给出答案都是6.5公里,尽管和正确答案5.1公里还有差距,但都是在四个模型中最接近正确答案的回答。而Llama 3.2 90B回答的10公里对比正确答案还是差得有点多。

时隔两月Meta再发布新模型Llama 3.2,视觉理解方面媲美GPT-4o-mini?!

最后,再让四个模型描述一下《泰坦尼克号》中的名场面。从回答来看,GPT-4o-mini和Claude-3-Haiku的回答只是根据图片直接描述所看到的画面,而Llama 3.2 11B和90B模型能够准确识别出《泰坦尼克号》的经典场景,并提供了较为详细的描述,小编认为这一点上是超越了GPT-4o-mini和Claude-3-Haiku。

时隔两月Meta再发布新模型Llama 3.2,视觉理解方面媲美GPT-4o-mini?!

根据以上的测试,可以得出在图表理解和地图测量方面,Llama 3.2系列模型还有一定的提升空间。特别是在处理具体数据时,两个模型的准确性还有待提高,但在图像描述和场景理解方面表现的确不错。

除此之外,302.AI的API超市也已经更新了Llama 3.2 11B和Llama 3.2 90B模型的API,开发者能快速通过302.AI的API超市在线调试API,更简单地将模型集成到自己的应用中,无需从头开始构建和训练模型,更重要的是,302.AI的API超市提供的按需付费模式,降低了初期尝试和集成的门槛,使得更多的开发者和企业能够轻松地使用各AI模型的API。

时隔两月Meta再发布新模型Llama 3.2,视觉理解方面媲美GPT-4o-mini?!

时隔两月Meta再发布新模型Llama 3.2,视觉理解方面媲美GPT-4o-mini?!

Llama 3.2系列的发布标志着AI技术在多模态理解方面又迈出了一步。多模态AI模型通过融合文本、图像等多种数据类型,为AI技术在理解和处理复杂任务方面开辟了新的可能性,尽管Llama 3.2系列还有上升的空间,但我们可以期待,随着AI技术的不断进步和应用场景的扩展,多模态AI模型在未来充满了无限可能。

参考文章:https://ai.meta.com/blog/llama-3-2-connect-2024-vision-edge-mobile-devices/

All Rights Reserved by 302.AI
Like (0)
302.AI302.AI
Previous 2024 年 9 月 27 日 下午5:16
Next 2024 年 9 月 28 日 下午6:49

相关推荐

  • 资讯丨FLUX 1.1 Pro推出Ultra模式,来302.AI实测揭秘真实效果

    11月6日,BlackForestLabs宣布推出FLUX1.1 pro的Ultra模式,添加了新的高分辨率功能,还增加了一个RAW参数,这一参数提升了生成图片的拟真度,让生成的图片摆脱了“AI味”,为用户带来了新的视觉体验。 据官网介绍,FLUX 1.1 Pro Ultra支持高达4兆像素(4MP)的图像生成,这是标准模式的四倍。这一提升使得生成的图像更加…

    2024 年 11 月 11 日 AI资讯
    6050
  • 资讯丨xAI官宣Grok API开启公测,唯一模型grok-beta表现能否达到预期?

    11月6日,备受瞩目的2024年美国总统选举结果终于揭晓,马斯克公开支持的美国共和党总统候选人特朗普获得最终胜利。 作为特朗普的“榜一大哥”马斯克,是人工智能初创公司xAI的始人之一和主要投资者。在11月4日,xAI刚刚官宣Grok API正式开启公测。 根据xAI公司官方发布的文档,可以看到xAI的API目前只有一个模型——“grok-beta”。 从官方…

    2024 年 11 月 8 日 AI资讯
    3150
  • 资讯丨302.AI已支持Anthropic最新模型Claude 3.5 Haiku,与其他模型对比表现如何?

    11月5日,Anthropic在社交媒体平台宣布Claude 3.5 Haiku可以通过API访问。Claude 3.5 Haiku是Anthropic公司在10月22日发布的新模型,在许多评估中的性能与 Claude 3 Opus不相上下,而成本和速度却与上一代Haiku相当。 根据官方介绍,Claude 3.5 Haiku 在各种编码、工具使用和推理任务…

    2024 年 11 月 6 日 AI资讯
    4250
  • Stable Diffusion 3.5 VS Flux.1 dev,谁才是开源图像生成模型的王者?

    10月22日,Stability AI推出最新图像生成模型Stable Diffusion 3.5,其中包括Stable Diffusion 3.5 Large、Stable Diffusion 3.5 Large Turbo两个版本,并宣布预计在10月29日上线Medium版本。 10月29日,Stable Diffusion 3.5 Medium如期推出…

    2024 年 11 月 5 日 AI资讯
    1.1K0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注