302.AI 基准实验室 | 时隔两月Meta再发布新模型Llama 3.2，视觉理解方面媲美GPT-4o-mini？！ -

距离7月23日Llama 3.1发布才刚刚过去 2 个月，Meta公司在9月26日又官宣推出最新AI模型系列Llama 3.2，此次Llama 3.2系列包括四个版本：1B、3B、11B和90B。

Llama 3.2 1B和Llama 3.2 3B都是轻量级的模型，适合边缘和移动设备的轻量级纯文本模型。而Llama 3.2 11B和Llama 3.2 90B则是中型模型，今天，小编就具体介绍一下Llama 3.2 11B和Llama 3.2 90B。

Llama 3.2 系列中最大的两个模型 11B 和 90B 支持图像推理用例，如文档级理解（包括图表和图形）、图像字幕以及视觉基础任务（例如基于自然语言描述在图像中精确定位对象）。

简单地理解就是，用户可以直接提问【企业去年哪个月的销售额最高？】然后 Llama 3.2可以根据可用的图表进行推理并快速提供答案。

除此之外，Llama 3.2 还能使用地图进行推理并帮助回答问题，比如用户提问【何时徒步旅行可能会变得更陡峭？】或者【地图上标记的特定路径的距离】。还有，Llama 3.2 11B 和 90B 模型可以通过从图像中提取细节、理解场景，制作一两句话作为图像字幕来帮助讲述故事，从而弥合视觉和语言之间的差距。

Meta官方通过评估表明，Llama 3.2 11B和Llama 3.2 90B在图像识别和一系列视觉理解任务上与领先的基础模型 Claude 3 Haiku 和 GPT4o-mini 相媲美：

Llama 3.2 11B和Llama 3.2 90B是不是真的如官方所说的这么厉害？我们可以一起来试一试，想要快速体验Llama 3.2 11B和Llama 3.2 90B模型，但又不熟悉使用API的用户，可以选择302.AI，302.AI的聊天机器人和模型竞技场已经更新最新的Llama 3.2 11B和Llama 3.2 90B模型，而且提供按需付费的服务方式，可以有效控制预算，无需担心资源浪费。

既然官方在发布时候提到Llama 3.2 11B和Llama 3.2 90B模型的视觉理解能力能够与Claude-3-Haiku和 GPT-4o-mini相媲美，那接下来，小编就使用302.AI的模型竞技场对比Llama 3.2 11B、Llama 3.2 90B、Claude-3-Haiku和 GPT-4o-mini这4种模型在视觉理解方面表现：

首先，测试一下四个模型的图表的理解能力，根据以下图片进行提问：

第一个问题：“2015年人口自然增长率为多少？”

我们可以看到，根据以上图表可以看到人口自然增长率为绿色折线，其中2015年的自然增长率在5%上下。再来看以下四个模型的回答，首先GPT-4o-mini和Claude-3-Haiku都比较接近答案，而Llama 3.2 11B和Llama 3.2 90B均回答错误，Llama 3.2 11B回答的是14.07%更接近的是图表中2016年或者是2014年的人口出生率，而Llama 3.2 90B回答的9.2%来源无从考究。

第二题，根据地图提出问题：“请问图中红线连接两地的距离是？”

这里通过地图测量工具测量出来的距离为5.1公里，所以答案小编认为接近5.1公里的答案都是正确的。

接下来看下四个模型的回答，首先GPT-4o-mini非常直接表示无法测量地图上的距离。而Claude-3-Haiku和Llama 3.2 11B给出答案都是6.5公里，尽管和正确答案5.1公里还有差距，但都是在四个模型中最接近正确答案的回答。而Llama 3.2 90B回答的10公里对比正确答案还是差得有点多。

最后，再让四个模型描述一下《泰坦尼克号》中的名场面。从回答来看，GPT-4o-mini和Claude-3-Haiku的回答只是根据图片直接描述所看到的画面，而Llama 3.2 11B和90B模型能够准确识别出《泰坦尼克号》的经典场景，并提供了较为详细的描述，小编认为这一点上是超越了GPT-4o-mini和Claude-3-Haiku。

根据以上的测试，可以得出在图表理解和地图测量方面，Llama 3.2系列模型还有一定的提升空间。特别是在处理具体数据时，两个模型的准确性还有待提高，但在图像描述和场景理解方面表现的确不错。

除此之外，302.AI的API超市也已经更新了Llama 3.2 11B和Llama 3.2 90B模型的API，开发者能快速通过302.AI的API超市在线调试API，更简单地将模型集成到自己的应用中，无需从头开始构建和训练模型，更重要的是，302.AI的API超市提供的按需付费模式，降低了初期尝试和集成的门槛，使得更多的开发者和企业能够轻松地使用各AI模型的API。

Llama 3.2系列的发布标志着AI技术在多模态理解方面又迈出了一步。多模态AI模型通过融合文本、图像等多种数据类型，为AI技术在理解和处理复杂任务方面开辟了新的可能性，尽管Llama 3.2系列还有上升的空间，但我们可以期待，随着AI技术的不断进步和应用场景的扩展，多模态AI模型在未来充满了无限可能。

参考文章：https://ai.meta.com/blog/llama-3-2-connect-2024-vision-edge-mobile-devices/

👉立即注册免费试用302.AI，开启你的AI之旅！👈

为什么选择302.AI？

● 灵活付费：无需月费，按需付费，成本可控
● 丰富功能：从文字、图片到视频，应有尽有，满足多种场景需求
● 开源生态：支持开发者深度定制，打造专属AI应用
● 易用性：界面友好，操作简单，快速上手

302.AI 基准实验室 | 时隔两月Meta再发布新模型Llama 3.2，视觉理解方面媲美GPT-4o-mini？！

👉立即注册免费试用302.AI，开启你的AI之旅！👈

相关推荐

Claude Sonnet 4.5 对阵 GLM-4.6：中外大模型编程巅峰对决，胜负已分? 丨302.AI 基准实验室

体验升级而非颠覆，API成本直降75%：DeepSeek-V3.2-Exp评测丨302.AI基准实验室

302.AI 赛博月刊丨Vol.9 GPT-5，输给了香蕉

追平 DeepSeek-V3？美团 LongCat-Flash-Chat 实测：快，但不够“聪明”丨302.AI 基准实验室

发表回复