时隔两月Meta再发布新模型Llama 3.2,视觉理解方面媲美GPT-4o-mini?!

距离7月23日Llama 3.1发布才刚刚过去 2 个月,Meta公司在9月26日又官宣推出最新AI模型系列Llama 3.2,此次Llama 3.2系列包括四个版本:1B、3B、11B和90B。

时隔两月Meta再发布新模型Llama 3.2,视觉理解方面媲美GPT-4o-mini?!

Llama 3.2 1B和Llama 3.2 3B都是轻量级的模型,适合边缘和移动设备的轻量级纯文本模型。而Llama 3.2 11B和Llama 3.2 90B则是中型模型,今天,小编就具体介绍一下Llama 3.2 11B和Llama 3.2 90B。

Llama 3.2 系列中最大的两个模型 11B 和 90B 支持图像推理用例,如文档级理解(包括图表和图形)、图像字幕以及视觉基础任务(例如基于自然语言描述在图像中精确定位对象)。

简单地理解就是,用户可以直接提问【企业去年哪个月的销售额最高?】然后 Llama 3.2可以根据可用的图表进行推理并快速提供答案。

除此之外,Llama 3.2 还能使用地图进行推理并帮助回答问题,比如用户提问【何时徒步旅行可能会变得更陡峭?】或者【地图上标记的特定路径的距离】。还有,Llama 3.2 11B 和 90B 模型可以通过从图像中提取细节、理解场景,制作一两句话作为图像字幕来帮助讲述故事,从而弥合视觉和语言之间的差距。

Meta官方通过评估表明,Llama 3.2 11B和Llama 3.2 90B在图像识别和一系列视觉理解任务上与领先的基础模型 Claude 3 Haiku 和 GPT4o-mini 相媲美:

时隔两月Meta再发布新模型Llama 3.2,视觉理解方面媲美GPT-4o-mini?!

Llama 3.2 11B和Llama 3.2 90B是不是真的如官方所说的这么厉害?我们可以一起来试一试,想要快速体验Llama 3.2 11B和Llama 3.2 90B模型,但又不熟悉使用API的用户,可以选择302.AI,302.AI的聊天机器人和模型竞技场已经更新最新的Llama 3.2 11B和Llama 3.2 90B模型,而且提供按需付费的服务方式,可以有效控制预算,无需担心资源浪费。

时隔两月Meta再发布新模型Llama 3.2,视觉理解方面媲美GPT-4o-mini?!

既然官方在发布时候提到Llama 3.2 11B和Llama 3.2 90B模型的视觉理解能力能够与Claude-3-Haiku和 GPT-4o-mini相媲美,那接下来,小编就使用302.AI的模型竞技场对比Llama 3.2 11B、Llama 3.2 90B、Claude-3-Haiku和 GPT-4o-mini这4种模型在视觉理解方面表现:

时隔两月Meta再发布新模型Llama 3.2,视觉理解方面媲美GPT-4o-mini?!

首先,测试一下四个模型的图表的理解能力,根据以下图片进行提问:

第一个问题:“2015年人口自然增长率为多少?”

时隔两月Meta再发布新模型Llama 3.2,视觉理解方面媲美GPT-4o-mini?!

我们可以看到,根据以上图表可以看到人口自然增长率为绿色折线,其中2015年的自然增长率在5%上下。再来看以下四个模型的回答,首先GPT-4o-mini和Claude-3-Haiku都比较接近答案,而Llama 3.2 11B和Llama 3.2 90B均回答错误,Llama 3.2 11B回答的是14.07%更接近的是图表中2016年或者是2014年的人口出生率,而Llama 3.2 90B回答的9.2%来源无从考究。

时隔两月Meta再发布新模型Llama 3.2,视觉理解方面媲美GPT-4o-mini?!

第二题,根据地图提出问题:“请问图中红线连接两地的距离是?”

这里通过地图测量工具测量出来的距离为5.1公里,所以答案小编认为接近5.1公里的答案都是正确的。

时隔两月Meta再发布新模型Llama 3.2,视觉理解方面媲美GPT-4o-mini?!

接下来看下四个模型的回答,首先GPT-4o-mini非常直接表示无法测量地图上的距离。而Claude-3-Haiku和Llama 3.2 11B给出答案都是6.5公里,尽管和正确答案5.1公里还有差距,但都是在四个模型中最接近正确答案的回答。而Llama 3.2 90B回答的10公里对比正确答案还是差得有点多。

时隔两月Meta再发布新模型Llama 3.2,视觉理解方面媲美GPT-4o-mini?!

最后,再让四个模型描述一下《泰坦尼克号》中的名场面。从回答来看,GPT-4o-mini和Claude-3-Haiku的回答只是根据图片直接描述所看到的画面,而Llama 3.2 11B和90B模型能够准确识别出《泰坦尼克号》的经典场景,并提供了较为详细的描述,小编认为这一点上是超越了GPT-4o-mini和Claude-3-Haiku。

时隔两月Meta再发布新模型Llama 3.2,视觉理解方面媲美GPT-4o-mini?!

根据以上的测试,可以得出在图表理解和地图测量方面,Llama 3.2系列模型还有一定的提升空间。特别是在处理具体数据时,两个模型的准确性还有待提高,但在图像描述和场景理解方面表现的确不错。

除此之外,302.AI的API超市也已经更新了Llama 3.2 11B和Llama 3.2 90B模型的API,开发者能快速通过302.AI的API超市在线调试API,更简单地将模型集成到自己的应用中,无需从头开始构建和训练模型,更重要的是,302.AI的API超市提供的按需付费模式,降低了初期尝试和集成的门槛,使得更多的开发者和企业能够轻松地使用各AI模型的API。

时隔两月Meta再发布新模型Llama 3.2,视觉理解方面媲美GPT-4o-mini?!

时隔两月Meta再发布新模型Llama 3.2,视觉理解方面媲美GPT-4o-mini?!

Llama 3.2系列的发布标志着AI技术在多模态理解方面又迈出了一步。多模态AI模型通过融合文本、图像等多种数据类型,为AI技术在理解和处理复杂任务方面开辟了新的可能性,尽管Llama 3.2系列还有上升的空间,但我们可以期待,随着AI技术的不断进步和应用场景的扩展,多模态AI模型在未来充满了无限可能。

参考文章:https://ai.meta.com/blog/llama-3-2-connect-2024-vision-edge-mobile-devices/

(0)
302.AI302.AI
上一篇 4天前
下一篇 3天前

相关推荐

  • 你真的会使用AI吗?CO-STAR超给力提示词框架,速看

    就在今年5月,新加坡政府科技局(GovTech)组织了首届 GPT-4 提示工程大赛,吸引了超过 400 名杰出的参与者。冠军获得者Sheila Teo分享了如何使用一些简单有效的技巧来优化对ChatGPT的使用。 对于AI使用者来说,结构化的提示词框架能够帮助我们以一种更系统、更明确的方式与 AI 交互。这种清晰性对于确保 AI 系统能准确理解用户的意图至…

    2024 年 7 月 12 日
    10500
  • 13.8和13.11哪个大这都能吵起来?不如先来看看AI模型的数学能力怎么样

    7月13日,最新一期的《歌手》公布排名,孙楠得票13.8%,外国歌手香缇莫得票13.11%,以微小的分数差距引发网友热议:13.8和13.11哪个大? 看了一下评论,居然有不少网友认为是13.11比13.8大,顺带在评论区分析了一番。看到评论的小编,有那么一瞬间以为他们在玩抽象。怪不得网友戏称这一群认为13.11更大的人是“九年义务漏网之鱼”,毕竟这是小学的…

    2024 年 7 月 22 日
    17600
  • 智谱发布的新一代基座模型GLM-4-Plus和GLM-4V-Plus表现如何?

    8月29日,智谱AI在KDD国际数据挖掘与知识发现大会上发布了新一代基座模型,包括语言模型GLM-4-Plus、图像/视频理解模型GLM-4V-Plus等。 GLM-4-Plus 基座模型,通过多种方式构造出了海量高质量数据,并利用 PPO等多项技术,有效提升了模型推理、指令遵循等方面的表现,能够更好地反映人类偏好。据官方称,GLM-4-Plus在各项指标上…

    2024 年 9 月 2 日
    8300
  • Reflection-Llama-3.1-70B发布短短几天,为何备受争议?

    9月6日,AI写作初创公司HyperWrite发布了Reflection-Llama-3.1-70B模型。该模型基于Meta的Llama 3.1-70B Instruct,并使用原始的 Llama Chat 格式,确保了与现有工具和 pipeline 的兼容性。 在发布当天,HyperWrite 公司的 CEO Matt Shumer 在社交媒体平台发文表示…

    2024 年 9 月 9 日
    6800
  • 视频生成模型神仙打架?到底哪家更胜一筹

    自从OpenAI发布了正在研发和测试中的文生视频大模型Sora后,AI视频生成工具接连“内卷”,开始”神仙打架“模式。 首先,在当地时间6月12日,Luma创始人官宣并发布新视频模型——Dream Machine。Dream Machine可以在120秒内生成120帧的视频,具备流畅的运动、电影摄影和戏剧效果。6月28日,Luma宣布首尾帧制作加入Dream…

    2024 年 7 月 17 日
    17000

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注