时隔两月Meta再发布新模型Llama 3.2,视觉理解方面媲美GPT-4o-mini?!

距离7月23日Llama 3.1发布才刚刚过去 2 个月,Meta公司在9月26日又官宣推出最新AI模型系列Llama 3.2,此次Llama 3.2系列包括四个版本:1B、3B、11B和90B。

时隔两月Meta再发布新模型Llama 3.2,视觉理解方面媲美GPT-4o-mini?!

Llama 3.2 1B和Llama 3.2 3B都是轻量级的模型,适合边缘和移动设备的轻量级纯文本模型。而Llama 3.2 11B和Llama 3.2 90B则是中型模型,今天,小编就具体介绍一下Llama 3.2 11B和Llama 3.2 90B。

Llama 3.2 系列中最大的两个模型 11B 和 90B 支持图像推理用例,如文档级理解(包括图表和图形)、图像字幕以及视觉基础任务(例如基于自然语言描述在图像中精确定位对象)。

简单地理解就是,用户可以直接提问【企业去年哪个月的销售额最高?】然后 Llama 3.2可以根据可用的图表进行推理并快速提供答案。

除此之外,Llama 3.2 还能使用地图进行推理并帮助回答问题,比如用户提问【何时徒步旅行可能会变得更陡峭?】或者【地图上标记的特定路径的距离】。还有,Llama 3.2 11B 和 90B 模型可以通过从图像中提取细节、理解场景,制作一两句话作为图像字幕来帮助讲述故事,从而弥合视觉和语言之间的差距。

Meta官方通过评估表明,Llama 3.2 11B和Llama 3.2 90B在图像识别和一系列视觉理解任务上与领先的基础模型 Claude 3 Haiku 和 GPT4o-mini 相媲美:

时隔两月Meta再发布新模型Llama 3.2,视觉理解方面媲美GPT-4o-mini?!

Llama 3.2 11B和Llama 3.2 90B是不是真的如官方所说的这么厉害?我们可以一起来试一试,想要快速体验Llama 3.2 11B和Llama 3.2 90B模型,但又不熟悉使用API的用户,可以选择302.AI,302.AI的聊天机器人和模型竞技场已经更新最新的Llama 3.2 11B和Llama 3.2 90B模型,而且提供按需付费的服务方式,可以有效控制预算,无需担心资源浪费。

时隔两月Meta再发布新模型Llama 3.2,视觉理解方面媲美GPT-4o-mini?!

既然官方在发布时候提到Llama 3.2 11B和Llama 3.2 90B模型的视觉理解能力能够与Claude-3-Haiku和 GPT-4o-mini相媲美,那接下来,小编就使用302.AI的模型竞技场对比Llama 3.2 11B、Llama 3.2 90B、Claude-3-Haiku和 GPT-4o-mini这4种模型在视觉理解方面表现:

时隔两月Meta再发布新模型Llama 3.2,视觉理解方面媲美GPT-4o-mini?!

首先,测试一下四个模型的图表的理解能力,根据以下图片进行提问:

第一个问题:“2015年人口自然增长率为多少?”

时隔两月Meta再发布新模型Llama 3.2,视觉理解方面媲美GPT-4o-mini?!

我们可以看到,根据以上图表可以看到人口自然增长率为绿色折线,其中2015年的自然增长率在5%上下。再来看以下四个模型的回答,首先GPT-4o-mini和Claude-3-Haiku都比较接近答案,而Llama 3.2 11B和Llama 3.2 90B均回答错误,Llama 3.2 11B回答的是14.07%更接近的是图表中2016年或者是2014年的人口出生率,而Llama 3.2 90B回答的9.2%来源无从考究。

时隔两月Meta再发布新模型Llama 3.2,视觉理解方面媲美GPT-4o-mini?!

第二题,根据地图提出问题:“请问图中红线连接两地的距离是?”

这里通过地图测量工具测量出来的距离为5.1公里,所以答案小编认为接近5.1公里的答案都是正确的。

时隔两月Meta再发布新模型Llama 3.2,视觉理解方面媲美GPT-4o-mini?!

接下来看下四个模型的回答,首先GPT-4o-mini非常直接表示无法测量地图上的距离。而Claude-3-Haiku和Llama 3.2 11B给出答案都是6.5公里,尽管和正确答案5.1公里还有差距,但都是在四个模型中最接近正确答案的回答。而Llama 3.2 90B回答的10公里对比正确答案还是差得有点多。

时隔两月Meta再发布新模型Llama 3.2,视觉理解方面媲美GPT-4o-mini?!

最后,再让四个模型描述一下《泰坦尼克号》中的名场面。从回答来看,GPT-4o-mini和Claude-3-Haiku的回答只是根据图片直接描述所看到的画面,而Llama 3.2 11B和90B模型能够准确识别出《泰坦尼克号》的经典场景,并提供了较为详细的描述,小编认为这一点上是超越了GPT-4o-mini和Claude-3-Haiku。

时隔两月Meta再发布新模型Llama 3.2,视觉理解方面媲美GPT-4o-mini?!

根据以上的测试,可以得出在图表理解和地图测量方面,Llama 3.2系列模型还有一定的提升空间。特别是在处理具体数据时,两个模型的准确性还有待提高,但在图像描述和场景理解方面表现的确不错。

除此之外,302.AI的API超市也已经更新了Llama 3.2 11B和Llama 3.2 90B模型的API,开发者能快速通过302.AI的API超市在线调试API,更简单地将模型集成到自己的应用中,无需从头开始构建和训练模型,更重要的是,302.AI的API超市提供的按需付费模式,降低了初期尝试和集成的门槛,使得更多的开发者和企业能够轻松地使用各AI模型的API。

时隔两月Meta再发布新模型Llama 3.2,视觉理解方面媲美GPT-4o-mini?!

时隔两月Meta再发布新模型Llama 3.2,视觉理解方面媲美GPT-4o-mini?!

Llama 3.2系列的发布标志着AI技术在多模态理解方面又迈出了一步。多模态AI模型通过融合文本、图像等多种数据类型,为AI技术在理解和处理复杂任务方面开辟了新的可能性,尽管Llama 3.2系列还有上升的空间,但我们可以期待,随着AI技术的不断进步和应用场景的扩展,多模态AI模型在未来充满了无限可能。

参考文章:https://ai.meta.com/blog/llama-3-2-connect-2024-vision-edge-mobile-devices/

Like (0)
302.AI302.AI
Previous 2024 年 9 月 27 日 下午5:16
Next 2024 年 9 月 28 日 下午6:49

相关推荐

  • Runway Gen-3 Alpha图生视频上线,图片转视频只需要一步?!

    7月30日凌晨,Runway官方在社交媒体平台宣布,在6月中旬推出的视频模型Gen-3Alpha正式推出图生视频功能。官方表示,图生视频功能将极大提高了生成视频的艺术控制和一致性。 这一更新允许用户将任何图像用作视频生成的第一帧,可以单独使用,也可以与文本提示一起使用。 简单的说就是,用户上传一张图片可以单独生成一个视频,也可以在上传图片后搭配文字描述,再生…

    2024 年 8 月 2 日
    42400
  • 资讯丨刚刚,DeepSeek更新了V3版本,快来302抢先实测了解模型性能

    就在刚刚,DeepSeek了更新V3版本!据了解,模型的速度有了明显提升。 官方还没有来得及正式宣发,我们迫不及待尝试了下,的确更新了! 那今天就抢先带大家在302.AI实测了解一下DeepSeek-V3,看看其在文本处理、推理逻辑、编程等方面的表现如何! > 在302.AI上使用 302.AI的聊天机器人和API超市都同步更新了DeepSeek-V3…

    2024 年 12 月 25 日
    50300
  • Stable Diffusion原班人马打造FLUX.1模型,推出的三个版本有什么不同?

    就在不久前,Stable Diffusion开源图像模型推出后,在网络上引发了热烈的讨论和广泛关注。后来,Stable Diffusion 部分创始成员创建了新公司Black Forest Labs,8月1日,Black Forest Labs推出了新研发的图像生成模型FLUX.1 。 FLUX.1 拥有12B参数,是迄今为止参数最多图像生成模型之一。该模型…

    2024 年 8 月 13 日
    37600
  • 302.AI带来实时语音便捷方案,让你快速体验AI语音通话

    在10月初,OpenAI在旧金山召开了开发者大会。在发布会中,OpenAI推出了Realtime API 的公开测试版。 Realtime API是一种实时多模态API,它允许开发人员构建低延迟、多模态的AI应用体验。这个API背后的技术是GPT-4o模型,它支持音频输入和输出,能够实现超越传统基于文本的AI对话的实时、自然的语音交互。 像Realtime这…

    2024 年 10 月 31 日
    53700
  • GPT-4o新版本突然上线,结构化输出是什么?

    8月6日,OpenAI的官网悄悄上线了新版本gpt-4o-2024-08-06模型。去年的DevDay活动中,OpenAI推出了JSON模式,而这次升级的新版本在API中引入了结构化输出,这一新功能旨在确保模型生成的输出与开发人员提供的 JSON 架构完全匹配。 gpt-4o-2024-08-06采用结构化输出的新模型在复杂 JSON 模式跟踪的评估中获得了…

    2024 年 8 月 8 日
    49000

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注