302.AI 基准实验室 | Meta号称最强的开源模型Llama3.1，却数不清strawberry有几个“r”？ -

7月23日，Meta AI发布最新开源模型 —— Llama 3.1 ！在多项测试中超越闭源模型，开源模型的时代要来了吗？

Llama3.1共包含8b、70b和405b三种模型，支持八种语言包括英语，德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语，具备 128K 扩展上下文长度，该模型提供通用知识、数学计算、多语言翻译和工具使用等能力。

其中，8B、70B和405B三种模型表示不一样的参数：

8B模型：拥有80亿参数，是入门级的选项，适合基本的自然语言处理任务。

70B模型：拥有700亿参数，性能显著提升，能够处理更复杂的语言理解和生成任务。

405B模型：拥有4050亿参数，为高端模型，提供最高水平的语言理解和生成能力。

随着模型参数数量的增加，模型在语言理解、文本生成、以及任务执行的复杂性和准确性方面表现更加出色。405B模型因其庞大的规模，在处理特别复杂或需求高的任务时，能提供更加深入和精细的响应。

Meta在海外社交平台上公布，他们对Llama 3.1进行了全面评估，涵盖了150多个多语言基准数据集，这些结果显示，拥有405B 的Llama 3.1在多项任务中表现出色，其性能可与GPT-4、Claude 2以及Gemini Ultra等领先的闭源模型相媲美。

此外还在现实场景中进行了大量人工评估，可以看到Llama 3.1 405B模型与GPT-4不相上下，但略逊于GPT-4o，与Claude-3.5-Sonnet相较下，405B大模型胜率为24.9%。

而8B和70B的小模型，在参数量相似的闭源和开源模型中，同样表现出色，性能优于其他同尺寸模型，同时在实用性和安全性方面也比其前代产品更加平衡。在基准评估中，通用任务、代码、数学、推理、工具使用、多语言上，取得了SOTA。

当然，官方的宣传总会让人有种“王婆卖瓜”的感觉，那接下来小编就来带大家试用一下Llama 3.1 405B，看看它的表现如何，首先找到302.AI的聊天机器人，302.AI在Llama 3.1推出的第一时间上线了Llama 3.1 405B、Llama 3.1 70B和Llama 3.1 8B模型。302.AI还提供按需付费的灵活使用方式，无需固定月费或捆绑套餐，同时支持一键分享功能，朋友也能轻松使用。

我们选择Llama 3.1 405B模型后，设置好机器人信息后点击生成，首先测试下Llama 3.1 405B的翻译能力，让Llama 3.1 405B将童话故事《白雪公主》翻译成西班牙语和德语。

翻译是没问题的，接下来看下Llama 3.1复杂推理能力怎么样，参考网友的提问：“我有3件衬衫、5条短裤和1条连衣裙。我要出行10天，这些衣服够我度假用吗？”

Llama 3.1会先根据我的衣服种类和数量组成16套衣服，其次设想不同场景下，这些数量是否满足，最后给出建议，整一个回复是比较是有推理逻辑的。

所谓“没有对比就没有伤害”，小编就来对比下Llama3.1各版本和闭源模型GPT-4o、GPT-4o mini和Claude3.5-Sonnet的表现。首先打开302.AI模型竞技场，同上文聊天机器人一样，模型竞技场也已上线Llama3.1各模型，不得不说我们更新AI模型的速度是有目共睹的~

再为大家介绍一次模型竞技场使用步骤——只需选择所需的模型，输入问题，便能立即得到答案，无需其他复杂的操作步骤。先问一个最近很火的问题，让各大模型数一数“strawberry”中有几个“r”。

没想到的是，开局不利，各大模型连数数都没能数对啊！继续追问引导看看结果会不会有所改变：

可以看到，在继续追问“确定吗”后，仅有Claude-3.5-Sonnet清醒了过来，回答正确。而原本在第一轮回答有2个“r”的Llama 3.1 405B把答案改成一个“r”，离正确答案越来越远。

都说每一个新模型出来都要先经过“弱智吧”的考验，那最后就提问一个来自“弱智吧”的问题：“为什么我爸妈结婚的时候没邀请我参加婚礼？”看下各模型的回答：

这个问题显然简单很多，六个模型都答对了，Llama 3.1 405B的回答里还加上了emoji表情，Claude-3.5-Sonnet不仅给出了答案，还附上了详细的解释，最后以一句温暖的句子结尾：“所以，别担心你错过了什么重要的事情。你没有被邀请参加父母的婚礼是完全正常的，因为那时的你还只是一个美好的期待!”

另外，302.AI的API超市的语言大模型中也更新了Llama 3.1各版本的API，不用繁琐的部署，能够在线调试API，可快速接入Llama 3.1 各版本的模型，就算你是小白也能快速轻松上手使用。

随着Meta发布其最新的AI模型Llama 3.1，开源模型和闭源模型的竞争在无形中更加激烈，但小编认为，在目前的情况下，对于开源模型和闭源模型哪一个更好暂时没有一个肯定的答案，但是能确定的是，未来，我们可能会看到一个更加多样化的AI生态，其中开源和闭源模型将根据不同的需求和场景，各展所长。

👉立即注册免费试用302.AI，开启你的AI之旅！👈

为什么选择302.AI？

● 灵活付费：无需月费，按需付费，成本可控
● 丰富功能：从文字、图片到视频，应有尽有，满足多种场景需求
● 开源生态：支持开发者深度定制，打造专属AI应用
● 易用性：界面友好，操作简单，快速上手

302.AI 基准实验室 | Meta号称最强的开源模型Llama3.1，却数不清strawberry有几个“r”？

👉立即注册免费试用302.AI，开启你的AI之旅！👈

为什么选择302.AI？

相关推荐

懂交付，更懂质感：MiniMax M2.1 Vs. GLM 4.7 国产开源顶流对决丨302.AI 基准实验室

302.AI客户端：零配置，支持任意模型，最适合新手的Vibe Coding工具 | 新品发布

智谱压轴力作 GLM-4.7 实测：从基准刷榜到任务交付，稳坐开源第一 丨302.AI 基准实验室

谷歌的“普惠核弹”：Gemini 3 Flash 实测——更快、更强、更省可以兼得丨302.AI 基准实验室

发表回复

智谱压轴力作 GLM-4.7 实测：从基准刷榜到任务交付，稳坐开源第一丨302.AI 基准实验室