Meta号称最强的开源模型Llama3.1,却数不清strawberry有几个“r”?

7月23日,Meta AI发布最新开源模型 —— Llama 3.1 !在多项测试中超越闭源模型,开源模型的时代要来了吗?

Llama3.1共包含8b、70b和405b三种模型,支持八种语言包括英语,德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语,具备 128K 扩展上下文长度,该模型提供通用知识、数学计算、多语言翻译和工具使用等能力。

Meta号称最强的开源模型Llama3.1,却数不清strawberry有几个“r”?

其中,8B、70B和405B三种模型表示不一样的参数:

8B模型:拥有80亿参数,是入门级的选项,适合基本的自然语言处理任务。

70B模型:拥有700亿参数,性能显著提升,能够处理更复杂的语言理解和生成任务。

405B模型:拥有4050亿参数,为高端模型,提供最高水平的语言理解和生成能力。

随着模型参数数量的增加,模型在语言理解、文本生成、以及任务执行的复杂性和准确性方面表现更加出色。405B模型因其庞大的规模,在处理特别复杂或需求高的任务时,能提供更加深入和精细的响应。

Meta在海外社交平台上公布,他们对Llama 3.1进行了全面评估,涵盖了150多个多语言基准数据集,这些结果显示,拥有405B 的Llama 3.1在多项任务中表现出色,其性能可与GPT-4、Claude 2以及Gemini Ultra等领先的闭源模型相媲美。

Meta号称最强的开源模型Llama3.1,却数不清strawberry有几个“r”?

此外还在现实场景中进行了大量人工评估,可以看到Llama 3.1 405B模型与GPT-4不相上下,但略逊于GPT-4o,与Claude-3.5-Sonnet相较下,405B大模型胜率为24.9%。

Meta号称最强的开源模型Llama3.1,却数不清strawberry有几个“r”?

而8B和70B的小模型,在参数量相似的闭源和开源模型中,同样表现出色,性能优于其他同尺寸模型,同时在实用性和安全性方面也比其前代产品更加平衡。在基准评估中,通用任务、代码、数学、推理、工具使用、多语言上,取得了SOTA。

Meta号称最强的开源模型Llama3.1,却数不清strawberry有几个“r”?

当然,官方的宣传总会让人有种“王婆卖瓜”的感觉,那接下来小编就来带大家试用一下Llama 3.1 405B,看看它的表现如何,首先找到302.AI的聊天机器人,302.AI在Llama 3.1推出的第一时间上线了Llama 3.1 405B、Llama 3.1 70B和Llama 3.1 8B模型。302.AI还提供按需付费的灵活使用方式,无需固定月费或捆绑套餐,同时支持一键分享功能,朋友也能轻松使用。

Meta号称最强的开源模型Llama3.1,却数不清strawberry有几个“r”?

我们选择Llama 3.1 405B模型后,设置好机器人信息后点击生成,首先测试下Llama 3.1 405B的翻译能力,让Llama 3.1 405B将童话故事《白雪公主》翻译成西班牙语和德语。

Meta号称最强的开源模型Llama3.1,却数不清strawberry有几个“r”?

翻译是没问题的,接下来看下Llama 3.1复杂推理能力怎么样,参考网友的提问:“我有3件衬衫、5条短裤和1条连衣裙。我要出行10天,这些衣服够我度假用吗?”

Meta号称最强的开源模型Llama3.1,却数不清strawberry有几个“r”?

Llama 3.1会先根据我的衣服种类和数量组成16套衣服,其次设想不同场景下,这些数量是否满足,最后给出建议,整一个回复是比较是有推理逻辑的。

所谓“没有对比就没有伤害”,小编就来对比下Llama3.1各版本和闭源模型GPT-4o、GPT-4o mini和Claude3.5-Sonnet的表现。首先打开302.AI模型竞技场,同上文聊天机器人一样,模型竞技场也已上线Llama3.1各模型,不得不说我们更新AI模型的速度是有目共睹的~

再为大家介绍一次模型竞技场使用步骤——只需选择所需的模型,输入问题,便能立即得到答案,无需其他复杂的操作步骤。先问一个最近很火的问题,让各大模型数一数“strawberry”中有几个“r”。

Meta号称最强的开源模型Llama3.1,却数不清strawberry有几个“r”?

没想到的是,开局不利,各大模型连数数都没能数对啊!继续追问引导看看结果会不会有所改变:

Meta号称最强的开源模型Llama3.1,却数不清strawberry有几个“r”?

可以看到,在继续追问“确定吗”后,仅有Claude-3.5-Sonnet清醒了过来,回答正确。而原本在第一轮回答有2个“r”的Llama 3.1 405B把答案改成一个“r”,离正确答案越来越远。

都说每一个新模型出来都要先经过“弱智吧”的考验,那最后就提问一个来自“弱智吧”的问题:“为什么我爸妈结婚的时候没邀请我参加婚礼?”看下各模型的回答:

Meta号称最强的开源模型Llama3.1,却数不清strawberry有几个“r”?

这个问题显然简单很多,六个模型都答对了,Llama 3.1 405B的回答里还加上了emoji表情,Claude-3.5-Sonnet不仅给出了答案,还附上了详细的解释,最后以一句温暖的句子结尾:“所以,别担心你错过了什么重要的事情。你没有被邀请参加父母的婚礼是完全正常的,因为那时的你还只是一个美好的期待!”

另外,302.AI的API超市的语言大模型中也更新了Llama 3.1各版本的API,不用繁琐的部署,能够在线调试API,可快速接入Llama 3.1 各版本的模型,就算你是小白也能快速轻松上手使用。

Meta号称最强的开源模型Llama3.1,却数不清strawberry有几个“r”?

参考文章:https://mp.weixin.qq.com/s/7XskkSvNxNlqxAyteWb4sw

随着Meta发布其最新的AI模型Llama 3.1,开源模型和闭源模型的竞争在无形中更加激烈,但小编认为,在目前的情况下,对于开源模型和闭源模型哪一个更好暂时没有一个肯定的答案,但是能确定的是,未来,我们可能会看到一个更加多样化的AI生态,其中开源和闭源模型将根据不同的需求和场景,各展所长。

(0)
302.AI302.AI
上一篇 2024 年 7 月 25 日 下午5:34
下一篇 2024 年 7 月 29 日 下午2:53

相关推荐

  • OpenAI新模型GPT-4o mini,超高性价比模型能力如何?

    北京时间7月19日凌晨,OpenAI 突然宣布发布新模型GPT-4o mini,将全面替代GPT-3.5 Turbo。 OpenAI在今年5月发布了OpenAI公司迄今为止速度最快、综合能力最强,同样也是最贵的GPT-4o模型,而这次发布的GPT-4o mini则是一个规格更小、更便宜的变体,通过兼具“能力和性价比”,拓展低价位市场的竞争。 根据官网展示的价…

    2024 年 7 月 23 日
    19200
  • AI视力考验:各AI模型的视觉理解能力如何?

    近日,行业内有不少新模型涌现出大众的面前,我们会发现,有的模型会在其官方宣传中提到“多模态”一词,比如大家熟知的GPT-4o、Gemini 1.5 Pro等,在发布时都被定义为“原生多模态”,这些多模态LLM在相关的介绍中,都用到了“视觉能力”、“视觉理解”这样的表述。 简单的理解,就是这些模型能够“看得见,并看得懂”,仿佛人的眼睛。为此,很多人…

    2024 年 7 月 25 日
    7000
  • Live-portrait人像转视频模型,让照片中的脸都动起来

    7月6日,可灵网页版正式上线并且宣布了该网页端集成了文生图、文生视频相关能力,同时提供了一些新功能,如更加清晰的高画质版视频、首尾帧控制、镜头控制等全新编辑能力。 而在可灵网页版上线的前两天,快手发布了Live-portrait初始版本的推理代码和模型模型。此外,LivePortrait的官方网站也在同一天上线。 Live-portrait能够将静态照片转化…

    2024 年 7 月 25 日
    6800
  • 当提示词使用”过去时”,就能突破各AI模型的安全防线?

    近日,洛桑联邦理工学院的研究人员发现,当使用AI模型的时候,只要在提示词中把时间设定成过去,就能突破大模型的安全防线。原本只有1%的攻击成功率飙升至88%,几乎达到了“有求必应”的境界。这项发现不仅在英文环境下有效,在中文语境中同样适用,让网友们惊叹于破解大模型漏洞的简便性。 实验中,研究人员从JBB-Behaviors数据集中挑选了100个有害行为,通过将…

    2024 年 8 月 1 日
    7800
  • Ideogram推出2.0版本,连Midjourney都感受到了压力?看看到底有多厉害?!

    8月21日,由Ideogram团队倾力打造的创新型文本生成图像模型 Ideogram 2.0正式发布。 其实早在今年2月,Ideogram团队就发布了Ideogram模型1.0版本,但是其在AI生图领域并未引起太大波澜,但在这一次 Ideogram 2.0版本发布后,Ideogram官方直接在社交媒体平台自信宣称,这一版本比FLUX Pro和DALL·E3要…

    2024 年 8 月 26 日
    6900

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注