7月23日,Meta AI发布最新开源模型 —— Llama 3.1 !在多项测试中超越闭源模型,开源模型的时代要来了吗?
Llama3.1共包含8b、70b和405b三种模型,支持八种语言包括英语,德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语,具备 128K 扩展上下文长度,该模型提供通用知识、数学计算、多语言翻译和工具使用等能力。
其中,8B、70B和405B三种模型表示不一样的参数:
8B模型:拥有80亿参数,是入门级的选项,适合基本的自然语言处理任务。
70B模型:拥有700亿参数,性能显著提升,能够处理更复杂的语言理解和生成任务。
405B模型:拥有4050亿参数,为高端模型,提供最高水平的语言理解和生成能力。
随着模型参数数量的增加,模型在语言理解、文本生成、以及任务执行的复杂性和准确性方面表现更加出色。405B模型因其庞大的规模,在处理特别复杂或需求高的任务时,能提供更加深入和精细的响应。
Meta在海外社交平台上公布,他们对Llama 3.1进行了全面评估,涵盖了150多个多语言基准数据集,这些结果显示,拥有405B 的Llama 3.1在多项任务中表现出色,其性能可与GPT-4、Claude 2以及Gemini Ultra等领先的闭源模型相媲美。
此外还在现实场景中进行了大量人工评估,可以看到Llama 3.1 405B模型与GPT-4不相上下,但略逊于GPT-4o,与Claude-3.5-Sonnet相较下,405B大模型胜率为24.9%。
而8B和70B的小模型,在参数量相似的闭源和开源模型中,同样表现出色,性能优于其他同尺寸模型,同时在实用性和安全性方面也比其前代产品更加平衡。在基准评估中,通用任务、代码、数学、推理、工具使用、多语言上,取得了SOTA。
当然,官方的宣传总会让人有种“王婆卖瓜”的感觉,那接下来小编就来带大家试用一下Llama 3.1 405B,看看它的表现如何,首先找到302.AI的聊天机器人,302.AI在Llama 3.1推出的第一时间上线了Llama 3.1 405B、Llama 3.1 70B和Llama 3.1 8B模型。302.AI还提供按需付费的灵活使用方式,无需固定月费或捆绑套餐,同时支持一键分享功能,朋友也能轻松使用。
我们选择Llama 3.1 405B模型后,设置好机器人信息后点击生成,首先测试下Llama 3.1 405B的翻译能力,让Llama 3.1 405B将童话故事《白雪公主》翻译成西班牙语和德语。
翻译是没问题的,接下来看下Llama 3.1复杂推理能力怎么样,参考网友的提问:“我有3件衬衫、5条短裤和1条连衣裙。我要出行10天,这些衣服够我度假用吗?”
Llama 3.1会先根据我的衣服种类和数量组成16套衣服,其次设想不同场景下,这些数量是否满足,最后给出建议,整一个回复是比较是有推理逻辑的。
所谓“没有对比就没有伤害”,小编就来对比下Llama3.1各版本和闭源模型GPT-4o、GPT-4o mini和Claude3.5-Sonnet的表现。首先打开302.AI模型竞技场,同上文聊天机器人一样,模型竞技场也已上线Llama3.1各模型,不得不说我们更新AI模型的速度是有目共睹的~
再为大家介绍一次模型竞技场使用步骤——只需选择所需的模型,输入问题,便能立即得到答案,无需其他复杂的操作步骤。先问一个最近很火的问题,让各大模型数一数“strawberry”中有几个“r”。
没想到的是,开局不利,各大模型连数数都没能数对啊!继续追问引导看看结果会不会有所改变:
可以看到,在继续追问“确定吗”后,仅有Claude-3.5-Sonnet清醒了过来,回答正确。而原本在第一轮回答有2个“r”的Llama 3.1 405B把答案改成一个“r”,离正确答案越来越远。
都说每一个新模型出来都要先经过“弱智吧”的考验,那最后就提问一个来自“弱智吧”的问题:“为什么我爸妈结婚的时候没邀请我参加婚礼?”看下各模型的回答:
这个问题显然简单很多,六个模型都答对了,Llama 3.1 405B的回答里还加上了emoji表情,Claude-3.5-Sonnet不仅给出了答案,还附上了详细的解释,最后以一句温暖的句子结尾:“所以,别担心你错过了什么重要的事情。你没有被邀请参加父母的婚礼是完全正常的,因为那时的你还只是一个美好的期待!”
另外,302.AI的API超市的语言大模型中也更新了Llama 3.1各版本的API,不用繁琐的部署,能够在线调试API,可快速接入Llama 3.1 各版本的模型,就算你是小白也能快速轻松上手使用。
参考文章:https://mp.weixin.qq.com/s/7XskkSvNxNlqxAyteWb4sw
随着Meta发布其最新的AI模型Llama 3.1,开源模型和闭源模型的竞争在无形中更加激烈,但小编认为,在目前的情况下,对于开源模型和闭源模型哪一个更好暂时没有一个肯定的答案,但是能确定的是,未来,我们可能会看到一个更加多样化的AI生态,其中开源和闭源模型将根据不同的需求和场景,各展所长。