Meta号称最强的开源模型Llama3.1,却数不清strawberry有几个“r”?

7月23日,Meta AI发布最新开源模型 —— Llama 3.1 !在多项测试中超越闭源模型,开源模型的时代要来了吗?

Llama3.1共包含8b、70b和405b三种模型,支持八种语言包括英语,德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语,具备 128K 扩展上下文长度,该模型提供通用知识、数学计算、多语言翻译和工具使用等能力。

Meta号称最强的开源模型Llama3.1,却数不清strawberry有几个“r”?

其中,8B、70B和405B三种模型表示不一样的参数:

8B模型:拥有80亿参数,是入门级的选项,适合基本的自然语言处理任务。

70B模型:拥有700亿参数,性能显著提升,能够处理更复杂的语言理解和生成任务。

405B模型:拥有4050亿参数,为高端模型,提供最高水平的语言理解和生成能力。

随着模型参数数量的增加,模型在语言理解、文本生成、以及任务执行的复杂性和准确性方面表现更加出色。405B模型因其庞大的规模,在处理特别复杂或需求高的任务时,能提供更加深入和精细的响应。

Meta在海外社交平台上公布,他们对Llama 3.1进行了全面评估,涵盖了150多个多语言基准数据集,这些结果显示,拥有405B 的Llama 3.1在多项任务中表现出色,其性能可与GPT-4、Claude 2以及Gemini Ultra等领先的闭源模型相媲美。

Meta号称最强的开源模型Llama3.1,却数不清strawberry有几个“r”?

此外还在现实场景中进行了大量人工评估,可以看到Llama 3.1 405B模型与GPT-4不相上下,但略逊于GPT-4o,与Claude-3.5-Sonnet相较下,405B大模型胜率为24.9%。

Meta号称最强的开源模型Llama3.1,却数不清strawberry有几个“r”?

而8B和70B的小模型,在参数量相似的闭源和开源模型中,同样表现出色,性能优于其他同尺寸模型,同时在实用性和安全性方面也比其前代产品更加平衡。在基准评估中,通用任务、代码、数学、推理、工具使用、多语言上,取得了SOTA。

Meta号称最强的开源模型Llama3.1,却数不清strawberry有几个“r”?

当然,官方的宣传总会让人有种“王婆卖瓜”的感觉,那接下来小编就来带大家试用一下Llama 3.1 405B,看看它的表现如何,首先找到302.AI的聊天机器人,302.AI在Llama 3.1推出的第一时间上线了Llama 3.1 405B、Llama 3.1 70B和Llama 3.1 8B模型。302.AI还提供按需付费的灵活使用方式,无需固定月费或捆绑套餐,同时支持一键分享功能,朋友也能轻松使用。

Meta号称最强的开源模型Llama3.1,却数不清strawberry有几个“r”?

我们选择Llama 3.1 405B模型后,设置好机器人信息后点击生成,首先测试下Llama 3.1 405B的翻译能力,让Llama 3.1 405B将童话故事《白雪公主》翻译成西班牙语和德语。

Meta号称最强的开源模型Llama3.1,却数不清strawberry有几个“r”?

翻译是没问题的,接下来看下Llama 3.1复杂推理能力怎么样,参考网友的提问:“我有3件衬衫、5条短裤和1条连衣裙。我要出行10天,这些衣服够我度假用吗?”

Meta号称最强的开源模型Llama3.1,却数不清strawberry有几个“r”?

Llama 3.1会先根据我的衣服种类和数量组成16套衣服,其次设想不同场景下,这些数量是否满足,最后给出建议,整一个回复是比较是有推理逻辑的。

所谓“没有对比就没有伤害”,小编就来对比下Llama3.1各版本和闭源模型GPT-4o、GPT-4o mini和Claude3.5-Sonnet的表现。首先打开302.AI模型竞技场,同上文聊天机器人一样,模型竞技场也已上线Llama3.1各模型,不得不说我们更新AI模型的速度是有目共睹的~

再为大家介绍一次模型竞技场使用步骤——只需选择所需的模型,输入问题,便能立即得到答案,无需其他复杂的操作步骤。先问一个最近很火的问题,让各大模型数一数“strawberry”中有几个“r”。

Meta号称最强的开源模型Llama3.1,却数不清strawberry有几个“r”?

没想到的是,开局不利,各大模型连数数都没能数对啊!继续追问引导看看结果会不会有所改变:

Meta号称最强的开源模型Llama3.1,却数不清strawberry有几个“r”?

可以看到,在继续追问“确定吗”后,仅有Claude-3.5-Sonnet清醒了过来,回答正确。而原本在第一轮回答有2个“r”的Llama 3.1 405B把答案改成一个“r”,离正确答案越来越远。

都说每一个新模型出来都要先经过“弱智吧”的考验,那最后就提问一个来自“弱智吧”的问题:“为什么我爸妈结婚的时候没邀请我参加婚礼?”看下各模型的回答:

Meta号称最强的开源模型Llama3.1,却数不清strawberry有几个“r”?

这个问题显然简单很多,六个模型都答对了,Llama 3.1 405B的回答里还加上了emoji表情,Claude-3.5-Sonnet不仅给出了答案,还附上了详细的解释,最后以一句温暖的句子结尾:“所以,别担心你错过了什么重要的事情。你没有被邀请参加父母的婚礼是完全正常的,因为那时的你还只是一个美好的期待!”

另外,302.AI的API超市的语言大模型中也更新了Llama 3.1各版本的API,不用繁琐的部署,能够在线调试API,可快速接入Llama 3.1 各版本的模型,就算你是小白也能快速轻松上手使用。

Meta号称最强的开源模型Llama3.1,却数不清strawberry有几个“r”?

参考文章:https://mp.weixin.qq.com/s/7XskkSvNxNlqxAyteWb4sw

随着Meta发布其最新的AI模型Llama 3.1,开源模型和闭源模型的竞争在无形中更加激烈,但小编认为,在目前的情况下,对于开源模型和闭源模型哪一个更好暂时没有一个肯定的答案,但是能确定的是,未来,我们可能会看到一个更加多样化的AI生态,其中开源和闭源模型将根据不同的需求和场景,各展所长。

All Rights Reserved by 302.AI
Like (0)
302.AI302.AI
Previous 2024 年 7 月 25 日 下午5:34
Next 2024 年 7 月 29 日 下午2:53

相关推荐

  • 资讯丨FLUX 1.1 Pro推出Ultra模式,来302.AI实测揭秘真实效果

    11月6日,BlackForestLabs宣布推出FLUX1.1 pro的Ultra模式,添加了新的高分辨率功能,还增加了一个RAW参数,这一参数提升了生成图片的拟真度,让生成的图片摆脱了“AI味”,为用户带来了新的视觉体验。 据官网介绍,FLUX 1.1 Pro Ultra支持高达4兆像素(4MP)的图像生成,这是标准模式的四倍。这一提升使得生成的图像更加…

    2024 年 11 月 11 日 AI资讯
    6050
  • 资讯丨xAI官宣Grok API开启公测,唯一模型grok-beta表现能否达到预期?

    11月6日,备受瞩目的2024年美国总统选举结果终于揭晓,马斯克公开支持的美国共和党总统候选人特朗普获得最终胜利。 作为特朗普的“榜一大哥”马斯克,是人工智能初创公司xAI的始人之一和主要投资者。在11月4日,xAI刚刚官宣Grok API正式开启公测。 根据xAI公司官方发布的文档,可以看到xAI的API目前只有一个模型——“grok-beta”。 从官方…

    2024 年 11 月 8 日 AI资讯
    3150
  • 资讯丨302.AI已支持Anthropic最新模型Claude 3.5 Haiku,与其他模型对比表现如何?

    11月5日,Anthropic在社交媒体平台宣布Claude 3.5 Haiku可以通过API访问。Claude 3.5 Haiku是Anthropic公司在10月22日发布的新模型,在许多评估中的性能与 Claude 3 Opus不相上下,而成本和速度却与上一代Haiku相当。 根据官方介绍,Claude 3.5 Haiku 在各种编码、工具使用和推理任务…

    2024 年 11 月 6 日 AI资讯
    4250
  • Stable Diffusion 3.5 VS Flux.1 dev,谁才是开源图像生成模型的王者?

    10月22日,Stability AI推出最新图像生成模型Stable Diffusion 3.5,其中包括Stable Diffusion 3.5 Large、Stable Diffusion 3.5 Large Turbo两个版本,并宣布预计在10月29日上线Medium版本。 10月29日,Stable Diffusion 3.5 Medium如期推出…

    2024 年 11 月 5 日 AI资讯
    1.1K0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注