Meta号称最强的开源模型Llama3.1,却数不清strawberry有几个“r”?

7月23日,Meta AI发布最新开源模型 —— Llama 3.1 !在多项测试中超越闭源模型,开源模型的时代要来了吗?

Llama3.1共包含8b、70b和405b三种模型,支持八种语言包括英语,德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语,具备 128K 扩展上下文长度,该模型提供通用知识、数学计算、多语言翻译和工具使用等能力。

Meta号称最强的开源模型Llama3.1,却数不清strawberry有几个“r”?

其中,8B、70B和405B三种模型表示不一样的参数:

8B模型:拥有80亿参数,是入门级的选项,适合基本的自然语言处理任务。

70B模型:拥有700亿参数,性能显著提升,能够处理更复杂的语言理解和生成任务。

405B模型:拥有4050亿参数,为高端模型,提供最高水平的语言理解和生成能力。

随着模型参数数量的增加,模型在语言理解、文本生成、以及任务执行的复杂性和准确性方面表现更加出色。405B模型因其庞大的规模,在处理特别复杂或需求高的任务时,能提供更加深入和精细的响应。

Meta在海外社交平台上公布,他们对Llama 3.1进行了全面评估,涵盖了150多个多语言基准数据集,这些结果显示,拥有405B 的Llama 3.1在多项任务中表现出色,其性能可与GPT-4、Claude 2以及Gemini Ultra等领先的闭源模型相媲美。

Meta号称最强的开源模型Llama3.1,却数不清strawberry有几个“r”?

此外还在现实场景中进行了大量人工评估,可以看到Llama 3.1 405B模型与GPT-4不相上下,但略逊于GPT-4o,与Claude-3.5-Sonnet相较下,405B大模型胜率为24.9%。

Meta号称最强的开源模型Llama3.1,却数不清strawberry有几个“r”?

而8B和70B的小模型,在参数量相似的闭源和开源模型中,同样表现出色,性能优于其他同尺寸模型,同时在实用性和安全性方面也比其前代产品更加平衡。在基准评估中,通用任务、代码、数学、推理、工具使用、多语言上,取得了SOTA。

Meta号称最强的开源模型Llama3.1,却数不清strawberry有几个“r”?

当然,官方的宣传总会让人有种“王婆卖瓜”的感觉,那接下来小编就来带大家试用一下Llama 3.1 405B,看看它的表现如何,首先找到302.AI的聊天机器人,302.AI在Llama 3.1推出的第一时间上线了Llama 3.1 405B、Llama 3.1 70B和Llama 3.1 8B模型。302.AI还提供按需付费的灵活使用方式,无需固定月费或捆绑套餐,同时支持一键分享功能,朋友也能轻松使用。

Meta号称最强的开源模型Llama3.1,却数不清strawberry有几个“r”?

我们选择Llama 3.1 405B模型后,设置好机器人信息后点击生成,首先测试下Llama 3.1 405B的翻译能力,让Llama 3.1 405B将童话故事《白雪公主》翻译成西班牙语和德语。

Meta号称最强的开源模型Llama3.1,却数不清strawberry有几个“r”?

翻译是没问题的,接下来看下Llama 3.1复杂推理能力怎么样,参考网友的提问:“我有3件衬衫、5条短裤和1条连衣裙。我要出行10天,这些衣服够我度假用吗?”

Meta号称最强的开源模型Llama3.1,却数不清strawberry有几个“r”?

Llama 3.1会先根据我的衣服种类和数量组成16套衣服,其次设想不同场景下,这些数量是否满足,最后给出建议,整一个回复是比较是有推理逻辑的。

所谓“没有对比就没有伤害”,小编就来对比下Llama3.1各版本和闭源模型GPT-4o、GPT-4o mini和Claude3.5-Sonnet的表现。首先打开302.AI模型竞技场,同上文聊天机器人一样,模型竞技场也已上线Llama3.1各模型,不得不说我们更新AI模型的速度是有目共睹的~

再为大家介绍一次模型竞技场使用步骤——只需选择所需的模型,输入问题,便能立即得到答案,无需其他复杂的操作步骤。先问一个最近很火的问题,让各大模型数一数“strawberry”中有几个“r”。

Meta号称最强的开源模型Llama3.1,却数不清strawberry有几个“r”?

没想到的是,开局不利,各大模型连数数都没能数对啊!继续追问引导看看结果会不会有所改变:

Meta号称最强的开源模型Llama3.1,却数不清strawberry有几个“r”?

可以看到,在继续追问“确定吗”后,仅有Claude-3.5-Sonnet清醒了过来,回答正确。而原本在第一轮回答有2个“r”的Llama 3.1 405B把答案改成一个“r”,离正确答案越来越远。

都说每一个新模型出来都要先经过“弱智吧”的考验,那最后就提问一个来自“弱智吧”的问题:“为什么我爸妈结婚的时候没邀请我参加婚礼?”看下各模型的回答:

Meta号称最强的开源模型Llama3.1,却数不清strawberry有几个“r”?

这个问题显然简单很多,六个模型都答对了,Llama 3.1 405B的回答里还加上了emoji表情,Claude-3.5-Sonnet不仅给出了答案,还附上了详细的解释,最后以一句温暖的句子结尾:“所以,别担心你错过了什么重要的事情。你没有被邀请参加父母的婚礼是完全正常的,因为那时的你还只是一个美好的期待!”

另外,302.AI的API超市的语言大模型中也更新了Llama 3.1各版本的API,不用繁琐的部署,能够在线调试API,可快速接入Llama 3.1 各版本的模型,就算你是小白也能快速轻松上手使用。

Meta号称最强的开源模型Llama3.1,却数不清strawberry有几个“r”?

参考文章:https://mp.weixin.qq.com/s/7XskkSvNxNlqxAyteWb4sw

随着Meta发布其最新的AI模型Llama 3.1,开源模型和闭源模型的竞争在无形中更加激烈,但小编认为,在目前的情况下,对于开源模型和闭源模型哪一个更好暂时没有一个肯定的答案,但是能确定的是,未来,我们可能会看到一个更加多样化的AI生态,其中开源和闭源模型将根据不同的需求和场景,各展所长。

(0)
302.AI302.AI
上一篇 2024 年 7 月 25 日 下午5:34
下一篇 2024 年 7 月 29 日 下午2:53

相关推荐

  • Glif生成的meme图瞎说什么大实话!如何免注册无次数限制使用?

    近日,在国外社交媒体平台上,一款叫做“Glif”的AI应用迅速蹿红,Glif有点类似国内的Coze,通过低代码或无代码的方式,并提供了非常多的工具作为节点,搭建工作流。 接下来先说一下Glif是什么,Glif是一个有趣的低代码平台,在基本层面上,Glif接受用户输入(文本、图像或点击按钮),并使用强大的AI模型生成输出(文本、图像、视频或这些的组合)。 概括…

    2024 年 7 月 17 日
    6900
  • Coze正式开启付费计划!GPT-4白嫖时代结束?

    7月刚刚到来,Coze海外版就静悄悄开启付费计划,推出了Coze Premium Pricing Plans,得知这一消息的众多AI爱好者纷纷表示白嫖GPT-4的时代要结束了。 Coze是由字节跳动推出的AI聊天机器人构建平台,它允许用户快速创建、调试和优化AI聊天机器人的应用程序。这个平台特别适合对AI和机器人技术感兴趣的人,尤其是那些缺乏编程经验的用户。…

    2024 年 7 月 12 日
    18700
  • AI视力考验:各AI模型的视觉理解能力如何?

    近日,行业内有不少新模型涌现出大众的面前,我们会发现,有的模型会在其官方宣传中提到“多模态”一词,比如大家熟知的GPT-4o、Gemini 1.5 Pro等,在发布时都被定义为“原生多模态”,这些多模态LLM在相关的介绍中,都用到了“视觉能力”、“视觉理解”这样的表述。 简单的理解,就是这些模型能够“看得见,并看得懂”,仿佛人的眼睛。为此,很多人…

    2024 年 7 月 25 日
    7100
  • “草莓”终于现真身了,OpenAI发布最新o1大模型!

    北京时间9月13日凌晨,OpenAI发布o1大模型,“草莓”终于现真身了,酝酿已久的“草莓”终于面世。 据了解,OpenAI o1模型经过强化学习训练可以执行复杂的推理,还能解决比以前更难的科学、编码和数学问题。官方称,OpenAI o1模型在美国数学奥林匹克 (AIME) 预选赛中跻身美国前 500 名学生之列,并在物理、生物和化学问题 (GPQA) 基准…

    2024 年 9 月 13 日
    14100
  • 阿里千问发布数学模型Qwen2-Math,最好的数学模型出现了?!

    8月9日,阿里通义团队发布新一代数学模型Qwen2-Math,据官方称,Qwen2-Math 是一系列基于 Qwen2 LLM 构建的专门用于数学解题的语言模型,其数学能力显著超越了开源模型,甚至超过了闭源模型(如 GPT-4o),Qwen2-Math包含1.5B、7B、72B三个参数的基础模型和指令微调模型。 在一系列数学基准评测上,Qwen2-Math-…

    2024 年 8 月 19 日
    8500

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注