Meta号称最强的开源模型Llama3.1,却数不清strawberry有几个“r”?

7月23日,Meta AI发布最新开源模型 —— Llama 3.1 !在多项测试中超越闭源模型,开源模型的时代要来了吗?

Llama3.1共包含8b、70b和405b三种模型,支持八种语言包括英语,德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语,具备 128K 扩展上下文长度,该模型提供通用知识、数学计算、多语言翻译和工具使用等能力。

Meta号称最强的开源模型Llama3.1,却数不清strawberry有几个“r”?

其中,8B、70B和405B三种模型表示不一样的参数:

8B模型:拥有80亿参数,是入门级的选项,适合基本的自然语言处理任务。

70B模型:拥有700亿参数,性能显著提升,能够处理更复杂的语言理解和生成任务。

405B模型:拥有4050亿参数,为高端模型,提供最高水平的语言理解和生成能力。

随着模型参数数量的增加,模型在语言理解、文本生成、以及任务执行的复杂性和准确性方面表现更加出色。405B模型因其庞大的规模,在处理特别复杂或需求高的任务时,能提供更加深入和精细的响应。

Meta在海外社交平台上公布,他们对Llama 3.1进行了全面评估,涵盖了150多个多语言基准数据集,这些结果显示,拥有405B 的Llama 3.1在多项任务中表现出色,其性能可与GPT-4、Claude 2以及Gemini Ultra等领先的闭源模型相媲美。

Meta号称最强的开源模型Llama3.1,却数不清strawberry有几个“r”?

此外还在现实场景中进行了大量人工评估,可以看到Llama 3.1 405B模型与GPT-4不相上下,但略逊于GPT-4o,与Claude-3.5-Sonnet相较下,405B大模型胜率为24.9%。

Meta号称最强的开源模型Llama3.1,却数不清strawberry有几个“r”?

而8B和70B的小模型,在参数量相似的闭源和开源模型中,同样表现出色,性能优于其他同尺寸模型,同时在实用性和安全性方面也比其前代产品更加平衡。在基准评估中,通用任务、代码、数学、推理、工具使用、多语言上,取得了SOTA。

Meta号称最强的开源模型Llama3.1,却数不清strawberry有几个“r”?

当然,官方的宣传总会让人有种“王婆卖瓜”的感觉,那接下来小编就来带大家试用一下Llama 3.1 405B,看看它的表现如何,首先找到302.AI的聊天机器人,302.AI在Llama 3.1推出的第一时间上线了Llama 3.1 405B、Llama 3.1 70B和Llama 3.1 8B模型。302.AI还提供按需付费的灵活使用方式,无需固定月费或捆绑套餐,同时支持一键分享功能,朋友也能轻松使用。

Meta号称最强的开源模型Llama3.1,却数不清strawberry有几个“r”?

我们选择Llama 3.1 405B模型后,设置好机器人信息后点击生成,首先测试下Llama 3.1 405B的翻译能力,让Llama 3.1 405B将童话故事《白雪公主》翻译成西班牙语和德语。

Meta号称最强的开源模型Llama3.1,却数不清strawberry有几个“r”?

翻译是没问题的,接下来看下Llama 3.1复杂推理能力怎么样,参考网友的提问:“我有3件衬衫、5条短裤和1条连衣裙。我要出行10天,这些衣服够我度假用吗?”

Meta号称最强的开源模型Llama3.1,却数不清strawberry有几个“r”?

Llama 3.1会先根据我的衣服种类和数量组成16套衣服,其次设想不同场景下,这些数量是否满足,最后给出建议,整一个回复是比较是有推理逻辑的。

所谓“没有对比就没有伤害”,小编就来对比下Llama3.1各版本和闭源模型GPT-4o、GPT-4o mini和Claude3.5-Sonnet的表现。首先打开302.AI模型竞技场,同上文聊天机器人一样,模型竞技场也已上线Llama3.1各模型,不得不说我们更新AI模型的速度是有目共睹的~

再为大家介绍一次模型竞技场使用步骤——只需选择所需的模型,输入问题,便能立即得到答案,无需其他复杂的操作步骤。先问一个最近很火的问题,让各大模型数一数“strawberry”中有几个“r”。

Meta号称最强的开源模型Llama3.1,却数不清strawberry有几个“r”?

没想到的是,开局不利,各大模型连数数都没能数对啊!继续追问引导看看结果会不会有所改变:

Meta号称最强的开源模型Llama3.1,却数不清strawberry有几个“r”?

可以看到,在继续追问“确定吗”后,仅有Claude-3.5-Sonnet清醒了过来,回答正确。而原本在第一轮回答有2个“r”的Llama 3.1 405B把答案改成一个“r”,离正确答案越来越远。

都说每一个新模型出来都要先经过“弱智吧”的考验,那最后就提问一个来自“弱智吧”的问题:“为什么我爸妈结婚的时候没邀请我参加婚礼?”看下各模型的回答:

Meta号称最强的开源模型Llama3.1,却数不清strawberry有几个“r”?

这个问题显然简单很多,六个模型都答对了,Llama 3.1 405B的回答里还加上了emoji表情,Claude-3.5-Sonnet不仅给出了答案,还附上了详细的解释,最后以一句温暖的句子结尾:“所以,别担心你错过了什么重要的事情。你没有被邀请参加父母的婚礼是完全正常的,因为那时的你还只是一个美好的期待!”

另外,302.AI的API超市的语言大模型中也更新了Llama 3.1各版本的API,不用繁琐的部署,能够在线调试API,可快速接入Llama 3.1 各版本的模型,就算你是小白也能快速轻松上手使用。

Meta号称最强的开源模型Llama3.1,却数不清strawberry有几个“r”?

参考文章:https://mp.weixin.qq.com/s/7XskkSvNxNlqxAyteWb4sw

随着Meta发布其最新的AI模型Llama 3.1,开源模型和闭源模型的竞争在无形中更加激烈,但小编认为,在目前的情况下,对于开源模型和闭源模型哪一个更好暂时没有一个肯定的答案,但是能确定的是,未来,我们可能会看到一个更加多样化的AI生态,其中开源和闭源模型将根据不同的需求和场景,各展所长。

Like (0)
302.AI302.AI
Previous 2024 年 7 月 25 日 下午5:34
Next 2024 年 7 月 29 日 下午2:53

相关推荐

  • Coze正式开启付费计划!GPT-4白嫖时代结束?

    7月刚刚到来,Coze海外版就静悄悄开启付费计划,推出了Coze Premium Pricing Plans,得知这一消息的众多AI爱好者纷纷表示白嫖GPT-4的时代要结束了。 Coze是由字节跳动推出的AI聊天机器人构建平台,它允许用户快速创建、调试和优化AI聊天机器人的应用程序。这个平台特别适合对AI和机器人技术感兴趣的人,尤其是那些缺乏编程经验的用户。…

    2024 年 7 月 12 日
    36800
  • 中文大模型多模态理解评测,腾讯混元大模型获榜单国内第一

    8月初,中文多模态大模型SuperCLUE-V基准发布8月榜单,其中腾讯混元大模型斩获国内大模型排名第一。 测评涵盖了国内外最具代表性的12个多模态理解大模型,包含4个海外模型和8个国内代表性多模态模型,评估内容包含基础能力和应用能力,以开放式问题对多模态大模型进行评估。其中,腾讯混元大模型Hunyuan-Vision凭借其卓越的多模态基础能力和出色的应用能…

    2024 年 8 月 26 日
    23300
  • AI老照片修复功能,不止修复了画面也修复了记忆

    随着AI技术的发展,不断突破着传统界限。许多曾经存在想象中的事情变成了现实,这或许就是科技的意义。 最近看到了一个非常令人感动的文章“他用Luma和Suno复活了逝去11年的爱人,给我看破防了。” (参考原文:https://mp.weixin.qq.com/s/DIkPAA-P9P1AWveAFeNtqA) 原文是这样的,作者在X上看到了一个名为Koya …

    2024 年 7 月 17 日
    20200
  • Runway官宣上线Gen-3 Alpha!无门槛抢先体验

    7月2日凌晨,Runway在社交媒体正式宣布,Gen-3 Alpha全面开放使用! Runway是一家专注于AI视频生成的公司,其推出的Gen系列模型在视频创作领域引起了广泛关注。 据说最新推出的Gen-3 Alpha模型在保真度、一致性和动作表现方面都有重大改进! 都说Gen-3 Alpha很强,那我们先看下来自官网的一段视频: (Prompt:在日本城市…

    2024 年 7 月 12 日
    17100
  • 火星文避雷评价帖,AI到底能不能看懂?!

    AI到底能不能看懂火星文差评!看看哪个模型表现更好! 大家都知道,在《歌手2024》播出的时候,13.8和13.11哪个大的问题难倒了不少AI模型。而最近,AI模型迎来了新一轮考验来了,起因是这样的,为了防止外国人通过翻译软件看懂原意,一些中国人在海外订酒店吃亏后,用火星文提醒同胞不要再来,而这些帖子被截图搬运到了国内的社交媒体平台后很快就火了,引发了不少网…

    2024 年 9 月 29 日
    18800

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注