资讯丨Meta AI新模型Llama 3.3 70B推理、编程全面评测,真实表现如何?

12月6日,Meta AI推出了新开源模型Llama 3.3 70B。Meta AI副总裁Ahmad Al-Dahle在社交媒体平台发布的一篇帖子中表示,这款仅支持文本的Llama 3.3 70B模型与Meta最大型模型Llama 3.1 405B的性能相当,但运行起来更简单、更经济高效

资讯丨Meta AI新模型Llama 3.3 70B推理、编程全面评测,真实表现如何?

据了解,Llama 3.3 70B上下文长度为128K,是一款自回归(auto-regressive)语言模型,使用优化的transformer架构,其调整版本使用了监督式微调(SFT)和基于人类反馈的强化学习(RLHF),以符合人类对有用性和安全性的偏好。

在针对大模型语言理解能力的一系列行业基准测试之中,Llama 3.3 70B的表现优于谷歌的Gemini 1.5 Pro、OpenAI的GPT-4o等模型。其中,在指令遵循(IFEval)、数学(MATH)、推理(GPQA Diamond)等领域,水平更是都超过了自家的大型模型Llama 3.1 405B。不仅如此,在语言(MMLU)、代码(HumanEval)、长文本和多语种能力上,成绩也和Llama 3.1 405B比较接近。

资讯丨Meta AI新模型Llama 3.3 70B推理、编程全面评测,真实表现如何?

> 在302.AI上使用

按照惯例,302.AI第一时间上线了Llama 3.3 70B模型,用户可以在聊天机器人或者API超市获取该模型,而且302.AI提供按需付费的使用方式,无捆绑套餐和月费,更灵活便捷!以下是具体的步骤:

【聊天机器人】

进入302.AI,在左侧菜单栏点击【使用机器人】——【聊天机器人】——选择【模型】——下滑至开源模型找到【Llama-3.3-70B】——点击【确定】按钮,最后创建聊天机器人即可。

资讯丨Meta AI新模型Llama 3.3 70B推理、编程全面评测,真实表现如何?

点击左下角的设置,即可打开Artifacts功能。

资讯丨Meta AI新模型Llama 3.3 70B推理、编程全面评测,真实表现如何?

【API超市】

在左侧菜单栏点击【使用API】——【API超市】——分类中选择【语言大模型】——【开源模型】。

资讯丨Meta AI新模型Llama 3.3 70B推理、编程全面评测,真实表现如何?

接下来可以选择【查看文档】或者【在线体验】功能。

【查看文档】:可帮助用户快速接入模型API;

【在线体验】则可以更高效地对模型参数进行测试;

资讯丨Meta AI新模型Llama 3.3 70B推理、编程全面评测,真实表现如何?

以【查看文档】为例,进入后点击左侧开源模型,然后选择Chat(LLaMA3.3)即可。

资讯丨Meta AI新模型Llama 3.3 70B推理、编程全面评测,真实表现如何?

> 实测模型对比

对比模型:Llama 3.3 70B、Llama 3.1 405B、GPT-4o-2024-11-20

一、语言、推理逻辑测试

除了聊天机器人和API超市,用户还可以通过302.AI的模型竞技场直观对比不同模型的效果。

第一部分实测将会通过302.AI的模型竞技场对比模型中文支持、推理逻辑方面的表现。

实测1:中英文提示词对比测试:

提示词:如果一个房间里有1000本书,我读了2本,房间里还有多少本书?请简洁回答。

分析:这是前段时间在国外比较火的逻辑测试题目,题目本身非常简单,但这个“简单”是相对于我们人类来说的,对于大语言模型来说,这属于一个“陷阱型”题目,非常容易答错。下面看下三个模型的回答:

GPT-4o-2024-11-20:解释正确,回答正确。

Llama 3.3 70B:即使使用中文提示词提问,也没有出现模型幻觉,回答正确。

Llama 3.1 405B:回答错误,405B模型存在一个明显的问题,当使用中文提示词提问,模型更容易出现幻觉。

资讯丨Meta AI新模型Llama 3.3 70B推理、编程全面评测,真实表现如何?

英文提示词提问结果如下,三个模型都是回答正确的:

资讯丨Meta AI新模型Llama 3.3 70B推理、编程全面评测,真实表现如何?

实测2:中文繁体支持测试:

提示词:請給我講一個100字的故事

分析:在面对中文繁体提示词提问的情景下,三个模型都能够转换成中文繁体回答。

GPT-4o-2024-11-20:中文繁体支持。

Llama 3.3 70B:中文繁体支持。

Llama 3.1 405B:中文繁体支持。

资讯丨Meta AI新模型Llama 3.3 70B推理、编程全面评测,真实表现如何?

实测3:逻辑推理测试

提示词:

资讯丨Meta AI新模型Llama 3.3 70B推理、编程全面评测,真实表现如何?

分析:这是经典的逻辑分析题,正确答案是选项B。

GPT-4o-2024-11-20:答案非常长,最终的结果是正确的

资讯丨Meta AI新模型Llama 3.3 70B推理、编程全面评测,真实表现如何?

Llama 3.3 70B:分析错误,回答错误。

资讯丨Meta AI新模型Llama 3.3 70B推理、编程全面评测,真实表现如何?

Llama 3.1 405B:分析错误,回答错误。

资讯丨Meta AI新模型Llama 3.3 70B推理、编程全面评测,真实表现如何?

二、编程测试

第二部分为编程测试,分为编程正确性检验和编程效果对比两部分内容。

实测1、2会借助编程学习平台,从平台中找到简单-困难两种级别的编程题目提问模型,模型生成代码后,会粘贴到平台上检验对比结果。

实测3则是通过使用302.AI聊天机器人的Artifacts功能预览各模型的代码实现效果,并进行对比。

实测1:编程正确性检验-简单级别

提示词:

资讯丨Meta AI新模型Llama 3.3 70B推理、编程全面评测,真实表现如何?

分析:题目一属于简单级别的算法编程题目,需要模型根据要求编写一个函数,当给定序列中对应的三角形数时,返回点的个数。

GPT-4o-2024-11-20:代码非常简洁,验证通过

资讯丨Meta AI新模型Llama 3.3 70B推理、编程全面评测,真实表现如何?

Llama 3.3 70B:可以看到,Llama会给出两个版本的代码,一个是详细版本,另一个是简洁版本,经过验证都是正确

资讯丨Meta AI新模型Llama 3.3 70B推理、编程全面评测,真实表现如何?

Llama 3.1 405B:Llama 3.1 405B生成的代码也没问题,验证通过

资讯丨Meta AI新模型Llama 3.3 70B推理、编程全面评测,真实表现如何?

实测2:编程正确性检验-困难级别

提示词:

资讯丨Meta AI新模型Llama 3.3 70B推理、编程全面评测,真实表现如何?

分析:编程检验第二题为非常困难级别,如下三个模型的答案:

GPT-4o-2024-11-20:非常困难级别也没有难倒最新版GPT-4o,验证通过。

资讯丨Meta AI新模型Llama 3.3 70B推理、编程全面评测,真实表现如何?

Llama 3.3 70B:虽然第二题也生成了两种版本的代码,但可惜生成的代码均有错误。

资讯丨Meta AI新模型Llama 3.3 70B推理、编程全面评测,真实表现如何?

Llama 3.1 405B:令人意外的是,Llama 3.1 405B也是没有问题,代码验证通过!

资讯丨Meta AI新模型Llama 3.3 70B推理、编程全面评测,真实表现如何?

实测3:编程效果对比

提示词:请用前端代码实现推箱子游戏,将所有代码放在一起输出。

分析:每个模型会在初始效果出来后,再统一给一次机会 优化,以下为优化后输出的最终效果。

GPT-4o-2024-11-20:界面设计很好看,最终输出的效果涵盖了游戏说明、开始游戏按钮等板块。游戏能通过键盘方向键直接开玩,游戏结束后会有得分提示,非常完整

资讯丨Meta AI新模型Llama 3.3 70B推理、编程全面评测,真实表现如何?

Llama 3.3 70B:从游戏界面来看,Llama 3.3 70B最终输出的效果比较简洁清晰,基本的元素虽然涵盖了,但是游戏存在bug。如下图,我们在操作的时候发现,绿色箱子通过操作移动到红、蓝箱子旁边,按理会得分,但是并没有看到分数有变化。

资讯丨Meta AI新模型Llama 3.3 70B推理、编程全面评测,真实表现如何?

Llama 3.1 405B:最终实现的效果界面比较乱,看起来像没有经过排版的半成品,游戏操作和Llama 3.3 70B一样存在bug,如下图,即使红色块箱子移动到目标灰色块中,也没有实现被推动的效果。

资讯丨Meta AI新模型Llama 3.3 70B推理、编程全面评测,真实表现如何?

> 总结

根据以上实测,可以初步得出以下结论:

语言、推理逻辑测试中:

1、在中文简体提示词下,Llama 3.3 70B的表现对比Llama 3.1 405B更优,能够更好地保持模型的稳定性,避免产生幻觉现象。

2、同时通过实测2可以清楚看到,Llama 3.3 70B对于中文繁体的效果是不错的。

3、在复杂的逻辑推理问题上,无论是Llama 3.3 70B还是Llama 3.1 405B,表现都不如最新版的GPT-4o。

编程测试:

1、在简单的编程测试中,Llama 3.3 70B能够生成正确且多样化的代码版本,显示出其在代码生成方面的灵活性

2、对于困难级别的代码编程题目,表现仍显不足

3、从编程效果对比来看,虽然Llama 3.3 70B的界面设计比Llama 3.1 405B简洁清晰,但代码实现中出现了bug。相比之下,GPT-4o在界面设计和功能实现上都表现出色,提供了更为完整的用户体验。

总的来说,Llama 3.3 70B在处理中文提示词的稳定性及对繁体中文的支持上,展现了一定的的优势。此外,Llama 3.3 70B虽然在编程上能够生成多样化的代码版本,但面对复杂任务上,局限性还是比较明显。

据说,这是Meta AI今年最后一次AI大模型更新,明年或许我们会迎来Llama 4?可以一起期待下!

Like (0)
302.AI302.AI
Previous 2024 年 12 月 9 日 下午7:30
Next 2024 年 12 月 11 日 下午7:37

相关推荐

  • 资讯丨OpenAI发布GPT-4o更新版本,竟能轻松拿捏《再见爱人4》经典语录?

    上周,OpenAI公司发布了GPT-4o的更新版本GPT-4o-2024-11-20。这一更新全面提升了模型的创意写作水平、让写作更加自然、引人入胜且量身定制,以提高相关性和可读性。此外,它还可以更好地处理上传的文件,提供更深入的见解和更全面的响应。 GPT-4o-2024-11-20具有128K个tokens 的上下文窗口,输入价格为每百万tokens 2…

    2024 年 11 月 25 日
    18700
  • 智谱清影AI视频还在内测阶段,背后的模型CogVideoX 突然宣布开源?!

    近日,国外的AI视频生成模型竞争依然在不断升温,国内的AI视频模型赛道也迎来了前所未有的“内卷”潮。 7月26日,智谱清影(Ying)AI视频生成工具正式上线,这款由智谱AI推出的视频生成工具,允许用户通过输入文本描述或上传图片,在大约30秒内生成一段6秒长的视频。 而在8月6日,智谱AI宣布清影背后的视频生成模型——CogVideoX正式开源。 或许很多人…

    2024 年 8 月 12 日
    20700
  • AI直接翻译PDF?又一解放生产力的神器来袭!

    近日,一款来自初创公司的识别神器Doc2X备受关注。小编为此也特意去了解了,发现非常有意思的是,为了让用户更直观的看到Doc2X的实力,Doc2X在官网中以文档的形式给大家展示了Doc2X与市场上各竞品的识别能力做对比分析。 竞品主要包括:mathpix、庖丁PDFlux、pix2text、合合信息TextIn、腾讯云大模型知识引擎文档解析。测评范围主要包括…

    2024 年 7 月 17 日
    41800
  • 资讯丨实测对比Luma Labs新图像模型,Luma Photon能否胜出?

    近日,Luma Labs宣布推出两款全新图像生成模型:Luma Photon和Photon Flash,这两个图像生成模型是建立在新的突破性架构之上的,可提供超高品质的生成质量,不仅生成速度比市场上其他模型快,而且价格成本更低,为用户带来了新的视觉生成体验。 据官方介绍,在大规模双盲评估中,Luma Photon 在质量、创造力和理解力方面优于市场上的所有模…

    2024 年 12 月 4 日
    8500
  • 告别繁琐配置,来302.AI一键部署GraphRAG

    您是否遇到过这样的问题?大语言模型回答答非所问,或者直接在胡说八道。这种情况一般是因为大语言模型产生了幻觉。在开发和实际应用中,幻觉问题是一个常见且严重的问题,因为幻觉的存在,会导致回答的可信度大大降低。 幻觉出现的原因通常是模型对于某些特定领域或最新信息缺乏了解的情况下,而RAG(Retrieval-Augmented Generation)技术通过结合检…

    2024 年 10 月 23 日
    23600

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注