英伟达微调Llama3很强?来302竞技场跑跑分!

10月17日,英伟达(Nvidia)开源了微调后的Llama3.1——Llama-3.1-Nemotron-70B-Instruct。

Llama-3.1-Nemotron-70B-Instruct 是 NVIDIA 使用私有数据集微调后的Llama3.1,旨在提高 LLM 生成的响应对用户查询的帮助性。

英伟达微调Llama3很强?来302竞技场跑跑分!

根据官方Tech Report,Llama-3.1-Nemotron-70B-Instruct采用了人类反馈强化学习(RLHF)方法,特别是 REINFORCE 算法,这使得模型在理解和执行指令方面表现出色。它还采用了一种创新的混合训练方法,巧妙地将 Bradley-Terry 和 Regression 奖励模型结合在一起。

这一模型在多个基准测试中表现出色,例如在 Arena Hard 上得分为 85.0,在 AlpacaEval 2 LC 上得分为 57.6,在 GPT-4-Turbo MT-Bench 上得分为 8.98,截至 2024 年 10 月 1 日,在这些基准测试中表现最佳,超越了 GPT-4o 和 Claude 3.5 Sonnet 等模型:

英伟达微调Llama3很强?来302竞技场跑跑分!

理论和数据固然重要,但更重要的是实际应用中的表示,既然都在说Llama-3.1-Nemotron-70B-Instruct超越了GPT-4o和Claude 3.5 Sonnet模型,抱着“看热闹不嫌事大”的态度,接下来,Yuki将通过302.AI的模型竞技场测试对比一下和其他闭源模型的真实表现。

302.AI的模型竞技场集成多种AI模型,用户可以选择多个模型同时回答问题,能够更直观、清晰地对比不同模型的表现,而且302.AI提供了按需付费的使用方式,用户无需担心月费和捆绑套餐,使得付费更加灵活和经济。

首先,我们进入302.AI的工具超市——工作效率——模型竞技场

英伟达微调Llama3很强?来302竞技场跑跑分!

进入模型竞技场后,按需勾选模型,可以看到302.AI已经更新了“Llama-3.1-nemotron (Nvidia开源模型)”即是上文提到的Llama-3.1-Nemotron-70B-Instruct,按照Yuki的需求,一共勾选了四个模型,分别是:o1-preview、GPT-4o、Claude 3.5 Sonnet和Llama-3.1-nemotron (Nvidia开源模型):

英伟达微调Llama3很强?来302竞技场跑跑分!

先测试一下官方给出的草莓问题,从结果来看,只有Llama-3.1-Nemotron-70B-Instruct和o1-preview回答正确,不过Llama-3.1-Nemotron-70B-Instruct更详细的数了出来:

英伟达微调Llama3很强?来302竞技场跑跑分!

再来测试一个“煮鸡蛋和煎饼问题”:

题目:煮1个鸡蛋需要5分钟,煎一块饼的一面需要3分钟,饼需要翻面两次才能熟。煮锅和煎锅可以同时开火,煎锅一次最多只能放两块饼,那么我想要煮3个鸡蛋和3块饼,最快一共需要几分钟?

看下在这一问题上三个模型的表现怎么样:

先给大家看看标准答案,来自老朋友GPT-4o,其实这道题的难点在于题目问的是“最快需要几分钟”,这考验了对时间最优化的理解和计算,可以看到GPT-4o的回答给出了最优最详细的方案:

英伟达微调Llama3很强?来302竞技场跑跑分!

再来看看Claude 3.5 Sonnet,虽然懂得把3个鸡蛋放一起煮,但是在煎饼的时候并没有找到真正的最优方法,只是照常规的方式按顺序进行煎饼:

英伟达微调Llama3很强?来302竞技场跑跑分!

o1-preview的答案虽然很长很详细,但还是错的:

英伟达微调Llama3很强?来302竞技场跑跑分!

最后是今天的主角Llama-3.1-Nemotron-70B-Instruct,Llama-3.1-Nemotron-70B-Instruct给出的答案有点难理解,整个逻辑有点绕,按照回答前部分的内容,即使第二轮开始时第一轮已经结束,花费的时间也是18分钟,不知道9分钟是如何得来的:英伟达微调Llama3很强?来302竞技场跑跑分!

最后,在302.AI的API超市中也同步更新了Llama-3.1-Nemotron-70B-Instruct的API,用户可以快速快速理解和集成API,支持在线调试,能够节省时间并提高了工作效率:

英伟达微调Llama3很强?来302竞技场跑跑分!

英伟达微调Llama3很强?来302竞技场跑跑分!

虽然Llama-3.1-Nemotron-70B-Instruct在一些基准测试中表现出色,但在特定实际应用场景中的优化和表现似乎还有比较大的改进空间。具体而言,在这类时序优化问题上,该模型在逻辑推理能力和回答准确性方面可能仍不如GPT-4o那么成熟。尽管如此,Llama-3.1-Nemotron-70B-Instruct的出现,展示了高质量的私有数据微调潜力。

展望未来,我们302.AI会持续更新更多最新、最强的模型,致力于满足用户日益增长的需求和期待,欢迎大家来302.AI体验!

参考文章:

https://huggingface.co/nvidia/Llama-3.1-Nemotron-70B-Instruct https://mp.weixin.qq.com/s/ebJkBkGAn8QS-_xVK__MMw

All Rights Reserved by 302.AI
Like (0)
302.AI302.AI
Previous 2024 年 10 月 21 日 下午6:10
Next 2024 年 10 月 23 日 下午6:55

相关推荐

  • 302.AI 新品发布 | AI绘图总翻车?绘图提示词专家帮你精准复刻图片,自由修改风格!

    许多人在使用AI绘图时,都会面临一些棘手的问题,比如想复刻某张图,但尝试了不同的关键词后生成效果依然货不对板;再比如想要对现有的图片进行风格调整使其更贴合自己的独特需求,但却难以维持画面元素的一致性。 针对以上痛点,302.AI 上新了一款AI绘图提示词专家工具,这一工具结合了“图片转提示词”和“风格修改”两大功能,用户不仅可以通过上传图片获得精准提示词复刻…

    2025 年 4 月 25 日 AI资讯
    1340
  • 资讯丨马斯克号称地表最强的Grok 3系列模型,在实测中到底能否超越R1和o3-mini?

    2月19日,马斯克旗下的大模型平台 xAI 推出了新的模型——Grok-3。官方宣称,Grok-3 在推理、数学、编码和指令遵循任务中均表现出色,并在一系列基准测试中表现出色。而马斯克更是称一模型为 ⌈ 地表最强 ⌋。 (非推理模式的Grok-3与其它大模型能力对比) 根据了解,grok-3 并非单一模型,而是一个包含多个版本的模型家族。其中包括了变体版本—…

    2025 年 2 月 24 日 AI资讯
    3040
  • 资讯丨通义万相2.1模型实测绝了!汉字竟在视频里“活”了

    继豆包图像模型攻克汉字生成的难题后,国内AI视频生成领域在中文生成方面再次来了新突破! 今年年初,阿里云推出了全新升级的的视频生成模型——通义万相2.1。据了解,这是⌈ 首个具备中文文字生成能力的视频生成模型 ⌋ 。 通义万相2.1视频模型一经推出,便以 84.70% 总分登顶权威评测榜单VBench榜首。除了中文文字生成的创新,该模型在复杂运动、大幅度动作…

    2025 年 2 月 21 日 AI资讯
    7680
  • 资讯丨302.AI 代码竞技场:大模型编程能力的“超级擂台”

    一个大模型能力强不强,我们常常会从多个维度去评估,其中编程能力是尤为关键的一项。 对于许多用户而言,想要准确测试大模型的代码能力却常常不知道该从何入手,或者不知道选择哪个平台进行测试。 为了帮助用户解决这一问题,302.AI最新上线了一款工具——代码竞技场,这一工具集结了多种先进模型,为用户提供了一个广阔、便捷、易用的代码测试平台。 工具界面展示: 302.…

    2025 年 2 月 19 日 AI资讯
    2730

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注