英伟达微调Llama3很强?来302竞技场跑跑分!

10月17日,英伟达(Nvidia)开源了微调后的Llama3.1——Llama-3.1-Nemotron-70B-Instruct。

Llama-3.1-Nemotron-70B-Instruct 是 NVIDIA 使用私有数据集微调后的Llama3.1,旨在提高 LLM 生成的响应对用户查询的帮助性。

英伟达微调Llama3很强?来302竞技场跑跑分!

根据官方Tech Report,Llama-3.1-Nemotron-70B-Instruct采用了人类反馈强化学习(RLHF)方法,特别是 REINFORCE 算法,这使得模型在理解和执行指令方面表现出色。它还采用了一种创新的混合训练方法,巧妙地将 Bradley-Terry 和 Regression 奖励模型结合在一起。

这一模型在多个基准测试中表现出色,例如在 Arena Hard 上得分为 85.0,在 AlpacaEval 2 LC 上得分为 57.6,在 GPT-4-Turbo MT-Bench 上得分为 8.98,截至 2024 年 10 月 1 日,在这些基准测试中表现最佳,超越了 GPT-4o 和 Claude 3.5 Sonnet 等模型:

英伟达微调Llama3很强?来302竞技场跑跑分!

理论和数据固然重要,但更重要的是实际应用中的表示,既然都在说Llama-3.1-Nemotron-70B-Instruct超越了GPT-4o和Claude 3.5 Sonnet模型,抱着“看热闹不嫌事大”的态度,接下来,Yuki将通过302.AI的模型竞技场测试对比一下和其他闭源模型的真实表现。

302.AI的模型竞技场集成多种AI模型,用户可以选择多个模型同时回答问题,能够更直观、清晰地对比不同模型的表现,而且302.AI提供了按需付费的使用方式,用户无需担心月费和捆绑套餐,使得付费更加灵活和经济。

首先,我们进入302.AI的工具超市——工作效率——模型竞技场

英伟达微调Llama3很强?来302竞技场跑跑分!

进入模型竞技场后,按需勾选模型,可以看到302.AI已经更新了“Llama-3.1-nemotron (Nvidia开源模型)”即是上文提到的Llama-3.1-Nemotron-70B-Instruct,按照Yuki的需求,一共勾选了四个模型,分别是:o1-preview、GPT-4o、Claude 3.5 Sonnet和Llama-3.1-nemotron (Nvidia开源模型):

英伟达微调Llama3很强?来302竞技场跑跑分!

先测试一下官方给出的草莓问题,从结果来看,只有Llama-3.1-Nemotron-70B-Instruct和o1-preview回答正确,不过Llama-3.1-Nemotron-70B-Instruct更详细的数了出来:

英伟达微调Llama3很强?来302竞技场跑跑分!

再来测试一个“煮鸡蛋和煎饼问题”:

题目:煮1个鸡蛋需要5分钟,煎一块饼的一面需要3分钟,饼需要翻面两次才能熟。煮锅和煎锅可以同时开火,煎锅一次最多只能放两块饼,那么我想要煮3个鸡蛋和3块饼,最快一共需要几分钟?

看下在这一问题上三个模型的表现怎么样:

先给大家看看标准答案,来自老朋友GPT-4o,其实这道题的难点在于题目问的是“最快需要几分钟”,这考验了对时间最优化的理解和计算,可以看到GPT-4o的回答给出了最优最详细的方案:

英伟达微调Llama3很强?来302竞技场跑跑分!

再来看看Claude 3.5 Sonnet,虽然懂得把3个鸡蛋放一起煮,但是在煎饼的时候并没有找到真正的最优方法,只是照常规的方式按顺序进行煎饼:

英伟达微调Llama3很强?来302竞技场跑跑分!

o1-preview的答案虽然很长很详细,但还是错的:

英伟达微调Llama3很强?来302竞技场跑跑分!

最后是今天的主角Llama-3.1-Nemotron-70B-Instruct,Llama-3.1-Nemotron-70B-Instruct给出的答案有点难理解,整个逻辑有点绕,按照回答前部分的内容,即使第二轮开始时第一轮已经结束,花费的时间也是18分钟,不知道9分钟是如何得来的:英伟达微调Llama3很强?来302竞技场跑跑分!

最后,在302.AI的API超市中也同步更新了Llama-3.1-Nemotron-70B-Instruct的API,用户可以快速快速理解和集成API,支持在线调试,能够节省时间并提高了工作效率:

英伟达微调Llama3很强?来302竞技场跑跑分!

英伟达微调Llama3很强?来302竞技场跑跑分!

虽然Llama-3.1-Nemotron-70B-Instruct在一些基准测试中表现出色,但在特定实际应用场景中的优化和表现似乎还有比较大的改进空间。具体而言,在这类时序优化问题上,该模型在逻辑推理能力和回答准确性方面可能仍不如GPT-4o那么成熟。尽管如此,Llama-3.1-Nemotron-70B-Instruct的出现,展示了高质量的私有数据微调潜力。

展望未来,我们302.AI会持续更新更多最新、最强的模型,致力于满足用户日益增长的需求和期待,欢迎大家来302.AI体验!

参考文章:

https://huggingface.co/nvidia/Llama-3.1-Nemotron-70B-Instruct https://mp.weixin.qq.com/s/ebJkBkGAn8QS-_xVK__MMw

Like (0)
302.AI302.AI
Previous 2024 年 10 月 21 日 下午6:10
Next 2024 年 10 月 23 日 下午6:55

相关推荐

  • 最近爆火的AI播客工具,302.AI竟然开源了!

    最近,随着NotebookLM的爆火,AI播客生成领域迎来了前所未有的热闹。 AI播客生成的兴起并不是偶然的,在信息爆炸的时代,用户往往会被海量的内容所淹没,很难去有效筛选和吸收有价值的内容,从而导致时间和精力的浪费。 而AI播客的出现改变了这一现状,比如曾经需要用3小时的时间才能通读一篇长论文才能提炼有效的关键信息,现在只需要3分钟,获取信息的过程也不再受…

    2024 年 10 月 29 日
    49700
  • 资讯丨首个支持多主体一致性的大模型Vidu 1.5,在302.AI上玩到停不下来!

    11中旬,生数科技推出了最新AI视频生成模型Vidu 1.5版本,并声称这一版本模型为“全球首个支持多主体一致性的大模型”。 先简单理解下多主体一致性的意思,多主体一致性即多个主体如人物、物体、场景等,在不同场景、不同镜头下的形象、特征和行为都是连贯和一致的。更简单地说,就是视频里的每个角色或物体在不同时间和不同地点都能保持他们的特征和行为,使得整个视频看起…

    2024 年 12 月 19 日
    56700
  • 资讯丨Mistral AI推出多模态模型Pixtral Large并升级Mistral Large,实测结果让人眼前一亮?

    11月19日,Mistral AI宣布推出新视觉模型——Pixtral Large。 Pixtral Large是基于Mistral Large 2构建,具有124B开放权重的多模态模型,支持128K上下文窗口,能够理解文档、图表和自然图像的同时保持了 Mistral Large 2 领先的纯文本理解能力。 根据Mistral AI提供的Pixtral La…

    2024 年 11 月 21 日
    36400
  • 超便捷!教你如何1秒为所有大模型API增加图片分析/联网搜索/长期记忆功能

    由于AI训练的特殊性,现阶段大模型都存在以下三个问题: 针对这三个问题,市面上有非常多的工程的解决方案,但是都比较繁琐。 在302.AI平台,为了让开发者和用户可以快速地解决这几个问题,我们在API调用层面做了几个升级,下面就来详细的讲一讲。 给模型装上眼睛 大模型在行业里可以分为两类: 由于多模态模型训练对数据集和算法的要求非常高,所以现阶段大部分的模型都…

    2025 年 2 月 13 日
    35600
  • 302.AI带来实时语音便捷方案,让你快速体验AI语音通话

    在10月初,OpenAI在旧金山召开了开发者大会。在发布会中,OpenAI推出了Realtime API 的公开测试版。 Realtime API是一种实时多模态API,它允许开发人员构建低延迟、多模态的AI应用体验。这个API背后的技术是GPT-4o模型,它支持音频输入和输出,能够实现超越传统基于文本的AI对话的实时、自然的语音交互。 像Realtime这…

    2024 年 10 月 31 日
    53100

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注