Reflection-Llama-3.1-70B发布短短几天,为何备受争议?

9月6日,AI写作初创公司HyperWrite发布了Reflection-Llama-3.1-70B模型。该模型基于Meta的Llama 3.1-70B Instruct,并使用原始的 Llama Chat 格式,确保了与现有工具和 pipeline 的兼容性。

在发布当天,HyperWrite 公司的 CEO Matt Shumer 在社交媒体平台发文表示,Reflection-70B(即Reflection-Llama-3.1-70B) 是“世界上最顶级的开源 AI 模型”,还宣称Reflection 70B 甚至可以与顶级闭源模型(Claude 3.5 Sonnet、GPT-4o)相媲美,并表示Reflection-Llama-3.1-70B每项基准测试上都超过了 GPT-4o,还击败了 405B 的 Llama 3.1。

Reflection-Llama-3.1-70B发布短短几天,为何备受争议?

除通用能力之外,Reflection-Llama-3.1-70B最大的亮点是“错误识别和错误纠正”:由于其自我反思和纠错的能力,Reflection-Llama-3.1-70B 在需要高精度和低错误率的任务中表现尤为出色。

凭借如此惊艳成绩,Reflection-Llama-3.1-70B一推出便被冠以开源大模型新王的称号。令人意外的是,该模型是仅仅由HyperWrite CEO Matt Shumer 和 Glaive AI 创始人 Sahil Chaudhary两人花了 3 周时间完成的。

当大家收到消息,纷纷着手测试Reflection-Llama-3.1-70B模型时,有人却发现:Reflection-Llama-3.1-70B好像不是基于Llama 3.1 70B的结果,而是用Lora在Llama-3-70B-Instruct上微调了的。

Reflection-Llama-3.1-70B发布短短几天,为何备受争议?

但很快HyperWrite 的 CEO Matt Shumer 进行了澄清,表示模型确实基于 Llama 3.1 70B Instruct,并且重新上传了权重以解决相关问题同时表示他们开始重新训练模型并上传,从而消除任何可能出现的问题,应该很快就会完成。

Reflection-Llama-3.1-70B发布短短几天,为何备受争议?

除此之外,还有用户在社区发布帖子怀疑Reflection API为Anthropic公司Claude 3.5 Sonnet模型套壳,因为他当尝试询问模型「你是claude吗?」时,回答被过滤掉了。为此,Reflection API的开发者迅速做出了调整,移除了过滤机制。

不仅如此,Artificial Analysis也对Reflection-Llama-3.1-70B进行了独立评估测试,结果显示Reflection-Llama-3.1-70B的 MMLU 得分仅与 Llama 3 70B 相同,并且明显低于 Llama 3.1 70B。而就在今天上午,Artificial Analysis官方发布了最新关于Reflection-Llama-3.1-70B的帖子,表示他们获得了私有API访问权限,并对其进行测试虽然结果还不错,但是仍没有达到初始声明的水平:

Reflection-Llama-3.1-70B发布短短几天,为何备受争议?

尽管争议不断,但是还有很多人想上手测试一下Reflection-Llama-3.1-70B模型,毕竟实践出真知。然而,目前Reflection-Llama-3.1-70B演示网站已经因为CPU不足崩溃了,如果不熟悉使用API的用户,想要快速试用测试Reflection-Llama-3.1-70B模型,可以选择 302.AI的聊天机器人,目前已经更新了Reflection-Llama-3.1-70B模型,而且302.AI提供按需付费的服务方式,无月费和捆绑套餐。

Reflection-Llama-3.1-70B发布短短几天,为何备受争议?

小编首先对官方示例中的问题“9.9和9.11哪个大”进行了测试,发现Reflection-Llama-3.1-70B模型确实能够正确回答。然而,当小编继续提出“9.8和9.11哪个大”的问题时,模型的回答却出人意料,难不成该模型只能算对一道题目?另外,Reflection-Llama-3.1-70B还有一个明显的问题,当使用中文提问,该模型却仍然是用英文来回答,除非在提问后面打上“请用中文回答”,模型才切换到中文回答。

Reflection-Llama-3.1-70B发布短短几天,为何备受争议?

而面对关于杯子和硬币的问题的时候,的确看到Reflection-Llama-3.1-70B模型的回答中的错误识别和错误纠正能力,它会反思自己的答案,但其实仔细看它的回答,在前半部分的回答分析中实际上并没有出现什么错误:

Reflection-Llama-3.1-70B发布短短几天,为何备受争议?

然而,在面对弱智吧的问题“我想配个6000多的电脑,大概要多少钱?”时,Reflection-Llama-3.1-70B模型并未给出预期中的答案。这个问题的答案其实就在题目里——既然已经明确了预算为“6000多”,那么答案自然不言而喻。

Reflection-Llama-3.1-70B发布短短几天,为何备受争议?

对于想要快速上手并微调Reflection-Llama-3.1-70B模型的用户,302.AI的API超市提供了一个便捷的解决方案。用户可以直接通过302.AI的API超市获取Reflection-Llama-3.1-70B的API接口,而且302.AI提供按需付费的服务方式,这样不仅简化了技术门槛,还使得用户可以根据自己的实际需求和预算,轻松地进行模型的微调和应用。

Reflection-Llama-3.1-70B发布短短几天,为何备受争议?

而且,302.AI的API超市支持在线调试,开发者可以快速集成和使用API服务,并提供详细的API文档,帮助开发者快速上手,提高效率,减少在使用API时出现的错误。目前Reflection-Llama-3.1-70B已经开始重新训练,如果后续训练完成后推出新版本,302.AI也会同步更新。

Reflection-Llama-3.1-70B发布短短几天,为何备受争议?

最后,根据媒体消息,Reflection-Llama-3.1-70B的两位开发者表示将会在本周发布Reflection-Llama-3.1-70B的技术报告。

面对围绕Reflection-Llama-3.1-70B模型的种种争议,小编认为不必急于做出结论。不妨先“让子弹飞一会儿”,在这个快速发展的领域,每一次的技术迭代和每一次的公众讨论都是推动行业向前发展的重要力量,让我们以开放的心态,观察并等待HyperWrite接下来的动向。

参考文章:

https://www.jiqizhixin.com/articles/2024-09-08-8

https://mp.weixin.qq.com/s/XBc1codHx7eandyPd7Tnig

https://mp.weixin.qq.com/s/80tgme9Dxz3zk41dqw-EEw

(0)
302.AI302.AI
上一篇 2024 年 9 月 6 日 下午6:39
下一篇 2024 年 9 月 10 日 下午6:47

相关推荐

  • 可灵AI全面开放,引领视频创作新时代

    7月下旬,可灵AI(Kling AI)宣布全面开放,曾经在国内外内测名额“一号难求”的可灵成为了历史。可灵AI是由快手科技自研的视频生成大模型,能够根据文本提示生成长达2分钟、帧率为30fps的高质量视频,支持1080p分辨率,并支持多种宽高比,陆续升级推出了图生视频等功能。 从上线到全面开放,可灵历经了一个多月的时间: 6月10日,快手科技宣布推出了可灵大…

    2024 年 8 月 6 日
    6300
  • Stable Diffusion原班人马打造FLUX.1模型,推出的三个版本有什么不同?

    就在不久前,Stable Diffusion开源图像模型推出后,在网络上引发了热烈的讨论和广泛关注。后来,Stable Diffusion 部分创始成员创建了新公司Black Forest Labs,8月1日,Black Forest Labs推出了新研发的图像生成模型FLUX.1 。 FLUX.1 拥有12B参数,是迄今为止参数最多图像生成模型之一。该模型…

    2024 年 8 月 13 日
    6600
  • Meta号称最强的开源模型Llama3.1,却数不清strawberry有几个“r”?

    7月23日,Meta AI发布最新开源模型 —— Llama 3.1 !在多项测试中超越闭源模型,开源模型的时代要来了吗? Llama3.1共包含8b、70b和405b三种模型,支持八种语言包括英语,德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语,具备 128K 扩展上下文长度,该模型提供通用知识、数学计算、多语言翻译和工具使用等能力。 其中,8B、…

    2024 年 7 月 26 日
    9800
  • OpenAI更新模型ChatGPT-4o-latest,与GPT-4o对比不同在哪里?

    8月12日,ChatGPT官方账号在社交媒体平台发文称ChatGPT推出了新的GPT-4o模型,但同时也明确,这次推出的GPT-4o模型是对GPT-4o的改进,而不是新的前沿模型。而且,ChatGPT官方表示这次的更新“难以明确说明”。 然而,这一最新的模型ChatGPT-4o-latest在LMSYS的LLM竞技场排行榜中,已经以1314的综合分数超越曾经…

    2024 年 8 月 20 日
    5700
  • AI直接翻译PDF?又一解放生产力的神器来袭!

    近日,一款来自初创公司的识别神器Doc2X备受关注。小编为此也特意去了解了,发现非常有意思的是,为了让用户更直观的看到Doc2X的实力,Doc2X在官网中以文档的形式给大家展示了Doc2X与市场上各竞品的识别能力做对比分析。 竞品主要包括:mathpix、庖丁PDFlux、pix2text、合合信息TextIn、腾讯云大模型知识引擎文档解析。测评范围主要包括…

    2024 年 7 月 17 日
    15700

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注