Reflection-Llama-3.1-70B发布短短几天,为何备受争议?

9月6日,AI写作初创公司HyperWrite发布了Reflection-Llama-3.1-70B模型。该模型基于Meta的Llama 3.1-70B Instruct,并使用原始的 Llama Chat 格式,确保了与现有工具和 pipeline 的兼容性。

在发布当天,HyperWrite 公司的 CEO Matt Shumer 在社交媒体平台发文表示,Reflection-70B(即Reflection-Llama-3.1-70B) 是“世界上最顶级的开源 AI 模型”,还宣称Reflection 70B 甚至可以与顶级闭源模型(Claude 3.5 Sonnet、GPT-4o)相媲美,并表示Reflection-Llama-3.1-70B每项基准测试上都超过了 GPT-4o,还击败了 405B 的 Llama 3.1。

Reflection-Llama-3.1-70B发布短短几天,为何备受争议?

除通用能力之外,Reflection-Llama-3.1-70B最大的亮点是“错误识别和错误纠正”:由于其自我反思和纠错的能力,Reflection-Llama-3.1-70B 在需要高精度和低错误率的任务中表现尤为出色。

凭借如此惊艳成绩,Reflection-Llama-3.1-70B一推出便被冠以开源大模型新王的称号。令人意外的是,该模型是仅仅由HyperWrite CEO Matt Shumer 和 Glaive AI 创始人 Sahil Chaudhary两人花了 3 周时间完成的。

当大家收到消息,纷纷着手测试Reflection-Llama-3.1-70B模型时,有人却发现:Reflection-Llama-3.1-70B好像不是基于Llama 3.1 70B的结果,而是用Lora在Llama-3-70B-Instruct上微调了的。

Reflection-Llama-3.1-70B发布短短几天,为何备受争议?

但很快HyperWrite 的 CEO Matt Shumer 进行了澄清,表示模型确实基于 Llama 3.1 70B Instruct,并且重新上传了权重以解决相关问题同时表示他们开始重新训练模型并上传,从而消除任何可能出现的问题,应该很快就会完成。

Reflection-Llama-3.1-70B发布短短几天,为何备受争议?

除此之外,还有用户在社区发布帖子怀疑Reflection API为Anthropic公司Claude 3.5 Sonnet模型套壳,因为他当尝试询问模型「你是claude吗?」时,回答被过滤掉了。为此,Reflection API的开发者迅速做出了调整,移除了过滤机制。

不仅如此,Artificial Analysis也对Reflection-Llama-3.1-70B进行了独立评估测试,结果显示Reflection-Llama-3.1-70B的 MMLU 得分仅与 Llama 3 70B 相同,并且明显低于 Llama 3.1 70B。而就在今天上午,Artificial Analysis官方发布了最新关于Reflection-Llama-3.1-70B的帖子,表示他们获得了私有API访问权限,并对其进行测试虽然结果还不错,但是仍没有达到初始声明的水平:

Reflection-Llama-3.1-70B发布短短几天,为何备受争议?

尽管争议不断,但是还有很多人想上手测试一下Reflection-Llama-3.1-70B模型,毕竟实践出真知。然而,目前Reflection-Llama-3.1-70B演示网站已经因为CPU不足崩溃了,如果不熟悉使用API的用户,想要快速试用测试Reflection-Llama-3.1-70B模型,可以选择 302.AI的聊天机器人,目前已经更新了Reflection-Llama-3.1-70B模型,而且302.AI提供按需付费的服务方式,无月费和捆绑套餐。

Reflection-Llama-3.1-70B发布短短几天,为何备受争议?

小编首先对官方示例中的问题“9.9和9.11哪个大”进行了测试,发现Reflection-Llama-3.1-70B模型确实能够正确回答。然而,当小编继续提出“9.8和9.11哪个大”的问题时,模型的回答却出人意料,难不成该模型只能算对一道题目?另外,Reflection-Llama-3.1-70B还有一个明显的问题,当使用中文提问,该模型却仍然是用英文来回答,除非在提问后面打上“请用中文回答”,模型才切换到中文回答。

Reflection-Llama-3.1-70B发布短短几天,为何备受争议?

而面对关于杯子和硬币的问题的时候,的确看到Reflection-Llama-3.1-70B模型的回答中的错误识别和错误纠正能力,它会反思自己的答案,但其实仔细看它的回答,在前半部分的回答分析中实际上并没有出现什么错误:

Reflection-Llama-3.1-70B发布短短几天,为何备受争议?

然而,在面对弱智吧的问题“我想配个6000多的电脑,大概要多少钱?”时,Reflection-Llama-3.1-70B模型并未给出预期中的答案。这个问题的答案其实就在题目里——既然已经明确了预算为“6000多”,那么答案自然不言而喻。

Reflection-Llama-3.1-70B发布短短几天,为何备受争议?

对于想要快速上手并微调Reflection-Llama-3.1-70B模型的用户,302.AI的API超市提供了一个便捷的解决方案。用户可以直接通过302.AI的API超市获取Reflection-Llama-3.1-70B的API接口,而且302.AI提供按需付费的服务方式,这样不仅简化了技术门槛,还使得用户可以根据自己的实际需求和预算,轻松地进行模型的微调和应用。

Reflection-Llama-3.1-70B发布短短几天,为何备受争议?

而且,302.AI的API超市支持在线调试,开发者可以快速集成和使用API服务,并提供详细的API文档,帮助开发者快速上手,提高效率,减少在使用API时出现的错误。目前Reflection-Llama-3.1-70B已经开始重新训练,如果后续训练完成后推出新版本,302.AI也会同步更新。

Reflection-Llama-3.1-70B发布短短几天,为何备受争议?

最后,根据媒体消息,Reflection-Llama-3.1-70B的两位开发者表示将会在本周发布Reflection-Llama-3.1-70B的技术报告。

面对围绕Reflection-Llama-3.1-70B模型的种种争议,小编认为不必急于做出结论。不妨先“让子弹飞一会儿”,在这个快速发展的领域,每一次的技术迭代和每一次的公众讨论都是推动行业向前发展的重要力量,让我们以开放的心态,观察并等待HyperWrite接下来的动向。

参考文章:

https://www.jiqizhixin.com/articles/2024-09-08-8

https://mp.weixin.qq.com/s/XBc1codHx7eandyPd7Tnig

https://mp.weixin.qq.com/s/80tgme9Dxz3zk41dqw-EEw

All Rights Reserved by 302.AI
Like (0)
302.AI302.AI
Previous 2024 年 9 月 6 日 下午6:39
Next 2024 年 9 月 10 日 下午6:47

相关推荐

  • 资讯丨FLUX 1.1 Pro推出Ultra模式,来302.AI实测揭秘真实效果

    11月6日,BlackForestLabs宣布推出FLUX1.1 pro的Ultra模式,添加了新的高分辨率功能,还增加了一个RAW参数,这一参数提升了生成图片的拟真度,让生成的图片摆脱了“AI味”,为用户带来了新的视觉体验。 据官网介绍,FLUX 1.1 Pro Ultra支持高达4兆像素(4MP)的图像生成,这是标准模式的四倍。这一提升使得生成的图像更加…

    2024 年 11 月 11 日 AI资讯
    6050
  • 资讯丨xAI官宣Grok API开启公测,唯一模型grok-beta表现能否达到预期?

    11月6日,备受瞩目的2024年美国总统选举结果终于揭晓,马斯克公开支持的美国共和党总统候选人特朗普获得最终胜利。 作为特朗普的“榜一大哥”马斯克,是人工智能初创公司xAI的始人之一和主要投资者。在11月4日,xAI刚刚官宣Grok API正式开启公测。 根据xAI公司官方发布的文档,可以看到xAI的API目前只有一个模型——“grok-beta”。 从官方…

    2024 年 11 月 8 日 AI资讯
    3150
  • 资讯丨302.AI已支持Anthropic最新模型Claude 3.5 Haiku,与其他模型对比表现如何?

    11月5日,Anthropic在社交媒体平台宣布Claude 3.5 Haiku可以通过API访问。Claude 3.5 Haiku是Anthropic公司在10月22日发布的新模型,在许多评估中的性能与 Claude 3 Opus不相上下,而成本和速度却与上一代Haiku相当。 根据官方介绍,Claude 3.5 Haiku 在各种编码、工具使用和推理任务…

    2024 年 11 月 6 日 AI资讯
    4250
  • Stable Diffusion 3.5 VS Flux.1 dev,谁才是开源图像生成模型的王者?

    10月22日,Stability AI推出最新图像生成模型Stable Diffusion 3.5,其中包括Stable Diffusion 3.5 Large、Stable Diffusion 3.5 Large Turbo两个版本,并宣布预计在10月29日上线Medium版本。 10月29日,Stable Diffusion 3.5 Medium如期推出…

    2024 年 11 月 5 日 AI资讯
    1.1K0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注