Reflection-Llama-3.1-70B发布短短几天,为何备受争议?

9月6日,AI写作初创公司HyperWrite发布了Reflection-Llama-3.1-70B模型。该模型基于Meta的Llama 3.1-70B Instruct,并使用原始的 Llama Chat 格式,确保了与现有工具和 pipeline 的兼容性。

在发布当天,HyperWrite 公司的 CEO Matt Shumer 在社交媒体平台发文表示,Reflection-70B(即Reflection-Llama-3.1-70B) 是“世界上最顶级的开源 AI 模型”,还宣称Reflection 70B 甚至可以与顶级闭源模型(Claude 3.5 Sonnet、GPT-4o)相媲美,并表示Reflection-Llama-3.1-70B每项基准测试上都超过了 GPT-4o,还击败了 405B 的 Llama 3.1。

Reflection-Llama-3.1-70B发布短短几天,为何备受争议?

除通用能力之外,Reflection-Llama-3.1-70B最大的亮点是“错误识别和错误纠正”:由于其自我反思和纠错的能力,Reflection-Llama-3.1-70B 在需要高精度和低错误率的任务中表现尤为出色。

凭借如此惊艳成绩,Reflection-Llama-3.1-70B一推出便被冠以开源大模型新王的称号。令人意外的是,该模型是仅仅由HyperWrite CEO Matt Shumer 和 Glaive AI 创始人 Sahil Chaudhary两人花了 3 周时间完成的。

当大家收到消息,纷纷着手测试Reflection-Llama-3.1-70B模型时,有人却发现:Reflection-Llama-3.1-70B好像不是基于Llama 3.1 70B的结果,而是用Lora在Llama-3-70B-Instruct上微调了的。

Reflection-Llama-3.1-70B发布短短几天,为何备受争议?

但很快HyperWrite 的 CEO Matt Shumer 进行了澄清,表示模型确实基于 Llama 3.1 70B Instruct,并且重新上传了权重以解决相关问题同时表示他们开始重新训练模型并上传,从而消除任何可能出现的问题,应该很快就会完成。

Reflection-Llama-3.1-70B发布短短几天,为何备受争议?

除此之外,还有用户在社区发布帖子怀疑Reflection API为Anthropic公司Claude 3.5 Sonnet模型套壳,因为他当尝试询问模型「你是claude吗?」时,回答被过滤掉了。为此,Reflection API的开发者迅速做出了调整,移除了过滤机制。

不仅如此,Artificial Analysis也对Reflection-Llama-3.1-70B进行了独立评估测试,结果显示Reflection-Llama-3.1-70B的 MMLU 得分仅与 Llama 3 70B 相同,并且明显低于 Llama 3.1 70B。而就在今天上午,Artificial Analysis官方发布了最新关于Reflection-Llama-3.1-70B的帖子,表示他们获得了私有API访问权限,并对其进行测试虽然结果还不错,但是仍没有达到初始声明的水平:

Reflection-Llama-3.1-70B发布短短几天,为何备受争议?

尽管争议不断,但是还有很多人想上手测试一下Reflection-Llama-3.1-70B模型,毕竟实践出真知。然而,目前Reflection-Llama-3.1-70B演示网站已经因为CPU不足崩溃了,如果不熟悉使用API的用户,想要快速试用测试Reflection-Llama-3.1-70B模型,可以选择 302.AI的聊天机器人,目前已经更新了Reflection-Llama-3.1-70B模型,而且302.AI提供按需付费的服务方式,无月费和捆绑套餐。

Reflection-Llama-3.1-70B发布短短几天,为何备受争议?

小编首先对官方示例中的问题“9.9和9.11哪个大”进行了测试,发现Reflection-Llama-3.1-70B模型确实能够正确回答。然而,当小编继续提出“9.8和9.11哪个大”的问题时,模型的回答却出人意料,难不成该模型只能算对一道题目?另外,Reflection-Llama-3.1-70B还有一个明显的问题,当使用中文提问,该模型却仍然是用英文来回答,除非在提问后面打上“请用中文回答”,模型才切换到中文回答。

Reflection-Llama-3.1-70B发布短短几天,为何备受争议?

而面对关于杯子和硬币的问题的时候,的确看到Reflection-Llama-3.1-70B模型的回答中的错误识别和错误纠正能力,它会反思自己的答案,但其实仔细看它的回答,在前半部分的回答分析中实际上并没有出现什么错误:

Reflection-Llama-3.1-70B发布短短几天,为何备受争议?

然而,在面对弱智吧的问题“我想配个6000多的电脑,大概要多少钱?”时,Reflection-Llama-3.1-70B模型并未给出预期中的答案。这个问题的答案其实就在题目里——既然已经明确了预算为“6000多”,那么答案自然不言而喻。

Reflection-Llama-3.1-70B发布短短几天,为何备受争议?

对于想要快速上手并微调Reflection-Llama-3.1-70B模型的用户,302.AI的API超市提供了一个便捷的解决方案。用户可以直接通过302.AI的API超市获取Reflection-Llama-3.1-70B的API接口,而且302.AI提供按需付费的服务方式,这样不仅简化了技术门槛,还使得用户可以根据自己的实际需求和预算,轻松地进行模型的微调和应用。

Reflection-Llama-3.1-70B发布短短几天,为何备受争议?

而且,302.AI的API超市支持在线调试,开发者可以快速集成和使用API服务,并提供详细的API文档,帮助开发者快速上手,提高效率,减少在使用API时出现的错误。目前Reflection-Llama-3.1-70B已经开始重新训练,如果后续训练完成后推出新版本,302.AI也会同步更新。

Reflection-Llama-3.1-70B发布短短几天,为何备受争议?

最后,根据媒体消息,Reflection-Llama-3.1-70B的两位开发者表示将会在本周发布Reflection-Llama-3.1-70B的技术报告。

面对围绕Reflection-Llama-3.1-70B模型的种种争议,小编认为不必急于做出结论。不妨先“让子弹飞一会儿”,在这个快速发展的领域,每一次的技术迭代和每一次的公众讨论都是推动行业向前发展的重要力量,让我们以开放的心态,观察并等待HyperWrite接下来的动向。

参考文章:

https://www.jiqizhixin.com/articles/2024-09-08-8

https://mp.weixin.qq.com/s/XBc1codHx7eandyPd7Tnig

https://mp.weixin.qq.com/s/80tgme9Dxz3zk41dqw-EEw

All Rights Reserved by 302.AI
Like (0)
302.AI302.AI
Previous 2024 年 9 月 6 日 下午6:39
Next 2024 年 9 月 10 日 下午6:47

相关推荐

  • 302.AI 新品发布 | AI绘图总翻车?绘图提示词专家帮你精准复刻图片,自由修改风格!

    许多人在使用AI绘图时,都会面临一些棘手的问题,比如想复刻某张图,但尝试了不同的关键词后生成效果依然货不对板;再比如想要对现有的图片进行风格调整使其更贴合自己的独特需求,但却难以维持画面元素的一致性。 针对以上痛点,302.AI 上新了一款AI绘图提示词专家工具,这一工具结合了“图片转提示词”和“风格修改”两大功能,用户不仅可以通过上传图片获得精准提示词复刻…

    2025 年 4 月 25 日 AI资讯
    1340
  • 资讯丨马斯克号称地表最强的Grok 3系列模型,在实测中到底能否超越R1和o3-mini?

    2月19日,马斯克旗下的大模型平台 xAI 推出了新的模型——Grok-3。官方宣称,Grok-3 在推理、数学、编码和指令遵循任务中均表现出色,并在一系列基准测试中表现出色。而马斯克更是称一模型为 ⌈ 地表最强 ⌋。 (非推理模式的Grok-3与其它大模型能力对比) 根据了解,grok-3 并非单一模型,而是一个包含多个版本的模型家族。其中包括了变体版本—…

    2025 年 2 月 24 日 AI资讯
    3040
  • 资讯丨通义万相2.1模型实测绝了!汉字竟在视频里“活”了

    继豆包图像模型攻克汉字生成的难题后,国内AI视频生成领域在中文生成方面再次来了新突破! 今年年初,阿里云推出了全新升级的的视频生成模型——通义万相2.1。据了解,这是⌈ 首个具备中文文字生成能力的视频生成模型 ⌋ 。 通义万相2.1视频模型一经推出,便以 84.70% 总分登顶权威评测榜单VBench榜首。除了中文文字生成的创新,该模型在复杂运动、大幅度动作…

    2025 年 2 月 21 日 AI资讯
    7700
  • 资讯丨302.AI 代码竞技场:大模型编程能力的“超级擂台”

    一个大模型能力强不强,我们常常会从多个维度去评估,其中编程能力是尤为关键的一项。 对于许多用户而言,想要准确测试大模型的代码能力却常常不知道该从何入手,或者不知道选择哪个平台进行测试。 为了帮助用户解决这一问题,302.AI最新上线了一款工具——代码竞技场,这一工具集结了多种先进模型,为用户提供了一个广阔、便捷、易用的代码测试平台。 工具界面展示: 302.…

    2025 年 2 月 19 日 AI资讯
    2730

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注