50美金复刻DeepSeek R1?解密背后真正的故事

一则新闻

今天猛然看到一则新闻标题,大意是李飞飞团队仅用 50 美金就复刻出了一个媲美 R1 的模型。我的第一反应是「不可能,又是什么标题党」;第二反应是「数据应该不是凭空捏造的,索性求证一下?」

50美金复刻DeepSeek R1?解密背后真正的故事

然后,我找到了原始论文《s1: Simple test-time scaling》(https://arxiv.org/pdf/2501.19393)。仔细拜读之后发现,某种程度上来说,这则新闻居然是对的?!虽然非常地断章取义(故意隐去了很多背景条件)。

在我看来,这件事更准确、更靠近真相的表达是:李飞飞团队找到了一种新方法让普通模型进化为推理模型

另一种尝试

我在上一篇文章里写道,CloseAI 在 2024 年指明了未来的发展方向:增加思考时间以换取更多智能。但它没透露任何实现细节,由此,整个大模型行业开始苦苦寻找 o1 背后的奥秘。

DeepSeek 找到的是:让模型自己学会多思考。

李飞飞团队找到的是:如何强制让模型多思考。

打个比方,DeepSeek 让学生通过大量训练提高了自己的能力,之后做题的时候,自然而然就会多想一想(够学霸)。李飞飞团队则是让一个学生在做题的时候,强迫自己多审题多反思,不要着急给答案(够认真)。

其实,这两种方法还可以结合。而且,很多人猜测 o1 就是结合了这两种方法,训练时先提高自己的推理能力,推理时再强迫自己多想一想。

50美金复刻DeepSeek R1?解密背后真正的故事

50 美元的来源

说回我看到的那则新闻。

整个标题最吸睛的就是 50 美元这个金额(与动辄数百万、数千万美元的花费相比,这个金额实在低到夸张)。但是,通读整篇论文,我都没看到这个数字。

原来,50 美元是由论文中提到的「仅需要 16 个 H100 GPU 训练 26 分钟」计算出来的,H100 的租金是 3 美元/时,所以 3*16 = 48(按一小时起租)。

这也是整则新闻对事实最严重的曲解。说训练这个模型仅花费 50 美元,就如同说在餐厅点了一盘龙虾,然后声称这道菜的制作成本仅为烹饪时消耗掉的燃气。

但是,话又说回来。虽然 50 美元不是模型完整的训练成本,但作为 GPU 消耗成本,这个金额之低,依然值得惊叹!

在技术视角下,这个数据讲述了这样一个故事:李飞飞团队只用1000条精选数据对Qwen2.5-32B进行微调,就将模型能力提高了几倍

50美金复刻DeepSeek R1?解密背后真正的故事

那李飞飞团队是怎么做到的呢?

激活潜能

DeepSeek 在研究 R1 的过程中发现,小模型经过强化学习训练的效果并不好,远不如直接使用大推理模型的数据进行微调。

相似的,李飞飞团队第一步也是先微调了一个新的模型——s1-32B,其微调数据集由「人工挑选问题搭配 Gemini-2.0-Flash-Thinking 生成的过程」组成,然后在 Qwen2.5-32B 上进行监督微调(SFT)。

在这个过程中,团队有一些新的发现:只用 1,000 条精选的高质量数据微调,与用 59,000 条高质量数据微调,效果居然差不多。

50美金复刻DeepSeek R1?解密背后真正的故事

至于原因,他们解释道:执行推理的能力已经存在于我们的模型中,高效的样本微调阶段只是激活了它。也就是说,小样本微调并不是让模型学习如何思考,而是模型本来就会,它只需要一些引导。

“Wait”

只激活推理能力是不够的,此时的模型在输出时还不会主动思考。第二步的工程发明才是整个论文的重点,即 Budget forcing(BF),中文翻译过来就是强制预算,在输出时强制让模型进入思考。

这个方法的原理也特别简单:在模型输出阶段,先设定一个「时间范围」,如果模型没到时间就停止思考了,就强制让模型再想一想,直至达到设定时间;如果模型超过了设定时间还在思考,就强制让模型停止思考。

此处的时间并非实际的时间,而是输出的 token 数量,为了便于理解而加以类比。

50美金复刻DeepSeek R1?解密背后真正的故事

听起来是不是很熟悉?以前考试,老师都嘱咐别提前交卷,有时间多检查几遍,到时间了立马停笔交卷。这都是同样的道理。

四个推断

1,000 条精选数据微调+强制预算,这套组合拳直接让 Qwen2.5-32B 模型跑分超越了 o1-preview。所以,李飞飞团队的发现,还是很有价值的:第一大大降低了训练数据的要求,第二强制预算这个方法也非常容易实现。

50美金复刻DeepSeek R1?解密背后真正的故事

更本质上的阐述是:DeepSeek 的发现侧重于训练时增强模型的推理能力,李飞飞团队的发现侧重于推理时控制模型的思考时间。

由此我大胆推断一下:

  1. 此方法针对更大的普通模型应该也有效,例如 DeepSeek-v3
  2. 更大的推理模型,也可以通过强制预算的方法来提高模型能力,例如 DeepSeek-r1
  3. 专业领域的推理小模型,训练会变得简单,「少量精选数据 + 强制预算」即可
  4. 大模型通过强化学习+推理越来越强,小模型通过蒸馏 + 推理越来越强

一些感想

论文关于「如何精选数据」「为什么没使用并行思考而是串行思考」等等,有着非常详细的讲解,而且都很有意思。但和主体关系不大,我就没在本文详细阐述,推荐有兴趣的话可以查看原论文(https://arxiv.org/pdf/2501.19393)。

如此有价值的论文,在媒体的包装下,给读者留下「哗众取宠」的感受和印象,不得不说是一种遗憾。

而我再经历了「鄙视->怀疑->求证->认可」这四个阶段后,再回头看这个标题:《李飞飞团队训练出媲美 DeepSeek R1 的推理模型,云计算费用不到 50 美元》

信息无可指摘,只是存在巨大的误导。但是,让人误以为「只需要 50 美元就可以复刻出 DeepSeek R1」,又怪不到作者头上。不懂的人觉得厉害,懂的人觉得在乱吹。在这种混乱下,一不小心,读者可能就错过了背后真正有价值的信息。

现在的 AI 早已不再只是科技行业内的话题,随着 DeepSeek 的爆火,AI 已经成为所有人的狂欢。其实,AI一个知识门槛很高、信息差巨大的行业,只有很少部分人才能看明白背后的本质。希望从业者可以更多地科普原理,带领普通人更加理性地看待 AI,而不是为了一时的流量走到真相的反面。

原论文:https://arxiv.org/pdf/2501.19393

如何在 302.AI 快速对比不同模型的表现

50美金复刻DeepSeek R1?解密背后真正的故事

50美金复刻DeepSeek R1?解密背后真正的故事

50美金复刻DeepSeek R1?解密背后真正的故事

Like (3)
302.AI302.AI
Previous 2025 年 2 月 5 日 上午11:15
Next 2025 年 2 月 10 日 下午6:52

相关推荐

  • 资讯丨不会PS也能秒做矢量图,用302 AI 矢量图生成工具卷翻设计圈!

    在设计领域,矢量图以其高清晰度和灵活性成为不可或缺的设计元素。但传统的矢量图制作过程不仅需要专业的设计工具,还需设计师具备一定的技术水平。 相比传统的矢量图制作方式,302.AI推出的 ⌈ AI矢量图生成 ⌋,不仅操作极其简单,生成的矢量图质量还可达到专业级别。 此外,302.AI还提供按需付费无订阅的服务模式,用户可以根据自身业务需求灵活选择使用,具备极高…

    2天前
    2700
  • 中国专利数量远超其他国家,用户如何实现高效的专利搜索?

    7月初,世界知识产权组织(WIPO)发布了一份引人注目的报告。该报告揭示了:中国发明人申请的生成式人工智能专利数量不仅位居全球榜首,而且大幅领先于其他国家。 世界知识产权组织(WIPO)最新发布的《WIPO Patent Landscape Report on Generative AI》显示:在2014年至2023年的这一段将近10年的时间里,中国的生成式…

    2024 年 8 月 1 日
    33300
  • 资讯丨302.AI已支持Anthropic最新模型Claude 3.5 Haiku,与其他模型对比表现如何?

    11月5日,Anthropic在社交媒体平台宣布Claude 3.5 Haiku可以通过API访问。Claude 3.5 Haiku是Anthropic公司在10月22日发布的新模型,在许多评估中的性能与 Claude 3 Opus不相上下,而成本和速度却与上一代Haiku相当。 根据官方介绍,Claude 3.5 Haiku 在各种编码、工具使用和推理任务…

    2024 年 11 月 6 日
    26700
  • 资讯丨FLUX 1.1 Pro推出Ultra模式,来302.AI实测揭秘真实效果

    11月6日,BlackForestLabs宣布推出FLUX1.1 pro的Ultra模式,添加了新的高分辨率功能,还增加了一个RAW参数,这一参数提升了生成图片的拟真度,让生成的图片摆脱了“AI味”,为用户带来了新的视觉体验。 据官网介绍,FLUX 1.1 Pro Ultra支持高达4兆像素(4MP)的图像生成,这是标准模式的四倍。这一提升使得生成的图像更加…

    2024 年 11 月 11 日
    43500
  • AI直接翻译PDF?又一解放生产力的神器来袭!

    近日,一款来自初创公司的识别神器Doc2X备受关注。小编为此也特意去了解了,发现非常有意思的是,为了让用户更直观的看到Doc2X的实力,Doc2X在官网中以文档的形式给大家展示了Doc2X与市场上各竞品的识别能力做对比分析。 竞品主要包括:mathpix、庖丁PDFlux、pix2text、合合信息TextIn、腾讯云大模型知识引擎文档解析。测评范围主要包括…

    2024 年 7 月 17 日
    54500

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注