大白话聊聊Deepseek R1背后的来龙去脉,必读

一切的开端

CloseAI在24年发布了o1,指出了未来Scaling Law的方向:增加思考时间来换取更多智能,而不是用更大的模型或更多的训练数据。CloseAI没告诉任何人具体该怎么做,只是将自己的成果做成了收费产品。

虽然大家都知道了这个宏观方向,但是不知道具体的实现方式,就像只告诉你目的地在东北方向,路线一概不知,所以没有人可以复现o1的成功。之前的仿o1模型,都在尝试各种方法,虽然都叫cot(思维链),但是并没有展现出强大的思考能力,离o1还差了一大截。估计CloseAI打算靠这个独家秘籍作为技术壁垒,发家致富。

大白话聊聊Deepseek R1背后的来龙去脉,必读

大道至简

没想到2025年1月,突然Deepseek发了一个论文,并发布了R1系列模型。他们直接给大家揭开了CloseAI一直藏着掖着的秘密:如何训练出一个真正有思考能力的模型

正所谓大道至简,Deepseek发现,想训练出一个有思考能力的模型,其实没有那么多弯弯绕绕,结论很简单:RL (强化学习) is all you need。通俗点说,就是告诉机器人目标和结果,让机器自己慢慢领悟就好了,不需要干预太多。

Deepseek在论文里很明确的写到:什么过程奖励模型,什么蒙特卡洛搜索树这种和过程相关的算法,都是失败的尝试。他们使用了一个新的目标奖励方法,剩下的就让机器自己去学习。

此时历史就像一个循环,当年AlphaGo能在围棋下出神之一手,正是因为摆脱了人类的棋谱,纯靠强化学习。而现在Deepseek给出了相同的答案,别搞什么RLHF,别搞什么SFT,人类别自以为是了,机器是无法通过模仿来超越人类的。

其实之前其他人也不是没走过这条路,毕竟强化学习都算是“古典AI”了,Deepseek之所以走通,也是因为他们找到了一个合适的算法(GRPO),才能够让机器在有限的资源下,不断的学习和成长。

大白话聊聊Deepseek R1背后的来龙去脉,必读

原型机

Deepseek通过让Deepseek-V3模型纯强化学习(RL),训练了个模型叫Deepseek-R1-Zero,其实这玩意比较像一个原型机,用来验证这个概念是正确的。结果也如图片所示,能力超群,经过8000步的训练后,模型能力提高了几倍,甚至超越了o1-0912。但是这个模型放到生产环境,会有很多问题(比如多语言混杂,输出看不懂等),需要再精加工一下,让这个模型变得更用户友好。

大白话聊聊Deepseek R1背后的来龙去脉,必读

成熟产品

他们就继续搞了个现在大家熟知的Deepseek-R1。R1其实就是在原来的纯强化学习(RL)基础上,加了很多人类的干预(SFT),让输出更加可控,让整个模型更加友好。过程比较复杂,大概就是结合了微调和强化学习,算是传统和创新结合,重新训练了一个生产环境可用的模型:Deepseek-R1。

大白话聊聊Deepseek R1背后的来龙去脉,必读

从大到小

但是这玩意本质还是Deepseek-v3基于训练的,参数很大,普通机器是跑不起来的,他们又继续搞了一些小模型出来,大大降低部署门槛,甚至做到个人电脑可部署。

但是这个小模型也是有些隐秘门道,小模型本质是基于R1的合成数据训练的微调模型,并没有经过强化学习训练,所以说本质上他们不算是真正的“思考模型”。而Deepseek为什么这么做呢,其实他们论文也写了:他们发现小模型经过强化学习效果并不好,远不如经过思考数据微调的。个人猜测是因为小模型本来智力就比较低,学也学不明白,所以别搞什么思考了,不如照葫芦画瓢,照着大模型思考的模式抄一抄,效果也不错,就像那些抄学霸答案的学渣,总比自己乱答强。

大白话聊聊Deepseek R1背后的来龙去脉,必读

三个结论

所以Deepseek这个研究成果,展示了三个结论:

  1. 模型的思考能力的锻炼靠强化学习就可以了,这个阶段人类不要干预(Deepseek-R1-zero)
  2. 模型学会思考后,还是需要人类的参与才能让模型学会如何和人类沟通(Deepseek-R1)
  3. 小模型就别自己思考了,蒸馏的效果更好。思考能力的增强和原来的模型的能力密切相关。(Deepseek-R1-distill)

四个推断

这三个结论,把CloseAI藏着掖着的商业秘密直接揭露了(有可能CloseAI了解得还没Deepseek多,who knows),并且我也得出几个推断:

  1. 更大的基础模型可能不是没有意义,而是需要经过强化学习的后训练,才知道提升有多大。这就是新的Scaling Law。
  2. 小模型可以不用学会思考,越强的思考模型可以蒸馏出越好的小模型,小模型应该很快就会超越现在顶级模型的水平
  3. 在不同领域通过强化学习训练出强大的专业思考模型,再将思考模型蒸馏出轻量的小模型,再本地化部署,可能会是一个不错的生意
  4. 真正的思考模型展示了真正的智能,AI不仅是知识的压缩,而是真的可以学会思考,最终超越人类,AGI又往前迈出了一步。

大白话聊聊Deepseek R1背后的来龙去脉,必读

大白话聊聊Deepseek R1背后的来龙去脉,必读

一些感想

CloseAI可能早就明白了这个道理,但想通过闭源来获得商业的垄断。可是现实并没有如意,因为在大的科技浪潮面前,没有任何成果是不可复制的,如果不是Deepseek发现,我相信迟早都还会有其他的公司发现。但是机会总是留给最强者,Deepseek实至名归。

虽然Deepseek没有开源所有的细节和研究过程,但我相信有了现在的理论基础,业内的人已经开始在这个基础上研发更强大的思考模型了。原来那些参数巨大但表现不佳的模型,可能经过RL的后训练,摇身一变成为强大的思考模型,强大的思考模型又蒸馏出更多强大的小模型,不断的循环。我预测2025年,AI行业大概率会迎来真正的奇异点,而下一次爆发,我相信还是会在中国。

论文链接:https://arxiv.org/pdf/2501.12948

如何在302.AI上使用Deepseek-R1:

大白话聊聊Deepseek R1背后的来龙去脉,必读

大白话聊聊Deepseek R1背后的来龙去脉,必读

大白话聊聊Deepseek R1背后的来龙去脉,必读

大白话聊聊Deepseek R1背后的来龙去脉,必读

大白话聊聊Deepseek R1背后的来龙去脉,必读

Like (1)
302.AI302.AI
Previous 2025 年 1 月 23 日 下午2:12
Next 2025 年 2 月 7 日 下午6:40

相关推荐

  • 中文大模型多模态理解评测,腾讯混元大模型获榜单国内第一

    8月初,中文多模态大模型SuperCLUE-V基准发布8月榜单,其中腾讯混元大模型斩获国内大模型排名第一。 测评涵盖了国内外最具代表性的12个多模态理解大模型,包含4个海外模型和8个国内代表性多模态模型,评估内容包含基础能力和应用能力,以开放式问题对多模态大模型进行评估。其中,腾讯混元大模型Hunyuan-Vision凭借其卓越的多模态基础能力和出色的应用能…

    2024 年 8 月 26 日
    56600
  • AI PPT工具一键搞定PPT,帮你缓解职场”PPT恐惧症”

    在8月底的《脱口秀和Ta的朋友们》节目中,脱口秀演员赵晓卉的淘汰发言再次出圈,表现甚至比她在脱口秀比赛中的表现更为精彩,被观众称为“淘汰感言区的统治王者” ,在短短几分钟的淘汰感言中接连涌现出的金句,令人印象深刻: “上过班的人,都不会想做 PPT” “我对PPT已经 PPTSD 了” “昨天赢不了PPT、今天交不了 PPT” …… …

    2024 年 9 月 24 日
    31900
  • 资讯丨302.AI正式上线客户端!三个版本可供选择

    随着技术的发展,AI正一点一点融入到我们的日常和生活中,成为我们工作和生活的重要辅助工具。为了给用户带来多样的AI服务体验,11月14日,302.AI正式上线桌面客户端,并提供了以下三个版本给用户选择: 主账户版:支持Windows、Mac系统 子账户版:支持Windows、Mac系统 极简版:仅支持Mac系统 版本介绍: 主账号版: (展示的界面以Wind…

    2024 年 11 月 14 日
    97000
  • Claude新功能?小白如何体验交互式写编程?

    Anthropic公司在今年3月发布了新模型Claude 3后,同样在今年的6月21日又再次官宣上新Claude 3.5 Sonnet模型,这中间仅仅隔了三个月左右的时间! 但是就今天的主角并不是Claude 3.5 Sonnet,而是与Claude 3.5 Sonnet一同官宣推出的新功能——Artifacts。 Anthropic PBC,是一家美国的人…

    2024 年 7 月 12 日
    41200
  • 302.AI带来实时语音便捷方案,让你快速体验AI语音通话

    在10月初,OpenAI在旧金山召开了开发者大会。在发布会中,OpenAI推出了Realtime API 的公开测试版。 Realtime API是一种实时多模态API,它允许开发人员构建低延迟、多模态的AI应用体验。这个API背后的技术是GPT-4o模型,它支持音频输入和输出,能够实现超越传统基于文本的AI对话的实时、自然的语音交互。 像Realtime这…

    2024 年 10 月 31 日
    44400

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注