302.AI 深度拆解 | 大白话聊一聊:Deepseek R1背后的来龙去脉! 2025年AI圈必读

302.AI 深度拆解 | 大白话聊一聊:Deepseek R1背后的来龙去脉! 2025年AI圈必读

文 | Jomy @302.AI

编 | 南乔River @ShowMeAI

I. 一切的开端

CloseAI在24年发布了o1,指出了未来Scaling Law的方向:增加思考时间来换取更多智能,而不是用更大的模型或更多的训练数据。CloseAI没告诉任何人具体该怎么做,只是将自己的成果做成了收费产品。

虽然大家都知道了这个宏观方向,但是不知道具体的实现方式,就像只告诉你目的地在东北方向,路线一概不知,所以没有人可以复现o1的成功。之前的仿o1模型,都在尝试各种方法,虽然都叫cot(思维链),但是并没有展现出强大的思考能力,离o1还差了一大截。估计CloseAI打算靠这个独家秘籍作为技术壁垒,发家致富。

302.AI 深度拆解 | 大白话聊一聊:Deepseek R1背后的来龙去脉! 2025年AI圈必读

II. 大道至简

没想到2025年1月,突然Deepseek发了一个论文,并发布了R1系列模型。他们直接给大家揭开了CloseAI一直藏着掖着的秘密:如何训练出一个真正有思考能力的模型

正所谓大道至简,Deepseek发现,想训练出一个有思考能力的模型,其实没有那么多弯弯绕绕,结论很简单:RL (强化学习) is all you need。通俗点说,就是告诉机器人目标和结果,让机器自己慢慢领悟就好了,不需要干预太多。

Deepseek在论文里很明确的写到:什么过程奖励模型,什么蒙特卡洛搜索树这种和过程相关的算法,都是失败的尝试。他们使用了一个新的目标奖励方法,剩下的就让机器自己去学习。

此时历史就像一个循环,当年AlphaGo能在围棋下出神之一手,正是因为摆脱了人类的棋谱,纯靠强化学习。而现在Deepseek给出了相同的答案,别搞什么RLHF,别搞什么SFT,人类别自以为是了,机器是无法通过模仿来超越人类的。

其实之前其他人也不是没走过这条路,毕竟强化学习都算是“古典AI”了,Deepseek之所以走通,也是因为他们找到了一个合适的算法(GRPO),才能够让机器在有限的资源下,不断的学习和成长。

302.AI 深度拆解 | 大白话聊一聊:Deepseek R1背后的来龙去脉! 2025年AI圈必读

III. 原型机

Deepseek通过让Deepseek-V3模型纯强化学习(RL),训练了个模型叫Deepseek-R1-Zero,其实这玩意比较像一个原型机,用来验证这个概念是正确的。结果也如图片所示,能力超群,经过8000步的训练后,模型能力提高了几倍,甚至超越了o1-0912。但是这个模型放到生产环境,会有很多问题(比如多语言混杂,输出看不懂等),需要再精加工一下,让这个模型变得更用户友好。

302.AI 深度拆解 | 大白话聊一聊:Deepseek R1背后的来龙去脉! 2025年AI圈必读

IV. 成熟产品

他们就继续搞了个现在大家熟知的Deepseek-R1。R1其实就是在原来的纯强化学习(RL)基础上,加了很多人类的干预(SFT),让输出更加可控,让整个模型更加友好。过程比较复杂,大概就是结合了微调和强化学习,算是传统和创新结合,重新训练了一个生产环境可用的模型:Deepseek-R1。

302.AI 深度拆解 | 大白话聊一聊:Deepseek R1背后的来龙去脉! 2025年AI圈必读

V. 从大到小

但是这玩意本质还是Deepseek-v3基于训练的,参数很大,普通机器是跑不起来的,他们又继续搞了一些小模型出来,大大降低部署门槛,甚至做到个人电脑可部署。

但是这个小模型也是有些隐秘门道,小模型本质是基于R1的合成数据训练的微调模型,并没有经过强化学习训练,所以说本质上他们不算是真正的“思考模型”。而Deepseek为什么这么做呢,其实他们论文也写了:他们发现小模型经过强化学习效果并不好,远不如经过思考数据微调的。个人猜测是因为小模型本来智力就比较低,学也学不明白,所以别搞什么思考了,不如照葫芦画瓢,照着大模型思考的模式抄一抄,效果也不错,就像那些抄学霸答案的学渣,总比自己乱答强。

302.AI 深度拆解 | 大白话聊一聊:Deepseek R1背后的来龙去脉! 2025年AI圈必读

VI. 三个结论

所以Deepseek这个研究成果,展示了三个结论:

1.模型的思考能力的锻炼靠强化学习就可以了,这个阶段人类不要干预(Deepseek-R1-zero)

2.模型学会思考后,还是需要人类的参与才能让模型学会如何和人类沟通(Deepseek-R1)

3.小模型就别自己思考了,蒸馏的效果更好。思考能力的增强和原来的模型的能力密切相关。(Deepseek-R1-distill)

VII. 四个推断302.AI 深度拆解 | 大白话聊一聊:Deepseek R1背后的来龙去脉! 2025年AI圈必读

这三个结论,把CloseAI藏着掖着的商业秘密直接揭露了(有可能CloseAI了解得还没Deepseek多,who knows),并且我也得出几个推断:

1.更大的基础模型可能不是没有意义,而是需要经过强化学习的后训练,才知道提升有多大。这就是新的Scaling Law。

2.小模型可以不用学会思考,越强的思考模型可以蒸馏出越好的小模型,小模型应该很快就会超越现在顶级模型的水平

3.在不同领域通过强化学习训练出强大的专业思考模型,再将思考模型蒸馏出轻量的小模型,再本地化部署,可能会是一个不错的生意

4.真正的思考模型展示了真正的智能,AI不仅是知识的压缩,而是真的可以学会思考,最终超越人类,AGI又往前迈出了一步。

302.AI 深度拆解 | 大白话聊一聊:Deepseek R1背后的来龙去脉! 2025年AI圈必读

VIII. 一些感想

CloseAI可能早就明白了这个道理,但想通过闭源来获得商业的垄断。可是现实并没有如意,因为在大的科技浪潮面前,没有任何成果是不可复制的,如果不是Deepseek发现,我相信迟早都还会有其他的公司发现。但是机会总是留给最强者,Deepseek实至名归。

虽然Deepseek没有开源所有的细节和研究过程,但我相信有了现在的理论基础,业内的人已经开始在这个基础上研发更强大的思考模型了。原来那些参数巨大但表现不佳的模型,可能经过RL的后训练,摇身一变成为强大的思考模型,强大的思考模型又蒸馏出更多强大的小模型,不断的循环。我预测2025年,AI行业大概率会迎来真正的奇异点,而下一次爆发,我相信还是会在中国。

论文链接:https://arxiv.org/pdf/2501.12948

如何在302.AI上使用Deepseek-R1:

302.AI 深度拆解 | 大白话聊一聊:Deepseek R1背后的来龙去脉! 2025年AI圈必读

302.AI 深度拆解 | 大白话聊一聊:Deepseek R1背后的来龙去脉! 2025年AI圈必读

302.AI 深度拆解 | 大白话聊一聊:Deepseek R1背后的来龙去脉! 2025年AI圈必读

302.AI 深度拆解 | 大白话聊一聊:Deepseek R1背后的来龙去脉! 2025年AI圈必读

302.AI 深度拆解 | 大白话聊一聊:Deepseek R1背后的来龙去脉! 2025年AI圈必读

302.AI 深度拆解 | 大白话聊一聊:Deepseek R1背后的来龙去脉! 2025年AI圈必读

All Rights Reserved by 302.AI
Like (1)
302.AI302.AI
Previous 2025 年 1 月 23 日 下午2:12
Next 2025 年 2 月 7 日 下午6:40

相关推荐

  • 302.AI 基准实验室丨编程能力超越Claude Opus 4?DeepSeek V3.1最新版本实测

    DeepSeek 昨晚在 Hugging Face 发布了其最新升级模型 DeepSeek-V3.1-Base。这次更新并没有任何预热宣传,甚至没有放上模型卡。唯一已知的信息是:上下文窗口从原有的64k扩展至128k,从网页、App、小程序都可体验这一模型。从上传的模型版本看,模型尺寸达 685B,支持 BF16、F8_E4M3、F32 等张量类型,平衡模型…

    2025 年 8 月 20 日 基准实验室
    8290
  • 302.AI 赛博月刊丨Vol.8 攻守易形:当开源变成中国主场

    AI 行业大事记 2025 年 8 月 联合出品: Jomy @ 302.AI 南乔 @ ShowMeAI 大聪明 @ 赛博禅心 说明: ①本文讨论了 2025 年7月 AI行业的 103 件大事,涵盖模型、图像、视频、音频、3D、机器人、应用、新闻/融资等多个领域。 ② 本文分类中的「模型」均指代语言模型; ③ 本文分类中的「融资」包含了融资、收购、团队成…

    2025 年 8 月 18 日 赛博月刊
    3450
  • 302.AI 基准实验室丨从视觉语言到GUI交互:智谱GLM-4.5V挑战顶级闭源模型实测

    视觉语言大模型(VLM)作为智能系统的核心基础,正在不断从基础的“识别”向更深层的“推理”跃迁。今年上半年,多模态大模型在视觉领域呈现百花齐放之势,各厂商竞相布局。然而,视觉能力的下一站是“推理”——不满足于让模型读图后回答“这是什么”,更需其调用推理能力理解背后的意图与情境。这种对视觉逻辑和上下文的理解能力,既是实现通用人工智能(AGI)的关键一步,也是构…

    2025 年 8 月 15 日 基准实验室
    4441
  • 302.AI 基准实验室丨GPT-5评测:没能炸场,却精准打脸了竞品:便宜、能打,还不装

    尘埃落定,当地时间 8 月 7 日,OpenAI 终于发布了最新的旗舰 AI 模型 GPT-5。OpenAI 宣称,GPT-5 是其迄今为止最智能、最快、最实用的模型,在编码、数学、写作、健康、视觉感知等领域均展现出卓越的性能。首席执行官 Sam Altman 将 GPT-5 形容为一次“重大升级”,称与其对话“就像在与某个领域的博士级专家交流”。 GPT-…

    2025 年 8 月 8 日 基准实验室
    1.1K1

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Comments(12)

  • […] 我在上一篇文章里写道,CloseAI 在 2024 年指明了未来的发展方向:增加思考时间以换取更多智能。但它没透露任何实现细节,由此,整个大模型行业开始苦苦寻找 o1 背后的奥秘。 […]

  • droversointeru
    droversointeru 2025 年 6 月 9 日 上午5:54

    I am happy that I noticed this web site, just the right information that I was looking for! .

  • Lori Fishback
    Lori Fishback 2025 年 6 月 16 日 下午5:01

    Hello! I just would like to give a huge thumbs up for the great info you have here on this post. I will be coming back to your blog for more soon.

  • Addie Quartiero
    Addie Quartiero 2025 年 6 月 29 日 下午8:53

    It’s actually a nice and useful piece of information. I am glad that you shared this useful info with us. Please keep us up to date like this. Thanks for sharing.

  • Booker Werline
    Booker Werline 2025 年 7 月 2 日 下午7:28

    Thank you for the auspicious writeup. It in reality used to be a enjoyment account it. Glance complex to far delivered agreeable from you! However, how could we keep up a correspondence?

  • toto macau
    toto macau 2025 年 8 月 17 日 上午8:50

    It¦s actually a great and helpful piece of info. I¦m happy that you shared this helpful info with us. Please keep us informed like this. Thank you for sharing.

  • live macau
    live macau 2025 年 8 月 17 日 下午7:17

    Good write-up, I¦m normal visitor of one¦s site, maintain up the excellent operate, and It is going to be a regular visitor for a long time.

  • toto macau
    toto macau 2025 年 8 月 18 日 上午11:05

    I really lucky to find this site on bing, just what I was searching for : D also bookmarked.

  • situs toto
    situs toto 2025 年 8 月 21 日 下午3:01

    I would like to thank you for the efforts you have put in writing this site. I’m hoping the same high-grade site post from you in the upcoming also. Actually your creative writing skills has inspired me to get my own site now. Actually the blogging is spreading its wings fast. Your write up is a good example of it.

  • canon soporte tecnico
    canon soporte tecnico 2025 年 8 月 24 日 上午2:38

    But a smiling visitant here to share the love (:, btw great style.

  • ayuda PFC arquitectura
    ayuda PFC arquitectura 2025 年 8 月 24 日 下午3:58

    I like this site very much, Its a rattling nice position to read and receive info .

  • ropa de boxeo
    ropa de boxeo 2025 年 8 月 26 日 上午12:37

    Hiya! I just want to give a huge thumbs up for the great info you’ve got here on this post. I shall be coming back to your blog for extra soon.