302.AI 深度拆解 | 大白话聊一聊：Deepseek R1背后的来龙去脉! 2025年AI圈必读

302.AI • 2025 年 2 月 5 日上午11:15 • 深度拆解 • 1269 views

文 | Jomy @302.AI

编 | 南乔River @ShowMeAI

I. 一切的开端

CloseAI在24年发布了o1，指出了未来Scaling Law的方向：增加思考时间来换取更多智能，而不是用更大的模型或更多的训练数据。CloseAI没告诉任何人具体该怎么做，只是将自己的成果做成了收费产品。

虽然大家都知道了这个宏观方向，但是不知道具体的实现方式，就像只告诉你目的地在东北方向，路线一概不知，所以没有人可以复现o1的成功。之前的仿o1模型，都在尝试各种方法，虽然都叫cot（思维链），但是并没有展现出强大的思考能力，离o1还差了一大截。估计CloseAI打算靠这个独家秘籍作为技术壁垒，发家致富。

II. 大道至简

没想到2025年1月，突然Deepseek发了一个论文，并发布了R1系列模型。他们直接给大家揭开了CloseAI一直藏着掖着的秘密：如何训练出一个真正有思考能力的模型。

正所谓大道至简，Deepseek发现，想训练出一个有思考能力的模型，其实没有那么多弯弯绕绕，结论很简单：RL (强化学习) is all you need。通俗点说，就是告诉机器人目标和结果，让机器自己慢慢领悟就好了，不需要干预太多。

Deepseek在论文里很明确的写到：什么过程奖励模型，什么蒙特卡洛搜索树这种和过程相关的算法，都是失败的尝试。他们使用了一个新的目标奖励方法，剩下的就让机器自己去学习。

此时历史就像一个循环，当年AlphaGo能在围棋下出神之一手，正是因为摆脱了人类的棋谱，纯靠强化学习。而现在Deepseek给出了相同的答案，别搞什么RLHF，别搞什么SFT，人类别自以为是了，机器是无法通过模仿来超越人类的。

其实之前其他人也不是没走过这条路，毕竟强化学习都算是“古典AI”了，Deepseek之所以走通，也是因为他们找到了一个合适的算法（GRPO），才能够让机器在有限的资源下，不断的学习和成长。

(摘选自原论文的GRPO算法公式)

III. 原型机

Deepseek通过让Deepseek-V3模型纯强化学习（RL），训练了个模型叫Deepseek-R1-Zero，其实这玩意比较像一个原型机，用来验证这个概念是正确的。结果也如图片所示，能力超群，经过8000步的训练后，模型能力提高了几倍，甚至超越了o1-0912。但是这个模型放到生产环境，会有很多问题（比如多语言混杂，输出看不懂等），需要再精加工一下，让这个模型变得更用户友好。

（模型能力随着RL训练次数的增加，线性上升）

IV. 成熟产品

他们就继续搞了个现在大家熟知的Deepseek-R1。R1其实就是在原来的纯强化学习（RL）基础上，加了很多人类的干预(SFT)，让输出更加可控，让整个模型更加友好。过程比较复杂，大概就是结合了微调和强化学习，算是传统和创新结合，重新训练了一个生产环境可用的模型：Deepseek-R1。

（R1的训练步骤图解）

V. 从大到小

但是这玩意本质还是Deepseek-v3基于训练的，参数很大，普通机器是跑不起来的，他们又继续搞了一些小模型出来，大大降低部署门槛，甚至做到个人电脑可部署。

但是这个小模型也是有些隐秘门道，小模型本质是基于R1的合成数据训练的微调模型，并没有经过强化学习训练，所以说本质上他们不算是真正的“思考模型”。而Deepseek为什么这么做呢，其实他们论文也写了：他们发现小模型经过强化学习效果并不好，远不如经过思考数据微调的。个人猜测是因为小模型本来智力就比较低，学也学不明白，所以别搞什么思考了，不如照葫芦画瓢，照着大模型思考的模式抄一抄，效果也不错，就像那些抄学霸答案的学渣，总比自己乱答强。

（Deepseek-R1-Zero-Qwen-32B是经过RL训练的小模型，远不如蒸馏模型）

VI. 三个结论

所以Deepseek这个研究成果，展示了三个结论：

1.模型的思考能力的锻炼靠强化学习就可以了，这个阶段人类不要干预（Deepseek-R1-zero）

2.模型学会思考后，还是需要人类的参与才能让模型学会如何和人类沟通（Deepseek-R1）

3.小模型就别自己思考了，蒸馏的效果更好。思考能力的增强和原来的模型的能力密切相关。（Deepseek-R1-distill）

VII. 四个推断

这三个结论，把CloseAI藏着掖着的商业秘密直接揭露了（有可能CloseAI了解得还没Deepseek多，who knows），并且我也得出几个推断：

1.更大的基础模型可能不是没有意义，而是需要经过强化学习的后训练，才知道提升有多大。这就是新的Scaling Law。

2.小模型可以不用学会思考，越强的思考模型可以蒸馏出越好的小模型，小模型应该很快就会超越现在顶级模型的水平

3.在不同领域通过强化学习训练出强大的专业思考模型，再将思考模型蒸馏出轻量的小模型，再本地化部署，可能会是一个不错的生意

4.真正的思考模型展示了真正的智能，AI不仅是知识的压缩，而是真的可以学会思考，最终超越人类，AGI又往前迈出了一步。

VIII. 一些感想

CloseAI可能早就明白了这个道理，但想通过闭源来获得商业的垄断。可是现实并没有如意，因为在大的科技浪潮面前，没有任何成果是不可复制的，如果不是Deepseek发现，我相信迟早都还会有其他的公司发现。但是机会总是留给最强者，Deepseek实至名归。

虽然Deepseek没有开源所有的细节和研究过程，但我相信有了现在的理论基础，业内的人已经开始在这个基础上研发更强大的思考模型了。原来那些参数巨大但表现不佳的模型，可能经过RL的后训练，摇身一变成为强大的思考模型，强大的思考模型又蒸馏出更多强大的小模型，不断的循环。我预测2025年，AI行业大概率会迎来真正的奇异点，而下一次爆发，我相信还是会在中国。

论文链接：https://arxiv.org/pdf/2501.12948

如何在302.AI上使用Deepseek-R1：
302.AI提供按需付费的服务方式，企业和个人用户可按需灵活选用。
1、使用模型对话
（1）可使用官方Deepseek-R1模型：
依次点击：使用机器人→聊天机器人→ 模型→国产模型→Deepseek-Reasoner→ 确定→ 创建聊天机器人；
（2）使用火山引擎部署的Deepseek-R1模型：
依次点击：使用机器人→聊天机器人→ 模型→国产模型→Deepseek-R1-Huoshan→ 确定→ 创建聊天机器人；
（3）也可使用硅基流动部署的Deepseek-R1模型：
依次点击：使用机器人→聊天机器人→ 模型→硅基流动→deepseek-ai/DeepSeek-R1→ 确定→ 创建聊天机器人；
2、使用模型API
企业用户可以通过302.AI的API超市快速、便捷地调用模型，还能够根据特定项目需求进行定制化开发。
（1）Deepseek-R1模型官方API名称：deepseek-reasoner
（2）Deepseek-R1模型火山引擎部署API名称：deepseek-r1-huoshan
（3）Deepseek-R1模型硅基流动部署API名称：deepseek-ai/DeepSeek-R1
（4）Deepseek-R1模型百度部署API名称：deepseek-r1-baidu
相关文档：使用API→API超市→语言大模型→ 国产模型；
相关文档：使用API→API超市→语言大模型→ 硅基流动；

Deepseek LLM Openai302.AI 深度拆解 | 大白话聊一聊

Like (1)

302.AI

302.AI 基准实验室 | DeepSeek-R1 vs. Gemini-Thinking vs. OpenAI-o1, 最新推理模型PK

Previous 2025 年 1 月 23 日下午2:12

302.AI 深度拆解 | 大白话聊一聊: 50美金复刻DeepSeek R1? 解密背后真正的事实

Next 2025 年 2 月 7 日下午6:40

价格直降 66%，性能仍是天花板？Claude Opus 4.5 这一波“降价打击”让谁慌了？丨302.AI 基准实验室

11月25日，当大模型竞赛的聚光灯还在 GPT-5.1 与 Gemini 3 Pro 之间流转时，Anthropic 携其王炸产品 Claude Opus 4.5 强势回归，并宣称这是目前全球范围内在编程、agents 和计算机使用方面最强大的模型，编程能力超越人类专家。 Claude 系列最引人瞩目的王牌，始终是它在编程领域的统治级表现。在权威的真实世界软…
4小时前 • 基准实验室
4500
卷完参数卷“人格”？Grok 4.1 实测：情商满点，编程大幅提升丨302.AI 基准实验室

上周当整个 AI 圈的目光聚焦在 Google、OpenAI 两巨头的版本迭代时，xAI 再次以它标志性的突袭方式于 11 月 18 日凌晨向所有用户免费开放了 Grok 4.1 系列模型。这代表着在短短四个月内，Grok 4 系列完成了一次关键升级，并且这一升级，向外界清晰地传递出 xAI 独特的竞争策略：大模型的下一个前沿，或许不再是冰冷的算力与参数，而…
2天前 • 基准实验室
24600
Doubao-Seed-Code 实测：卷价格、卷跑分，却卷不动真实代码？丨302.AI 基准实验室

今年下半年的 AI 编程赛道可谓群雄逐鹿、竞争激烈。前有 Kimi-K2-0905 强势跻身第一梯队，后有智谱 GLM-4.5 向守擂者 Claude Sonnet 4.5 发起挑战，MiniMax 也推出最新力作MiniMax-M2，实力登顶开源榜首。不难发现，这些如投石入湖般接连涌现的模型，在发布时无一例外地强调自身在编程能力上的显著提升。这一趋势清晰…
2025 年 11 月 17 日 • 基准实验室
1.1K02
Kimi K2 Thinking 实测：复杂推理已堪大用，深度编程尚待提升丨302.AI 基准实验室

2025年的夏天，当大模型竞赛的主线已从单纯的参数规模转向更深邃的“智能体能力”（Agentic Intelligence）时，一个名字如惊雷般引爆了整个开源社区——Kimi K2。这款由月之暗面（Moonshot AI）公司于2025年7月11日发布的突破性开源大语言模型，不仅是业界第一个宣称达到万亿参数的大模型，总参数量高达惊人的1.04万亿，更重要的是…
2025 年 11 月 7 日 • 基准实验室
4.2K11

发表回复

Comments(12)

50美金复刻DeepSeek R1?解密背后真正的故事_302.AI文章资讯 2025 年 2 月 7 日下午6:40
[…] 我在上一篇文章里写道，CloseAI 在 2024 年指明了未来的发展方向：增加思考时间以换取更多智能。但它没透露任何实现细节，由此，整个大模型行业开始苦苦寻找 o1 背后的奥秘。 […]
回复
droversointeru 2025 年 6 月 9 日上午5:54
I am happy that I noticed this web site, just the right information that I was looking for! .
回复
Lori Fishback 2025 年 6 月 16 日下午5:01
Hello! I just would like to give a huge thumbs up for the great info you have here on this post. I will be coming back to your blog for more soon.
回复
Addie Quartiero 2025 年 6 月 29 日下午8:53
It’s actually a nice and useful piece of information. I am glad that you shared this useful info with us. Please keep us up to date like this. Thanks for sharing.
回复
Booker Werline 2025 年 7 月 2 日下午7:28
Thank you for the auspicious writeup. It in reality used to be a enjoyment account it. Glance complex to far delivered agreeable from you! However, how could we keep up a correspondence?
回复
toto macau 2025 年 8 月 17 日上午8:50
It¦s actually a great and helpful piece of info. I¦m happy that you shared this helpful info with us. Please keep us informed like this. Thank you for sharing.
回复
live macau 2025 年 8 月 17 日下午7:17
Good write-up, I¦m normal visitor of one¦s site, maintain up the excellent operate, and It is going to be a regular visitor for a long time.
回复
toto macau 2025 年 8 月 18 日上午11:05
I really lucky to find this site on bing, just what I was searching for : D also bookmarked.
回复
situs toto 2025 年 8 月 21 日下午3:01
I would like to thank you for the efforts you have put in writing this site. I’m hoping the same high-grade site post from you in the upcoming also. Actually your creative writing skills has inspired me to get my own site now. Actually the blogging is spreading its wings fast. Your write up is a good example of it.
回复
canon soporte tecnico 2025 年 8 月 24 日上午2:38
But a smiling visitant here to share the love (:, btw great style.
回复
ayuda PFC arquitectura 2025 年 8 月 24 日下午3:58
I like this site very much, Its a rattling nice position to read and receive info .
回复
ropa de boxeo 2025 年 8 月 26 日上午12:37
Hiya! I just want to give a huge thumbs up for the great info you’ve got here on this post. I shall be coming back to your blog for extra soon.
回复