网站首页
手机版

DeepSeekR1技术大公开:纯强化学习炼就推理之王

更新时间:作者:小小条

一篇论文从20页“增肥”到86页,深度求索将DeepSeek-R1的所有技术家底摊开在阳光下,揭示了推理模型背后的秘密配方。

DeepSeekR1技术大公开:纯强化学*炼就推理之王

2026年初,人工智能领域传出一则令人振奋的消息:深度求索公司将其标志性推理模型DeepSeek-R1的论文从原来的20页大幅扩展至86页详实技术报告,几乎是原篇幅的四倍多。

这一更新不仅增加了大量技术细节,更向整个AI社区展示了前所未有的透明度。论文的贡献者名单明确列出了每位研究者的具体工作领域,从数据配方到训练细节,从失败尝试到安全评估,几乎每一个环节都被详细记录。

最引人瞩目的是,DeepSeek-R1的推理能力证明完全可以通过纯强化学*训练获得,无需依赖人类标注的推理过程。

01 论文更新:从技术简报到完整技术手册

原版DeepSeek-R1论文曾于2025年9月登上《自然》杂志封面,成为首个经过主流期刊同行评审的大语言模型。当时的论文已经引起了广泛关注,但更多被视为一次技术突破的宣告。

如今,86页的新版论文则将这次突破变成了一本“开源技术手册”。这份报告中详细列出了所有核心数据的具体配比和创建流程,包括强化学*和监督微调两个关键阶段的数据构成。

在强化学*阶段,数据分布明确为:数学题2.6万道、代码问题1.7万条、STEM问题2.2万条、逻辑问题1.5万条、通用问题6.6万条。而在监督微调阶段,论文披露使用了约80万个样本。

论文还包括了“失败尝试复盘”部分,深入解释了PRM(过程奖励模型)为什么没有成功。在AI研究中,失败经验往往比成功更有价值,但很少有团队愿意公开分享这些宝贵教训。

02 技术核心:纯强化学*的突破

DeepSeek-R1最核心的创新在于它证明了纯强化学*训练复杂推理能力的可行性。传统方法通常需要大量人工标注的推理过程作为监督数据,而DeepSeek-R1则完全绕过了这一限制。

这项突破依赖于团队开发的群组相对策略优化(GRPO)算法。与传统的强化学*方法不同,GRPO不需要独立的价值网络来评估每一步的价值,而是通过组内答案的相互比较来评估优劣。

强化学*的本质是“试错学*”,模型通过“答题正确→奖励、错误→惩罚”的机制自我调整。在DeepSeek-R1的训练中,当模型生成答案后,系统会使用规则判断答案的正确性,并给予相应的奖励或惩罚信号。

令人惊讶的是,在没有人类示范的情况下,DeepSeek-R1-Zero(纯强化学*版本)展现出了类似人类的认知发展模式。模型训练初期就掌握了较为简单的推理任务,而复杂推理能力则随着训练逐步提升。

03 训练细节:效率与成本控制

研究团队首次全面披露了R1模型的训练成本细节。整个训练过程仅花费了约29.4万美元,按2美元/GPU小时计算。成本结构如下表所示:

训练阶段

GPU配置

耗时(小时)

成本估算(万美元)

DeepSeek-R1-Zero

64×8张H800 GPU

198

约6.3

DeepSeek-R1

64×8张H800 GPU

约80

约2.5

SFT数据集构建

-

5000 GPU小时

约1.0

其他训练阶段

-

-

约19.6

总计

-

-

约29.4

这些数字在业界引起了巨大震动,因为其他科技巨头的模型训练成本通常都在数千万美元级别。这意味着DeepSeek以不到竞争对手1%的成本,训练出了性能相当的模型。

04 性能表现:全面超越基准测试

DeepSeek-R1在多个基准测试中表现卓越,甚至在某些领域超越了人类平均水平。最新评估覆盖了数学推理、编码、通用知识与理解、事实型与指令遵循等全方位任务。

在数学推理方面,DeepSeek-R1在MATH-500测试中取得了97.3%的惊人成绩,与行业领先模型性能相当。在美国高中数学竞赛AIME中,DeepSeek-R1的表现甚至超越了人类参赛者的平均水平。

在编程领域,DeepSeek-R1在Codeforces平台上的表现超过了96.3%的人类参赛者。在需要长上下文理解的任务中,如文档分析,DeepSeek-R1也展示出了出色的能力。

05 能力迁移:从小模型到大模型的知识传递

DeepSeek-R1最令人兴奋的技术突破之一是推理能力可以被有效“蒸馏”到更小的模型中。这意味着大模型发现的推理模式可以通过知识迁移,显著提升小模型的性能,而不需要小模型重新经历昂贵的强化学*过程。

研究团队使用了由DeepSeek-R1生成的80万个样本组成的数据集,对其他开源基础模型进行微调,发现从高质量“教师模型”中蒸馏出的模型始终优于直接使用人类生成数据训练出的模型。

这种能力迁移在不同规模的模型上都得到了验证,包括1.5B、7B、8B、14B、32B和70B参数量的模型。这种“跨尺度有效性”意味着推理能力并没有被“锁死”在大模型中,而是可以通过数据迁移到各种规模的模型中。

06 安全考量:多层次风险评估体系

新版论文包含了长达10页的安全评估与风险分析。DeepSeek-R1的安全风险控制体系主要包括两个流程:首先,系统自动将用户提问与预设关键词列表进行匹配,过滤潜在风险对话;其次,被标记为潜在风险的对话会与预设的“风险审查提示词”拼接,发送给模型进行审查。

研究团队构建了一个包含1120道测试题的系统性安全评估集,涵盖4个一级类目和28个细分子类。在多语言安全评估方面,团队构建了包含9330个问题的多语言安全测试集,覆盖50种常用语言。

结果显示,启用风险控制后,DeepSeek-R1在多语言安全测试中的表现接近行业领先水平。不过,在特定安全测试中,DeepSeek-R1的表现仍有提升空间,特别是在涉及“知识产权”的相关问题上。

07 行业影响:透明化推动AI科学发展

DeepSeek-R1的技术透明化举措在AI领域引发了深远影响。有评论认为,DeepSeek-R1的开放模式有助于建立公众信任,推动AI行业从“技术竞赛”走向“科学纪律”。

业界专家指出,DeepSeek-R1已对人工智能学界产生“相当显著的影响”,几乎所有相关研究都“或多或少受到R1启发”。开源社区正在积极尝试运用R1的开发方法,既增强现有LLM的推理能力,又将其应用领域拓展至数学和编程之外的更多领域。

这次论文更新也回应了业界对DeepSeek可能使用了其他公司模型输出数据进行训练的质疑。论文明确表示训练数据全部来自公开互联网,无刻意使用其他公司输出,并实施了全流程数据去污染。

版权声明:本文转载于今日头条,版权归作者所有,如果侵权,请联系本站编辑删除

为您推荐

终身致力于数学教育的美国数学家说,与现实脱节的数学课,对99%的学生都没有用

看点 一直以来,数学都被认为是内容很难的课程,但在美国数学及其应用联合会(COMAP)创始人、首席执行官Solomon Garfunkel看来,这是因为我们误解了数学和数学教育。就数学教育而

2026-01-18 10:45

AMC世界上信度最高的数学测试,你敢挑战吗?附测试题及答案

AMC的含意是什么AMC是American Mathematical Competition的简称1950 年美国数学协会Mathematics Association of America (简称MAA),开始举办美国高中数学考试(AHSME)。在1985

2026-01-18 10:44

国际高中的数学教些什么?你准备好了吗?

都说国际学校学生轻松,快乐得学习,事实上,国际学校的学生并不轻松。通常来讲,都说国内体制的理科会比较难,同年级的数学课的内容,国内教授的内容比国外难。这个说法可能比较适用于

2026-01-18 10:44

一位华裔数学家40年目睹之怪现状:美国学生的数学为什么那么差?

图源:Pixabay 撰文 | 丁玖 ● ● ● 最近在《知识分子》上读到一篇特写《数学战争警示录:我们需要什么样的数学教育?》,颇有感触。在这俄乌战争已持续三年有余、中东冲突也不

2026-01-18 10:43

初中物理新教材变化内容盘点(2024人教版)

量程替换成测量范围。初中物理新教材目录(2024人教版八上)绪言 科学探索之旅第一章 机械运动第1节 长度和时间的测量第2节 运动的描述第3节 运动的快慢第4节 速度的测量第二章

2026-01-18 10:43

选择中本贯通,上海中产家庭开始了一场教育实验

看点 “中考分流”向来是家长们热议的话题。不过,当不少家长还在焦虑分流时,上海一些中产家庭正在探寻新的可能。特别是近年来越来越火的“中本贯通”,俨然成了他们除了高考升

2026-01-18 10:42