DeepSeek-R1系列01——技术报告解读:DeepSeek-R1:通过强化学习激励 LLM 中的推理能力

发布于:2025-02-11 ⋅ 阅读:(13) ⋅ 点赞:(0)

1.阅读目标

DeepSeek-R1 发布,性能对标 OpenAI o1 正式版

DeepSeek-R1已经发布,并同步开源模型权重。

  • DeepSeek-R1 遵循 MIT License,允许用户通过蒸馏技术借助 R1 训练其他模型。

  • DeepSeek-R1 上线API对用户开放思维链输出,通过设置 `model='deepseek-reasoner'` 即可调用。

DeepSeek-R1 训练技术全部公开,以期促进技术社区的充分交流与创新协作。

开源 DeepSeek-R1-ZeroDeepSeek-R1 两个 660B 模型的同时,通过 DeepSeek-R1 的输出,蒸馏了 6 个小模型开源给社区,其中 32B 和 70B 模型在多项能力上实现了对标 OpenAI o1-mini 的效果。

目标1:仔细使用体验一下。尤其是可蒸馏提取问答的思维链,用于自己领域的推理能力增强。

目标2:搞清楚什么是蒸馏技术。

目标3:看看技术报告怎么写。

目标4:想清楚什么是让deepseek的能力提升至openai o1水准的关键技术、

技术报告链接:DeepSeek-R1/DeepSeek_R1.pdf at main · deepseek-ai/DeepSeek-R1 · GitHub

2.关键预览

论文《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》围绕提升大语言模型推理能力展开研究,涵盖多方面关键内容。

  1. 问题:大语言模型(LLMs)虽发展迅速,但在推理能力提升方面面临挑战。尽管 OpenAI 的 o1 系列模型通过增加思维链推理长度取得一定进展,但有效测试时缩放仍有待解决,现有方法未能达到 o1 系列模型的通用推理性能。
  2. 挑战:一是在提升推理能力时,有效测试时缩放难以实现;二是像过程奖励模型(PRM)存在定义推理步骤困难、判断中间步骤正确性难以及易出现奖励黑客攻击等问题;三是蒙特卡洛树搜索(MCTS)在训练中面临搜索空间大、易陷入局部最优以及训练价值模型困难等挑战。
  3. 创新点:首次直接在基础模型上应用大规模强化学习(RL),不依赖监督微调(SFT)开发出 DeepSeek-R1-Zero,探索模型自我进化发展推理能力;提出 DeepSeek-R1 训练流程,结合冷启动数据和多阶段训练提升性能;发现大模型推理模式可蒸馏到小模型,提升小模型推理能力。
  4. 贡献:开创基于大规模 RL 训练基础模型的后训练方法,开发出 DeepSeek-R1-Zero 和 DeepSeek-R1;开源 DeepSeek-R1-Zero、DeepSeek-R1 及 6 个蒸馏小模型和 API,推动研究发展;用 DeepSeek-R1 数据微调小模型,使其在基准测试中表现优异。
  5. 提出的方法:DeepSeek-R1-Zero 采用 GRPO 算法进行强化学习,基于规则构建奖励模型(准确性奖励和格式奖励),设计特定训练模板;DeepSeek-R1 通过收集冷启动数据微调模型,进行推理导向的 RL 训练,利用拒绝采样和监督微调收集多种数据再次微调,最后进行全场景强化学习;采用蒸馏方法,用 DeepSeek-R1 生成的数据微调 Qwen 和 Llama 等开源小模型。
  6. 指标:使用 Pass@1、准确率(Accuracy)、共识(consensus,如 cons@64)、F1 值、Elo 评分、解决率(Resolved)、胜率(win-rate)等指标,在 MMLU、AIME 2024、Codeforces 等多种基准测试任务上评估模型性能。
  7. 模型结构:未详细阐述模型具体结构,以 DeepSeek-V3-Base 为基础模型进行后续开发,采用 GRPO 算法优化策略模型,在训练过程中不断调整模型参数以提升推理能力。
  8. 结论:通过强化学习成功提升模型推理能力,DeepSeek-R1-Zero 纯 RL 训练表现出色,DeepSeek-R1 引入冷启动数据和多阶段训练性能更优,与 OpenAI-o1-1217 相当,蒸馏小模型也取得良好效果。
  9. 剩余挑战和未来工作:DeepSeek-R1 在功能调用、多轮对话等任务能力不如 DeepSeek-V3;存在语言混合问题,处理非中英语言查询时可能出现推理和回答语言混乱;对提示敏感,少样本提示会降低性能;在软件工程任务上改进不足。未来计划利用长思维链提升相关任务能力,解决语言混合问题,优化提示工程,通过拒绝采样或异步评估提高软件工程任务效率。
  10. 数据集:使用 MMLU、MMLU-Redux、MMLU-Pro、C-Eval 等多种公开基准测试数据集评估模型,还在 AlpacaEval 2.0 和 Arena-Hard 等开放式生成任务中以 GPT-4-Turbo-1106 为评判进行评估,在蒸馏模型评估中使用 AIME 2024、MATH-500 等特定数据集。

3.中文翻译全文及阅读标记(共16页)

Abstract

我们介绍了我们的第一代推理模型 DeepSeek-R1-Zero 和 DeepSeek-R1。DeepSeek-R1-Zero 是一种通过大规模强化学习 (RL) 训练的模型,没有监督微调 (SFT) 作为初步步骤,展示了卓越的推理能力。通过强化学习,DeepSeek-R1-Zero 自然而然地出现了许多强大而有趣的推理行为。但是,它遇到了可读性差和语言混合等挑战。为了解决这些问题并进一步提高推理性能,我们引入了 DeepSeek-R1,它在 RL 之前结合了多阶段训练冷启动数据。DeepSeekR1 在推理任务上实现了与 OpenAI-o1-1217 相当的性能。为了支持研究社区,我们开源了 DeepSeek-R1-Zero、DeepSeek-R1 以及基于 Qwen 和 Llama 从 DeepSeek-R1 中提炼出来的六个密集模型(1.5B、7B、8B、14B、32B、70B)。

目录

1 引言 

       1.1 贡献

        1.2 评估结果总结

2 方法

         2.1 概述

        2.2 DeepSeek-R1-Zero:基础模型上的增强

                2.2.1 增强学习算法

                2.2.2 奖励建模

                2.2.3 训练模板 

                2.2.4 DeepSeek-R1-Zero6 的性能、自我进化过程和顿悟

        2.3DeepSeek-R1: 使用冷启动进行增强训练

                2.3.1 冷启动

                2.3.2 面向推理的 Reinforeement Leamning

                2.3.3 剔除采样和监督微调

                2.3.4 加固 Learing foral eario

        2.4Distillaion: 赋予小模型推理能力

3 实验

        3.1 DepSek-RIEvalatio

        3.2 蒸馏模型评估 

4 讨论

        4.1 蒸馏vs强化学习

        4.2 不成功的尝试

5 结论、局限性和未来工作

A 贡献和鸣谢

1.引言

近年来,大型语言模型 (LLM) 一直在经历快速迭代和演变(Anthropic,2024 年;谷歌,2024 年;OpenAI,2024a),逐步缩小与通用人工智能 (AGI) 的差距。

最近,后训练已成为完整训练管道的重要组成部分。它已被证明可以提高推理任务的准确性,与社会价值观保持一致,并适应用户偏好,同时对预训练所需的计算资源相对较少。在推理能力方面,OpenAI 的 o1 (OpenAI, 2024b) 系列模型率先通过增加 Chain-ofThought 推理过程的长度来引入推理时间缩放inference-time scaling 这种方法在各种推理任务(例如数学、编码和科学推理)中取得了显着改进。

OpenAI 的 o1 系列模型通过延长思维链推理过程引入推理时缩放机制的具体表现如下:

  1. 突破传统推理方式:以往的大语言模型(LLMs)在处理复杂推理任务时,多采用简单直接的推理方式,如基于预训练时学到的固定模式来生成答案 。而 o1 系列模型开创性地引入了推理时缩放,借助延长思维链推理过程,让模型在面对问题时不再局限于快速给出单一答案,而是能够 “思考” 如何解决问题,逐步推导,类似人类解决复杂问题时的思维过程。以数学问题为例,o1 系列模型不再像传统模型那样直接给出结果,而是详细地展示每一步的推理和计算过程,就像一位解题者在逐步推导答案,大大提升了推理的准确性和可靠性。
  2. Chain-of-Thought 推理过程:即思维链推理过程,指模型在解决问题时,模拟人类逐步思考的方式,将复杂问题拆解为多个中间步骤,通过一系列逻辑连贯的推理步骤得出最终答案。以数学问题 “鸡兔同笼” 为例,模型不是直接给出答案,而是先设鸡有\(x\)只,兔有\(y\)只,根据头和脚的数量关系列出方程,再逐步求解方程,这种按步骤推理的过程就是思维链推理。它能让模型更好地处理复杂问题,展示推理依据,提升推理的可解释性和准确性。在一些数学竞赛题的解答中,通过思维链推理,模型可以详细地呈现解题思路,从已知条件出发,逐步推导到最终答案,使整个推理过程清晰明了,便于理解和验证。
  3. 推理时间缩放(inference-time scaling):是指在模型推理阶段,通过调整计算资源或推理步骤数量等方式,提升模型推理性能的策略。在计算资源方面,如增加 GPU 的使用数量或提高其运算频率,让模型有更多资源处理复杂任务,就像给工厂增加更多先进设备来提高生产效率。以图像识别任务为例,增加计算资源可以让模型更细致地分析图像特征,从而提高识别的准确率。从推理步骤数量调整来看,模型可以根据问题的复杂程度动态增加推理步骤。比如在处理复杂的逻辑推理题时,模型可以从简单的初步推理,逐步深入进行多轮推理,不断完善答案,提高推理的准确性。推理时间缩放旨在在推理阶段优化模型性能,使模型能更好地应对不同难度的任务。
  4. 基于强化学习的优化:o1 系列模型利用大规模强化学习算法进行训练,在训练过程中,模型不断探索不同的推理策略,根据反馈调整自己的思维过程,进而优化推理能力。随着强化学习的推进以及推理时计算资源的增加,模型的性能得到显著提升。比如在面对复杂的编程任务时,模型能通过不断尝试和调整推理步骤,生成更高效、更准确的代码,这体现了强化学习对模型推理能力的优化作用。
  5. 提升复杂任务处理能力:这种推理时缩放和思维链延长的机制,使 o1 系列模型在处理复杂任务时优势明显。在科学研究、复杂逻辑问题解决等领域,模型能够深入分析问题,整合多方面的知识和信息,通过逐步推理得出更准确的结论。在处理涉及多步骤的科学实验数据分析时,o1 系列模型可以有条不紊地梳理数据关系,进行多步推理和计算,最终给出科学合理的分析结果,展现出强大的复杂任务处理能力。

然而,有效测试时间缩放test-time scaling的挑战仍然是研究界的一个悬而未决的问题。

【它可能是指在模型测试阶段,通过调整某些因素来提升模型性能的操作,这些因素包括计算资源的分配、推理步骤的调整等】

之前的几项工作探索了各种方法,包括基于过程的奖励模型(Lightman 等人,2023 年;Uesato et al., 2022;Wang et al., 2023)、强化学习(Kumar et al., 2024)和搜索算法,如蒙特卡洛树搜索和光束搜索(Feng et al., 2024;Trinh et al., 2024;Xin et al., 2024)。然而,这些方法都没有达到与 OpenAI 的 o1 系列模型相当的一般推理性能。

在本文中,我们迈出了使用纯强化学习 (RL) 提高语言模型推理能力的第一步。我们的目标是探索 LLM 在没有任何监督数据的情况下发展推理能力的潜力,专注于它们通过纯 RL 过程的自我进化。具体来说,我们使用 DeepSeek-V3-Base 作为基础模型,并使用 GRPO (Shao et al., 2024) 作为 RL 框架来提高模型在推理中的性能。在训练过程中,DeepSeek-R1-Zero 自然而然地出现了许多强大而有趣的推理行为。经过数千次 RL 步骤后,DeepSeek-R1-Zero 在推理基准测试中表现出卓越的性能。例如,AIME 2024 的 pass@1 分数从 15.6% 增加到 71.0%,在多数投票的情况下,分数进一步提高到 86.7%,与 OpenAI-o1-0912 的性能相当。

但是,DeepSeek-R1-Zero 遇到了可读性差和语言混合等挑战。为了解决这些问题并进一步提高推理性能,我们引入了 DeepSeek-R1,它结合了少量冷启动数据多阶段训练管道。具体来说,我们首先收集数千个冷启动数据,以微调 DeepSeek-V3-Base 模型。在此之后,我们执行面向推理的 RL,如 DeepSeek-R1Zero。在 RL 过程中接近收敛后,我们通过在 RL 检查点上进行拒绝采样创建新的 SFT 数据,并结合来自 DeepSeek-V3 的监督数据,在写作、事实 QA 和自我认知等领域,然后重新训练 DeepSeek-V3-Base 模型。使用新数据进行微调后,检查点将经历一个额外的 RL 过程,同时考虑所有场景的提示。经过这些步骤,我们获得了一个名为 DeepSeek-R1 的检查点,它的性能与 OpenAI-o1-1217 相当。

【好多技术都有点懵,先往下看试试】

我们进一步探索了从 DeepSeek-R1 到更小的致密模型的蒸馏。使用 Qwen2.532B (Qwen, 2024b) 作为基本模型,从 DeepSeek-R1 直接蒸馏的性能优于对其应用 RL。这表明,大型基础模型发现的推理模式对于提高推理能力至关重要。我们开源了蒸馏的 Qwen 和 Llama (Dubey et al., 2024) 系列。值得注意的是,我们提炼的 14B 模型的性能大大优于最先进的开源 QwQ-32B-Preview (Qwen, 2024a),提炼的 32B 和 70B 模型在密集模型中的推理基准上创下了新纪录。

1.1. 贡献

后训练:基础模型的大规模强化学习・我们直接将 RL 应用于基础模型,而不依赖监督微调 (SFT) 作为初步步骤。这种方法允许模型探索解决复杂问题的思维链 (CoT),从而开发 DeepSeek-R1-Zero。DeepSeekR1-Zero 展示了自我验证、反射和生成长 CoT 等功能,这标志着研究界的一个重要里程碑。值得注意的是,这是第一项公开研究,验证了 LLM 的推理能力可以纯粹通过 RL 来激励,而无需 SFT。

【强化学习、思维链的性价比很高】

这一突破为该领域的未来发展铺平了道路。 我们介绍了开发 DeepSeek-R1 的管道。该管道包含两个 RL 阶段,旨在发现改进的推理模式并与人类偏好保持一致,以及两个 SFT 阶段,作为模型推理和非推理能力的种子。我们相信,该管道将通过创建更好的模型使行业受益。

蒸馏:较小的模型也可以很强大

我们证明,较大模型的推理模式可以提炼成较小的模型,与通过 RL 在小型模型上发现的推理模式相比,性能更好。开源 DeepSeek-R1 及其 API 将使研究社区在未来能够提炼出更好的更小模型。 使用 DeepSeek-R1 生成的推理数据,我们微调了研究界广泛使用的几个密集模型。评估结果表明,蒸馏的较小密集模型在基准上表现非常出色。DeepSeekR1-Distill-Qwen-7B 在 AIME 2024 上取得了55.5% 的成绩,超过了 QwQ-32B-Preview。此外,DeepSeek-R1-Distill-Qwen-32B 在 AIME 2024 上的得分为 72.6%,在 MATH-500 上为 94.3%,在 LiveCodeBench 上为 57.2%。这些结果明显优于以前的开源模型,可与 o1-mini 相媲美。我们开源了基于 Qwen2.5 和 Llama3 系列的 1.5B、7B、8B、14B、32B 和 70B 检查点给社区。

1.2. 评估结果总结

・推理任务:(1) DeepSeek-R1 在 AIME 2024 上取得了 79.8% Pass@1 分,略高于 OpenAI-o1-1217。在 MATH-500 上,它获得了令人印象深刻的 97.3% 的分数,与 OpenAI-o1-1217 相当,明显优于其他模型。(2) 在编码相关任务中,DeepSeek-R1 在代码竞赛任务中表现出专家级水平,它在 Codeforces 上获得了 2,029 的 Elo 评分,超过了 96.3% 的人类参赛者。对于与工程相关的任务,DeepSeek-R1 的性能略好于 DeepSeek-V3,这可以帮助开发人员完成实际任务。

知识:在 MMLU、MMLU-Pro 和 GPQA Diamond 等基准测试中,DeepSeekR1 取得了出色的结果,以 90.8% 的 MMLU 分数、84.0% 的 MMLU-Pro 分数和 71.5% 的分数显著优于 DeepSeek-V3。虽然 DeepSeek-R1 在这些基准测试中的性能略低于 OpenAI-o1-1217,但超越了其他闭源模型,展示了其在教育任务方面的竞争优势。在事实基准 SimpleQA 上,DeepSeek-R1 的性能优于 DeepSeek-V3,展示了其处理基于事实的查询的能力。在此基准上,OpenAI-o1 超过 4o 时也观察到类似的趋势。

・其他:DeepSeek-R1 还擅长完成各种任务,包括创意写作、一般问答、编辑、总结等。它在 AlpacaEval 2.0 上取得了令人印象深刻的 87.6% 的长度控制胜率,在 ArenaHard 上取得了 92.3% 的胜率,展示了其智能处理非面向考试的查询的强大能力。此外,DeepSeek-R1 在需要长期上下文理解的任务上表现出出色的性能,在长期上下文基准测试中大大优于 DeepSeek-V3。

2.方法

2.1. 概述

以前的工作严重依赖大量的监督数据来提高模型性能。在这项研究中,我们证明,即使不使用监督微调 (SFT) 作为冷启动,也可以通过大规模强化学习 (RL) 显着提高推理能力。此外,通过包含少量冷启动数据,可以进一步提高性能。在以下部分中,我们将介绍:(1) DeepSeek-R1-Zero,它将 RL 直接应用于基本模型,而无需任何 SFT 数据,以及 (2) DeepSeek-R1,它从检查点开始应用 RL,该检查点使用数千个长思维链 (CoT) 示例进行微调。3) 将 DeepSeek-R1 的推理能力提炼成小型密集模型

2.2. DeepSeek-R1-Zero:基础模型上的强化学习

强化学习推理任务中表现出显着的有效性,正如我们之前的工作所证明的那样(Shao et al., 2024;Wang et al., 2023)。然而,这些工作在很大程度上依赖于受监督的数据,而这些数据的收集非常耗时。在本节中,我们探讨了 LLM 在没有任何监督数据的情况下发展推理能力的潜力,重点关注它们通过纯强化学习过程的自我进化。我们首先简要概述了我们的 RL 算法,然后介绍了一些令人兴奋的结果,并希望这能为社区提供有价值的见解。

2.2.1. 强化学习算法

Group Relative Policy Optimization 群体相对策略优化  为了节省 RL 的训练成本,我们采用了群体相对策略优化(GRPO)(Shao et al., 2024),它放弃了通常与策略模型大小相同的批评者模型,而是从群体分数中估计基线。具体来说,

这段话介绍了 Group Relative Policy Optimization(GRPO)方法,旨在降低强化学习训练成本。可以用学生考试的场景来类比理解:

  • 整体设定:把大语言模型想象成参加考试的学生,每个学生(模型)都有自己答题的策略(策略模型)。老师原本需要给每个学生单独评估(就像传统强化学习中的 critic 模型评估),但这样很费精力(对应训练成本高)。现在老师换了种方法,采用 GRPO 策略。


2.2.2. 奖励建模

奖励是训练信号的来源,它决定了 RL 的优化方向。为了训练 DeepSeek-R1-Zero,我们采用了基于规则的奖励系统,主要由两种类型的奖励组成:

准确率奖励:准确率奖励模型评估响应是否正确。例如,对于具有确定性结果的数学问题,模型需要以指定格式(例如,在框内)提供最终答案,从而实现可靠的基于规则的正确性验证。同样,对于 LeetCode 问题,可以使用编译器根据预定义的测试用例生成反馈。

格式奖励:除了准确率奖励模型外,我们还采用了格式奖励模型,该模型强制模型将其思考过程置于 '<think>' 和 '</think>' 标签之间。

在开发 DeepSeek-R1-Zero 时,我们没有应用结果或过程神经奖励模型,因为我们发现神经奖励模型在大规模强化学习过程中可能会遭受奖励黑客攻击,重新训练奖励模型需要额外的训练资源,并且使整个训练管道复杂化。

2.2.3. 训练模板

为了训练 DeepSeek-R1-Zero,我们首先设计一个简单的模板,指导基本模型遵守我们指定的指令。如表 1 所示,此模板要求 DeepSeek-R1-Zero 首先生成一个推理过程,然后是最终答案。我们有意将约束限制在这种结构格式上,避免任何特定于内容的偏见 —— 例如强制进行反思推理或推广特定的问题解决策略 —— 以确保我们能够在 RL 过程中准确观察模型的自然进展。

2.2.4. DeepSeek-R1-Zero 的性能、自进化过程和顿悟

DeepSeek-R1-Zero 的性能图 2 描述了 DeepSeekR1-Zero 在整个 RL 训练过程中在 AIME 2024 基准测试中的性能轨迹。如图所示,随着 RL 训练的推进,DeepSeek-R1-Zero 的性能得到了稳定和一致的增强。值得注意的是,AIME 2024 的平均 pass@1 分数显示显着提高,从最初的 15.6% 跃升至令人印象深刻的 71.0%,达到与 OpenAI-o1-0912 相当的性能水平。这一显著改进凸显了我们的 RL 算法在随时间推移优化模型性能方面的有效性。

表 2 提供了 DeepSeek-R1-Zero 和 OpenAI 的 o1-0912 模型在各种推理相关基准测试中的比较分析。研究结果表明,RL 赋予DeepSeek-R1-Zero 获得强大的推理能力,而无需任何监督微调数据。这是一项值得注意的成就,因为它强调了该模型仅通过 RL 有效学习和泛化的能力。此外,DeepSeekR1-Zero 的性能可以通过多数投票的应用进一步增强。例如,当 AIME 基准测试采用多数表决时,DeepSeek-R1-Zero 的性能从 71.0% 升级到 86.7%,从而超过了 OpenAI-o1-0912 的性能。DeepSeek-R1-Zero 能够在有和没有多数投票的情况下实现如此有竞争力的性能,这凸显了其强大的基础能力和在推理任务中进一步发展的潜力。

DeepSeek-R1-Zero 的自我进化过程   DeepSeek-R1-Zero 的自我进化过程是一个引人入胜的演示,展示了 RL 如何驱动模型自主提高其推理能力。通过直接从基础模型启动 RL,我们可以密切监控模型的进度,而不受监督微调阶段的影响。这种方法清楚地展示了模型如何随着时间的推移而演变,特别是在处理复杂推理任务的能力方面。

如图 3 所示,DeepSeek-R1-Zero 的思考时间显示出持续的改善贯穿整个培训过程。这种改进不是外部调整的结果,而是模型内部的内在发展。DeepSeek-R1-Zero 通过利用扩展的测试时间计算,自然而然地获得了解决日益复杂的推理任务的能力。这种计算范围从生成数百到数千个推理标记,使模型能够更深入地探索和完善其思维过程。

图 3 |RL 过程中 DeepSeek-R1-Zero 在训练集上的平均响应长度。DeepSeek-R1-Zero 自然而然地学会了用更多的思考时间来解决推理任务

这种自我进化最引人注目的方面之一是随着测试时间计算的增加而出现复杂的行为。诸如反射(模型重新审视和重新评估其先前步骤)等行为以及探索解决问题的替代方法等行为都会自发出现。这些行为没有被显式编程,而是作为模型与强化学习环境交互的结果而出现的。这种自发开发显著增强了 DeepSeek-R1-Zero 的推理能力,使其能够更高效、更准确地处理更具挑战性的任务。

DeepSeek-R1-Zero 的 Aha Moment 在 DeepSeek-R1-Zero 的训练过程中观察到的一个特别有趣的现象是 “Aha Moment” 的出现。如表 3 所示,这个时刻发生在模型的中间版本中。在这个阶段,DeepSeek-R1-Zero 通过重新评估其初始方法【再想想】,学会为问题分配更多的思考时间。这种行为不仅证明了模型不断增长的推理能力,也是强化学习如何导致意想不到的复杂结果的迷人例子。

这一刻不仅是模型的 “顿悟时刻”,也是观察其行为的研究人员的 “顿悟时刻”。它强调了强化学习的力量和美感:我们不是明确地教模型如何解决问题,而是简单地为其提供正确的激励措施,然后它就会自主开发高级问题解决策略。“顿悟时刻” 有力地提醒我们,RL 有可能在人工系统中解锁新的智能水平,为未来更加自主和自适应的模型铺平道路。

DeepSeek-R1-Zero 的缺点 尽管 DeepSeek-R1-Zero 表现出很强的推理能力,并自主发展出意想不到的强大推理行为,但它面临一些问题。例如,DeepSeek-R1-Zero 正在努力应对可读性差和语言混合等挑战。为了使推理过程更具可读性并与开放社区共享,我们探索了 DeepSeek-R1,这是一种利用 RL 和人类友好型冷启动数据的方法。

2.3. DeepSeek-R1: 使用冷启动进行强化学习

受到 DeepSeek-R1-Zero 的可喜结果的启发,自然而然地出现了两个问题:1) 通过将少量高质量数据作为冷启动,是否可以进一步提高推理性能或加速收敛?2) 我们如何训练一个用户友好的模型,该模型不仅产生清晰连贯的思维链 (CoT),而且还表现出强大的通用能力?为了解决这些问题,我们设计了一个管道来训练 DeepSeek-R1 。该管道由四个阶段组成,概述如下。

2.3.1. 冷启动

与 DeepSeek-R1-Zero 不同,为了防止基础模型出现 RL 训练的早期不稳定冷启动阶段,对于 DeepSeek-R1,我们构建并收集少量长 CoT 数据,以将模型作为初始 RL 参与者进行微调。为了收集这些数据,我们探索了几种方法:以长 CoT 的 few-shot 提示为例,直接提示模型通过反射和验证生成详细的答案,以可读格式收集 DeepSeek-R1Zero 输出,并通过人工注释者进行后处理来提炼结果。

在这项工作中,我们收集了数千个冷启动数据,以微调 DeepSeek-V3-Base 作为 RL 的起点。与 DeepSeek-R1-Zero 相比,冷启动数据的优势包括:

可读性:DeepSeek-R1-Zero 的一个关键限制是它的内容通常不适合阅读。响应可能混合多种语言,或者缺少 Markdown 格式来向用户突出显示答案。相比之下,在为 DeepSeek-R1 创建冷启动数据时,我们设计了一个可读的模式,在每个响应的末尾包含一个摘要,并过滤掉对读者不友好的响应。在这里,我们将输出格式定义为 |special_token|<reasoning_process>|special_token|<summary>,其中推理过程是查询的 CoT,摘要用于总结推理结果。

潜力:通过使用人类先验仔细设计冷启动数据的模式,我们观察到 DeepSeek-R1-Zero 的性能更好。我们相信迭代训练是推理模型的更好方法。

2.3.2. 面向推理的强化学习

在根据冷启动数据微调 DeepSeek-V3-Base 后,我们应用了与 DeepSeek-R1-Zero 中相同的大规模强化学习训练过程。此阶段侧重于增强模型的推理能力,尤其是在推理密集型任务中,例如编码、数学、科学和逻辑推理,这些任务涉及定义明确的问题明确的解决方案。在训练过程中,我们观察到 CoT 经常表现出语言混合,尤其是当 RL 提示涉及多种语言时。为了缓解语言混合问题,我们在 RL 训练期间引入了语言一致性奖励,其计算方式是目标语言单词在 CoT 中的比例。尽管消融实验表明,这种对齐会导致模型的性能略有下降,但这种奖励与人类的偏好一致,使其更具可读性。最后,我们将推理任务的准确性语言一致性的奖励结合起来,直接相加形成最终的奖励。然后,我们在微调模型上应用 RL 训练,直到它在推理任务上实现收敛。

2.3.3. 抑制采样和监督微调

当面向推理的 RL 收敛时,我们利用结果检查点来收集 SFT(监督微调)数据,用于下一轮。

把训练大语言模型想象成培养运动员参加全能比赛。在这个场景中,模型就是运动员,而推理导向的强化学习(RL)训练就像是运动员针对比赛项目进行专项训练。

  1. 专项训练与检查点:运动员先进行专项训练,比如针对跑步、跳远等单项进行反复练习,在训练过程中会有不同阶段的训练成果。而当推理导向的 RL 训练达到收敛状态时,就好比运动员在专项训练中达到了一个稳定且较好的训练成果阶段,这个成果就像是一个 “检查点”,它记录了运动员在这个阶段的能力状态,对应模型在此时的参数设置。
  2. 收集 SFT 数据与全能比赛准备:为了让运动员能在全能比赛(模型应用于多种任务场景)中有更好的表现,不能只依靠专项训练,还需要综合提升其他能力。此时利用推理导向 RL 收敛时的 “检查点” 来收集 SFT 数据,就如同根据运动员当前的专项训练成果,去分析他们还需要在哪些方面提升,收集相关的训练资料。比如发现运动员在体能综合运用、不同项目衔接等方面还有不足,就去收集针对这些方面的训练方法、案例等资料。这些资料就是对应模型训练中的 SFT 数据,包括从推理任务数据扩展到写作、角色扮演等其他领域的数据。
  3. 后续训练与提升:收集完这些资料后,运动员就可以利用这些新资料进行更全面的训练,提升自己在全能比赛中的综合能力。同样,模型利用收集到的 SFT 数据进行后续的训练,进一步优化自身,使其不仅在推理任务上表现出色,在其他多种任务上也能有更好的性能表现 。

与主要关注推理的初始冷启动数据不同,此阶段整合了来自其他领域的数据,以增强模型在写作、角色扮演和其他通用任务方面的能力。具体来说,我们生成数据并微调模型,如下所述。

推理数据 我们通过从上述 RL 训练的检查点执行拒绝采样来策划推理提示并生成推理轨迹。

可以把这段话描述的过程类比为厨师研发新菜品的过程: - **厨师的“素材库”与模型的“检查点”**:把模型训练过程中的检查点想象成厨师在烹饪过程中某个阶段确定下来的食材处理状态。比如,厨师准备做一道创意菜,已经把食材切好、初步调味,这个半成品状态就是对应模型的检查点,它包含了模型在这个训练阶段的各种“信息”,就像半成品食材包含了已完成的处理工序信息一样。 - **筛选“素材”与拒绝采样**:拒绝采样就是从这个半成品食材(检查点)出发,制作各种不同搭配的“试验菜品”(生成推理轨迹),但不是所有试验菜品都能达到厨师的要求。厨师会尝试不同的食材组合和烹饪方式,有些搭配可能味道不好(不符合模型训练要求的推理轨迹),厨师就会把这些“失败”的试验菜品排除掉(拒绝),只留下符合口味预期(符合一定标准的推理轨迹)的。这个筛选过程就是拒绝采样,通过不断尝试和筛选,得到更好的菜品搭配方案,对应模型通过拒绝采样得到更合适的推理轨迹。 - **精选“素材”用于研发新菜品**:筛选出满意的试验菜品后,厨师会把这些成功的搭配方式整理起来(收集推理数据),用于进一步完善这道创意菜(继续训练模型)。这些经过筛选的搭配方式就成为了厨师研发新菜品的重要素材,就像筛选后的推理数据成为模型后续训练的重要依据,帮助模型更好地学习和提升性能 。

在模型训练里,拒绝采样是提升模型性能的重要手段。它以推理导向的强化学习收敛时的检查点为基础,对生成的推理轨迹进行筛选,以此获取高质量数据,为模型训练提供有力支持。

  1. 确定采样基础:当推理导向的强化学习(RL)达到收敛状态时,会得到一个检查点。这个检查点记录了模型在该阶段的参数等关键信息,是拒绝采样的起始点。可以将其理解为一个具有特定 “能力” 状态的模型版本,基于此版本进行后续的数据生成和筛选操作。
  2. 生成推理轨迹:利用上述检查点,针对推理任务生成一系列推理轨迹。例如在数学推理任务中,模型可能会根据当前的参数和训练情况,对一道数学题生成多种不同的解题步骤序列,这些解题步骤序列就是推理轨迹。模型可能会对一道几何证明题尝试不同的辅助线添加方法和推理思路,每种不同的尝试就是一个推理轨迹。
  3. 设定筛选标准并筛选:依据一定的标准对生成的推理轨迹进行筛选。在论文的研究中,筛选标准主要包括:一是能否使用基于规则的奖励进行评估,若无法用此类奖励评估的推理轨迹则被排除;二是对模型输出的合理性进行判断,像过滤掉语言混合、包含长段落和代码块等难以阅读或不符合要求的推理轨迹。在筛选数学推理轨迹时,如果某个解题过程中出现多种语言混乱表述,或者推理过程过于冗长复杂且没有清晰逻辑,就会被拒绝。
  4. 保留符合标准的数据:经过筛选,只保留符合标准的推理轨迹。这些保留下来的推理轨迹就成为了新的训练数据,用于后续对模型的进一步训练和优化。例如在筛选后,留下了那些推理过程清晰、语言规范且能够正确解答问题的推理轨迹,将它们整合起来,作为新的训练样本,让模型学习这些优质的推理方式,从而提升自身的推理能力 。

在上一阶段,我们只包含可以使用基于规则的奖励进行评估的数据。然而,在这个阶段,我们通过整合额外的数据来扩展数据集,其中一些数据通过使用生成奖励模型,将真实和模型预测输入到 DeepSeek-V3 中进行判断。此外,由于模型输出有时混乱且难以阅读,因此我们过滤掉了混合语言、长释义和代码块的思维链。对于每个提示,我们会对多个响应进行采样,并仅保留正确的响应。我们总共收集了大约 600k 个推理相关的训练样本。

非推理数据 对于非推理数据,例如写作、事实 QA、自我认知和翻译,我们采用 DeepSeek-V3 管道,并重用 DeepSeek-V3 的 SFT 数据集的一部分。对于某些非推理任务,我们调用 DeepSeek-V3 来生成一个潜在的思维链,然后再通过提示来回答问题。但是,对于更简单的查询,例如 “hello”,我们不提供 CoT 作为响应。最后,我们总共收集了大约 200k 个与推理无关的训练样本。

我们使用上述约 800k 样本的精选数据集对 DeepSeek-V3-Base 进行了两个 epoch 的微调。

2.3.4. 适用于所有场景的强化学习

为了进一步使模型与人类偏好保持一致,我们实现了一个二级强化学习阶段,旨在提高模型的有用性和无害性,同时完善其推理能力。具体来说,我们使用奖励信号和各种提示分布的组合来训练模型。对于推理数据,我们遵循 DeepSeek-R1-Zero 中概述的方法,该方法利用基于规则的奖励来指导数学、代码和逻辑推理领域的学习过程。对于一般数据,我们采用奖励模型来捕捉复杂和细微场景中的人类偏好。我们以 DeepSeek-V3 管道为基础,采用类似的偏好对和训练提示分布。为了提供帮助,我们只关注最终摘要,确保评估强调响应对用户的效用和相关性,同时最大限度地减少对潜在推理过程的干扰。为了实现无害性,我们会评估模型的整个响应,包括推理过程和摘要,以识别和减轻生成过程中可能出现的任何潜在风险、偏差或有害内容。最终,奖励信号和多样化数据分布的集成使我们能够训练一个在推理方面表现出色的模型,同时优先考虑有用性和无害性。

2.4. 蒸馏:赋予小模型推理能力

为了让更高效的小型模型像 DeepSeek-R1 一样具有推理功能,我们使用 DeepSeek-R1 精选的 800k 样本,直接对 Qwen (Qwen, 2024b) 和 Llama (AI@Meta, 2024) 等开源模型进行了微调,详见 §2.3.3。我们的研究结果表明,这种直接的蒸馏方法显着增强了较小模型的推理能力。我们在这里使用的基本模型是 Qwen2.5-Math-1.5B、Qwen2.5-Math-7B、Qwen2.514B、Qwen2.5-32B、Llama-3.1-8B 和 Llama-3.3-70B-Instruct。我们选择 Llama-3.3 是因为它的推理能力略好于 Llama-3.1。

对于提炼模型,我们只应用 SFT不包括 RL 阶段,即使合并 RL 可以大大提高模型性能。我们在这里的主要目标是证明蒸馏技术的有效性,将 RL 阶段的探索留给更广泛的研究界。

【蒸馏其实就是让高质量模型生成大量高质量数据来进行有监督微调,这里后续还能测试蒸馏后的模型RL能怎么样提升模型效果】

  1. 实验

基准 我们评估了 MMLU(Hendrycks 等人,2020 年)、MMLU-Redux(Gema 等人,2024 年)、MMLU-Pro(Wang 等人,2024 年)、C-Eval(Huang 等人,2023 年)和 CMMLU(Li 等人,2023 年)、IFEval(周 等人,2023 年)、FRAMES(Krishna 等人,2024 年)、GPQA Diamond(Rein 等人,2023 年)、SimpleQA(OpenAI,2024c)、C-SimpleQA(He 等人,2024 年)、SWE-Bench 验证(OpenAI、

Seek-V3 中设置之后,使用 simpleevals 框架中的提示评估 MMLU、DROP、GPQA Diamond 和 SimpleQA 等标准基准。对于 MMLU-Redux,我们在零镜头设置中采用 Zero-Eval 提示格式 (Lin, 2024)。在 MMLU-Pro、C-Eval 和 CLUE-WSC 方面,由于原来的提示是 few-shot,我们稍微将提示修改为 zero-shot 设置。小样本中的 CoT 可能会损害 DeepSeek-R1 的性能。其他数据集遵循其原始评估协议,并采用其创建者提供的默认提示。对于代码和数学基准测试,HumanEval-Mul 数据集涵盖了八种主流编程语言(Python、Java、C++、C#、JavaScript、TypeScript、PHP 和 Bash)。LiveCodeBench 上的模型性能使用 CoT 格式进行评估,数据收集时间为 2024 年 8 月至 2025 年 1 月。Codeforces 数据集使用 10 个 Div.2 竞赛的问题以及专家制作的测试用例进行评估,然后计算参赛者的预期评分和百分比。SWE-Bench 验证结果是通过无代理框架获得的 (Xia et al., 2024)。与 AIDER 相关的基准测试使用 “diff” 格式进行衡量。DeepSeek-R1 输出的每个基准测试上限为 32,768 个代币。

基线 我们针对几个强大的基线进行综合评估,包括 DeepSeek-V3、Claude-Sonnet-3.5-1022、GPT-4o-0513、OpenAI-o1-mini 和 OpenAI-o1-1217。由于在中国大陆访问 OpenAI-o1-1217 API 具有挑战性,因此我们根据官方报告报告其性能。对于蒸馏模型,我们还比较了开源模型 QwQ-32B-Preview (Qwen, 2024a)。

评估设置 我们将模型的最大生成长度设置为 32,768 个令牌。我们发现,使用贪婪解码来评估长输出推理模型会导致更高的重复率和不同检查点之间的显着可变性。

假设你正在让一个机器人写故事。这个机器人就像大语言模型,写故事的过程就好比模型生成推理结果的过程。 当你让机器人用“贪心解码”的方式写故事时,就会出现一些问题。这就像是机器人在写故事的时候,每次都只选择当下看起来最好的词来写,而不考虑整个故事的长远发展和连贯性。比如写一个冒险故事,遇到选择下一个情节时,它总是选最容易想到、最常见的情节,像每次遇到困难,都让主角直接打败怪物,而不考虑其他更有趣、更合理的解决办法。 这样写出来的故事,就会出现高重复率的情况,就好像每次写冒险故事都是主角一路打怪物,情节非常相似。而且,不同时候写出来的故事质量差异很大,这就是“不同检查点的显著可变性”。因为机器人每次写故事时,可能因为初始状态或者遇到的具体选择不同,就会写出质量参差不齐的故事。有时候可能开头还不错,但后面越来越差;有时候又可能整体都很平淡。这就像用贪心解码评估长输出推理模型时,不同的模型状态(检查点)下得到的结果差异明显 。

因此,我们默认 pass@kevaluation(Chen 等人,2021 年)并使用非零温度报告 pass@1。具体来说,我们使用 0.6 的采样温度和 0.95 的 top-P 值来为每个问题生成 k 个响应(通常在 4 到 64 之间,具体取决于测试集大小)。然后 Pass@1 计算为 \(pass @ 1=\frac{1}{k} \sum_{i=1}^{k} p_{i}\),

其中 \(p_{i}\) 表示第 i 个响应的正确性。此方法提供更可靠的性能估计。对于 AIME 2024,我们还使用 64 个样本报告了共识(多数票)结果(Wang et al., 2022),表示为 cons@64。

3.1. DeepSeek-R1 评估

对于 MMLU、MMLU-Pro 和 GPQA Diamond 等面向教育的知识基准测试,DeepSeek-R1 表现出优于 DeepSeek-V3 的性能。这种改进主要归因于 STEM 相关问题的准确性提高,其中通过大规模强化学习实现了显著的收益。此外,DeepSeek-R1 在 FRAMES 方面表现出色,这是一项长期依赖上下文的 QA 任务,展示了其强大的文档分析能力。这凸显了推理模型在 AI 驱动的搜索和数据分析任务中的潜力。在事实基准 SimpleQA 上,DeepSeek-R1 的性能优于 DeepSeek-V3,展示了其处理基于事实的查询的能力。在此基准上,OpenAI-o1 超过 GPT-4o 也观察到类似的趋势。然而,DeepSeek-R1 在中国 SimpleQA 基准测试中的表现比 DeepSeek-V3 差,主要是因为它倾向于在安全 RL 之后拒绝回答某些查询。在没有安全 RL 的情况下,DeepSeek-R1 可以达到 70% 以上的准确率。

DeepSeek-R1 还在 IF-Eval 上提供了令人印象深刻的结果,IF-Eval 是一项基准测试,旨在评估模型遵循格式说明的能力。这些改进可以与在监督微调 (SFT) 和 RL 训练的最后阶段包含指令跟踪数据相关联。此外,在 AlpacaEval2.0 和 ArenaHard 上观察到了出色的性能,表明 DeepSeek-R1 在编写任务和开放领域问答方面的优势。DeepSeek-V3 的显著性能凸显了大规模 RL 的泛化优势,这不仅增强了推理能力,还提高了不同领域的性能。此外,DeepSeek-R1 生成的摘要长度简洁明了,在 ArenaHard 上平均有 689 个令牌,在 AlpacaEval 2.0 上平均有 2218 个字符。这表明

DeepSeek-R1 避免了在基于 GPT 的评估中引入长度偏差,进一步巩固了其在多个任务中的稳健性。

在数学任务方面,DeepSeek-R1 的性能与 OpenAI-o1-1217 相当,大大超过其他模型。在编码算法任务(例如 LiveCodeBench 和 Codeforces)上观察到类似的趋势,其中以推理为中心的模型在这些基准测试中占据主导地位。在面向工程的编码任务上,OpenAI-o1-1217 在 Aider 上的性能优于 DeepSeek-R1,但在 SWE 验证上实现了相当的性能。我们相信 DeepSeek-R1 的工程性能将在下一个版本中得到提升,因为目前相关的 RL 训练数据量仍然非常有限。

如表 5 所示,只需提取 DeepSeek-R1 的输出即可使高效的 DeepSeekR1-7B(即 DeepSeek-R1-Distill-Qwen-7B,缩写如下)全面优于 GPT-4o-0513 等非推理模型。DeepSeek-R1-14B 在所有评估指标上都超过了 QwQ-32BPreview,而 DeepSeek-R1-32B 和 DeepSeek-R1-70B 在大多数基准测试中明显超过了 o1-mini。这些结果表明蒸馏法具有强大的潜力。此外,我们发现将 RL 应用于这些蒸馏模型会产生显着的进一步收益。我们认为这值得进一步探索,因此在这里只提供简单的 SFT 蒸馏模型的结果。【这张表还能明星按看出来,64次投票表决的效果非常好】

4 讨论

4.1. 蒸馏 vs. 强化学习

在 Section 3.2 中,我们可以看到,通过提炼 DeepSeek-R1,小模型可以取得令人印象深刻的结果。然而,仍然剩下一个问题:该模型能否通过论文中讨论的大规模 RL 训练实现相当的性能,而无需蒸馏?

为了回答这个问题,我们使用数学、代码和 STEM 数据在 Qwen-32B-Base 上进行了大规模 RL 训练,训练了超过 10K 个步骤,从而产生了 DeepSeek-R1-Zero-Qwen-32B。实验结果如表 6 所示,表明 32B 基础模型在大规模RL 训练,达到与 QwQ-32B-Preview 相当的性能。但是,从 DeepSeek-R1 中提炼出来的 DeepSeek-R1Distill-Qwen-32B 在所有基准测试中的表现明显优于 DeepSeek-R1-Zero-Qwen-32B。

因此,我们可以得出两个结论:首先,将更强大的模型蒸馏成更小的模型会产生极好的结果,而依赖于本文提到的大规模 RL 的较小模型需要巨大的计算能力,甚至可能无法达到蒸馏的性能。其次,虽然蒸馏策略既经济又有效,但超越智能界限可能仍需要更强大的基础模型和更大规模的强化学习。

4.2. 尝试失败

在开发 DeepSeek-R1 的早期阶段,我们也遇到了失败和挫折。我们在这里分享我们的失败经验以提供见解,但这并不意味着这些方法无法开发有效的推理模型。

过程奖励模型 (PRM) PRM 是一种合理的方法,可以指导模型采用更好的方法来解决推理任务(Lightman 等人,2023 年;Uesato et al., 2022;Wang et al., 2023)。然而,在实践中,PRM 有三个主要限制可能会阻碍其最终成功。首先,在一般推理中明确定义一个细粒度的步骤是具有挑战性的。其次,确定当前的中间步骤是否正确是一项具有挑战性的任务。使用模型进行自动注释可能不会产生令人满意的结果,而手动注释则不利于纵向扩展。第三,一旦引入了基于模型的 PRM,就不可避免地会导致奖励黑客攻击(Gao et al., 2022),重新训练奖励模型需要额外的训练资源,这会使整个训练管道复杂化。总之,虽然 PRM 表现出对模型生成的前 N 个响应进行重新排序或协助引导搜索的良好能力(Snell et al., 2024),但与它在大规模强化学习过程中引入的额外计算开销相比,它的优势是有限的。

蒙特卡洛树搜索 (MCTS)受 AlphaGo(Silver 等人,2017b)和 AlphaZero (Silver 等人,2017a) 的启发,我们探索了使用 Monte Carlo 树搜索 (MCTS) 来增强测试时计算的可扩展性。此方法涉及将答案分解为较小的部分,以允许模型系统地探索解决方案空间。为了促进这一点,我们提示模型生成多个标签,这些标签对应于搜索所需的特定推理步骤。对于训练,我们首先使用收集的提示,在预先训练的值模型指导下,通过 MCTS 查找答案。随后,我们使用生成的问答对来训练参与者模型和价值模型,迭代地改进该过程。

但是,这种方法在扩大训练规模时遇到了一些挑战。首先,与搜索空间相对明确的国际象棋不同,令牌生成提供了一个搜索空间呈指数级增长。为了解决这个问题,我们为每个节点设置了最大扩展限制,但这可能会导致模型卡在局部最优值中。其次,价值模型直接影响生成质量,因为它指导搜索过程的每个步骤。训练细粒度价值模型本身就很困难,这使得模型难以迭代改进。虽然 AlphaGo 的核心成功依赖于训练价值模型以逐步提高其性能,但由于代币生成的复杂性,这一原则在我们的设置中被证明很难复制。

总之,虽然 MCTS 在与预先训练的值模型配对时可以提高推理过程中的性能,但通过自搜索迭代提高模型性能仍然是一项重大挑战。

5.结论、局限性和未来工作

在这项工作中,我们分享了我们通过强化学习增强模型推理能力的历程。DeepSeek-R1-Zero 代表了一种不依赖冷启动数据的纯 RL 方法,在各种任务中实现了强大的性能。DeepSeek-R1 功能更强大,利用冷启动数据以及迭代 RL 微调。最终,DeepSeek-R1 在一系列任务上实现了与 OpenAI-o1-1217 相当的性能。

我们进一步探索了蒸馏到小密集模型的推理能力。我们使用 DeepSeek-R1 作为教师模型,生成 800K 训练样本,并微调几个小的密集模型。结果令人鼓舞:DeepSeek-R1-Distill-Qwen-1.5B 在数学基准测试中优于 GPT-4o 和 Claude-3.5-Sonnet,在 AIME 上为 28.9%,在 MATH 上为 83.9%。其他 dense 模型也取得了令人印象深刻的结果,明显优于基于相同底层检查点的其他 instructiontuned 模型。

未来,我们计划投资于 DeepSeek-R1 的以下方向的研究。・通用能力:目前,DeepSeek-R1 在函数调用、多轮次、复杂角色扮演和 JSON 输出等任务方面的能力不如 DeepSeek-V3。展望未来,我们计划探索可以利用 CoT 来增强这些领域的任务多长时间。

混语言:DeepSeek-R1 目前针对中文和英文进行了优化,在处理其他语言的查询时可能会导致混语言问题。例如,DeepSeek-R1 可能会使用英语进行推理和响应,即使查询使用的是英语或中文以外的语言。我们的目标是在将来的更新中解决此限制。

提示工程:在评估 DeepSeek-R1 时,我们观察到它对提示很敏感。Few-shot 提示始终会降低其性能。因此,我们建议用户直接描述问题并使用零镜头设置指定输出格式以获得最佳结果。

软件工程任务:由于评估时间长,这会影响 RL 过程的效率,因此大规模 RL 尚未在软件工程任务中得到广泛应用。因此,DeepSeek-R1 在软件工程基准测试中没有表现出比 DeepSeek-V3 有的巨大改进。未来的版本将通过对软件工程数据实施拒绝抽样或在 RL 过程中结合异步评估来提高效率来解决这个问题。

3.思考

1.强化学习打底+长思维链微调+知识蒸馏是一种有效的技术方案

2.反馈可以使用:准确率奖励,格式正确奖励。

3.强制格式能带来准确观察,避免任何特定于内容的偏见的好处。

4.性能可以通过多数投票的应用进一步增强。例如,当 AIME 基准测试采用多数表决时,DeepSeek-R1-Zero 的性能从 71.0% 升级到 86.7%,从而超过了 OpenAI-o1-0912 的性能。

如果我的话,会尝试使用大模型的蒸馏数据,尤其是蒸馏出优质思维链提升推理能力,再以微调后的模型作为检查点针对性的收集数据进行二次微调,与人类对齐,第三轮增强它的表达,正常回答等通用能力。然而这种方式对提示敏感,且只能针对推理能力要求高的特定任务,比如我研究的领域,通用能力会受到限制。至于提示词受到的限制,也许能通过提示词向量的学习来缓解