出人意料！DeepSeek-R1用的GRPO其实没必要？规模化强化学习训练用PPO就够了 - ai人工智能 - 透明七彩巨人-tmqcjr.com

DeepSeek-R1 非常热门，而在其公布的训练配方中，GRPO（Group Relative Policy Optimization）非常关键，是 DeepSeek-R1 核心的强化学习算法。

^{PPO 与 GRPO 的对比，来自论文《DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models》}

相较于 PPO，GRPO 去掉了价值模型，而是通过分组分数来估计基线，从而可极大减少训练资源。

DeepSeek-R1 技术报告中写到：「具体来说，我们使用 DeepSeek-V3-Base 作为基础模型，并采用 GRPO 作为强化学习框架来提高模型的推理性能。在训练过程中，DeepSeek-R1-Zero 自然地涌现出了许多强大而有趣的推理行为。经过数千个强化学习步骤后，DeepSeek-R1-Zero 在推理基准上表现出超强的性能。」

但现在，有一项研究却证明 GRPO 对推理模型来说并不很重要。

阶跃星辰与清华大学近期的一项研究发现，只需使用带 GAE （λ= 1，γ= 1）的普通 PPO 以及基于规则的简单奖励函数，无需任何 KL 正则化，就足以扩展在推理任务上的响应长度和基准性能，类似于在 DeepSeek-R1-Zero 上观察到的现象。

使用这种极简方法，他们打造了 Open-Reasoner-Zero，这是首个面向大规模推理的强化学习训练的开源实现。并且该实现在 GPQA Diamond 基准上的表现优于 DeepSeek-R1-Zero-Qwen-32B，同时 仅需使用 1/30 的训练步数。需要强调，该团队不仅开源了代码，还发布了参数设置、训练数据和模型权重。

论文标题：Open-Reasoner-Zero: An Open Source Approach to Scaling Up Reinforcement Learning on the Base Model
论文地址：https://github.com/Open-Reasoner-Zero/Open-Reasoner-Zero/blob/main/ORZ_paper.pdf
项目地址：https://github.com/Open-Reasoner-Zero/Open-Reasoner-Zero
Hugging Face：https://huggingface.co/Open-Reasoner-Zero

从基础模型开始扩展强化学习

下面首先将介绍基础又关键的设置，括数据整编、奖励函数和近端策略优化 (PPO) 算法的详细设置。然后会讨论从消融实验中得出的关键见解，这些见解可以成功实现规模化强化学习训练。

基础设置

实验中，基础模型使用的是 Qwen2.5-{7B, 32B}，并且不经过任何微调（如蒸馏或 SFT）即开始规模化强化学习训练。在 Qwen2.5-{7B, 32B} 基础模型的基础上，该团队扩展了标准 PPO 算法，以用于面向推理的强化学习训练，同时仔细考虑了可扩展性和稳健性。

数据集方面，该团队精心编排了涉及 STEM、数学和推理任务的数万对问答数据，目标是增强模型在多样化和复杂问题求解场景中的能力。

受 DeepSeek-R1 启发，他们设计的提示词模板可以引导模型利用推理计算，逐步掌握针对复杂任务的推理能力，如表 1 所示。

此外，他们还基于 OpenRLHF 开发了一个高效的大规模强化学习训练框架，通过引入更灵活的训练器，实现了 GPU 共置生成（collocation generation）以及支持卸载和回载的训练。

数据集

高质量训练数据对可扩展 Reasoner-Zero 训练来说非常关键。这里作者关注了三个关键方面：数量、多样性和质量。

详细的收集整理过程请阅读原论文。最终，他们得到的数据集包含 57k 样本，涵盖 STEM、数学和推理领域。

奖励函数

不同于 DeepSeek-R1-Zero，这里的规模化强化学习训练采用了简单的规则式奖励函数 —— 该函数仅检查答案的正确性，没有任何额外的格式奖励。

具体来说，这个奖励函数会在训练时提取 <answer> 与 </answer> 标签之间的内容，并将其与参考答案比较。

为了保证规模化强化学习清晰又简单，他们实现了一种二元奖励方案：如果与参考答案完全匹配，则奖励为 1；所有其他情况的奖励为 0。

为了确保评估严格且一致，他们采用了被广泛使用的 Math-Verify 库，图 3 展示了其用法。

出人意料的是，该团队发现，使用新设计的提示，即使是未对齐的基础模型也能以很高的概率产生格式良好的响应。在早期训练阶段，基础模型仅通过简单的基于规则的奖励函数就能快速学会和强化正确的推理和回答格式，如图 4 所示。更重要的是，初步实验表明， 复杂的奖励函数不仅是不必要的，而且可能为奖励 hacking 留下潜在的空间。

强化学习算法

不同于 DeepSeek-R1-Zero 使用的 GRPO，该团队为规模化训练采用的强化学习算法是近端策略优化（PPO）算法。

具体来说，对于每个问题 q（即提示词），模型会根据基于规则的奖励函数生成一组响应 {o_1, o_2, ..., o_n} 并接收相应的奖励 {r_1, r_2, ..., r_n}，其中 n 表示采样轨迹的数量（即每个提示词的 rollout 大小）。

对于时间步骤 t （即 token t）处的每个响应 o_i ，令 s_t 表示时刻 t 的状态，包括问题和所有之前生成的 token，并令 a_t 表示在该步骤生成的 token。

对于每个 token，使用 Generalized Advantage Estimation（GAE）计算其优势估计

。一般来说，GAE 能在优势估计中提供偏差与方差的权衡，做法是通过一个由参数 λ 控制的指数加权平均值将 n 步优势估计组合起来。该优势估计的计算方式是：

，其中

是 TD（temporal difference）残差，γ 是折扣因子，它决定了未来奖励相对于即时奖励的价值。该 PPO 算法通过优化以下目标函数来更新策略模型参数 θ 以最大化预期奖励和价值模型参数 Φ，从而最小化价值损失：

其中 ε 是 clipping 参数，π_θ 是当前策略，π_θ_old 是更新前的旧策略，V_Φ 是价值函数，

是折扣回报。

具体到实例上，该团队为该 PPO 算法精心挑选了一些超参数：GAE 参数 λ = 1.0、折扣因子 γ = 1.0 和 clipping 参数 ε = 0.2。

主要发现

该团队得到了以下主要发现：

强化学习算法关键实现：实证研究表明， 原始的 PPO 在不同模型规模和训练持续时间内能够提供非常稳定和强大的训练过程，而无需进行额外的修改。通过广泛的实验，他们发现 GAE 参数在 PPO 推理任务中起着关键作用。具体来说，设置 λ = 1.0 和 γ = 1.0。虽然这种设置在传统强化学习场景中通常被认为是次优的，但它却能实现规模化强化学习训练的理想平衡。

最小奖励函数设计：该团队研究表明， 简单的基于规则的奖励函数不仅足够而且是最佳的，因为最小设计不会留下任何潜在的奖励 hacking 空间。值得注意的是，即使是 未对齐的基础模型也能快速适应所需的格式，这表明这是一项简单的任务，不需要复杂的奖励工程设计。

损失函数：该团队在 不依赖任何基于 KL 的正则化技术（例如 KL 形状的奖励和损失）的情况下实现了稳定的训练，这不同于 RLHF 社区和推理器模型普遍使用的方法。这也有很好的潜力实现进一步大规模强化学习。

扩大训练数据规模：该团队发现扩大数据量和多样性对于 Reasoner-Zero 训练至关重要。虽然在有限的学术数据集（如 MATH）上进行训练会导致性能快速停滞，但 该团队精细编排的大规模多样化数据集能够实现持续扩展，而不会在训练和测试集上出现饱和迹象。

实验表现如何？

下面介绍 Open-Reasoner-Zero 模型的全面实验结果和分析。其中包括两个方面的初步实验结果：利用训练得到的推理器进行蒸馏，在蒸馏得到的模型上使用 Open-Reasoner-Zero 训练流程以进一步增强其推理能力（类似 DeepSeek-R1 的方法）。训练的细节和超参数请参阅原论文，这里我们重点来看结果。

训练曲线

图 2 显示了在 Open-Reasoner-Zero 7B 和 32B 上的实验的训练奖励和平均响应长度曲线，而图 5 展示了在训练和评估集上对 Open-Reasoner-Zero 7B 的实验的奖励 / 准确度和平均响应长度曲线。训练奖励曲线和响应长度曲线分别表示生成的响应的平均奖励和每个生成步骤中生成的响应的平均长度。

可以看到，这些指标在整个训练过程中在两个模型和所有基准上都得到了持续的改进，并有值得注意的观察结果：OpenReasoner-Zero 表现出一种有趣的「阶跃时刻」现象，其中响应指标在训练过程中突然增加，这表明其涌现出了推理能力。

响应长度扩展与 DeepSeek-R1-Zero

如图 6 所示，可以看到整个训练过程中响应长度持续增加，没有饱和迹象，类似于 DeepSeek-R1-Zero 中看到的行为。

值得注意的是，虽然模型大小和训练步骤都有助于改善响应长度，但 Open-Reasoner-Zero-32B 模型仅用 1/5.8 的训练步数就实现了与 DeepSeek-R1-Zero (671B MoE) 相当的响应长度。这种卓越的训练效率证明了新的极简主义方法对大规模强化学习训练的有效性。

质量分析

该团队也对 Open-Reasoner-Zero 模型生成的响应进行了一些定性分析。为了分析模型的反思能力并观察像 DeepSeek-R1-Zero 这样的顿悟时刻，他们遵从之前的方法确定了五种代表性的反思模式（wait、recheck、retry、alternatively、however）。他们将包含任何这些模式的响应数量计为「反思响应」，并确定平均正确反思长度（包含获得正确答案的反思模式的响应的长度）。

如图 7 所示，在整个训练过程中，平均正确反思长度始终超过平均响应长度，这表明包含反思模式的响应利用了更多的「思考时间」来获得正确答案，类似于 OpenAI o1 中描述的测试时间扩展。

一个特别值得注意的现象出现在步骤 680 左右，该团队观察到三个指标同时加速：奖励、平均正确反思长度和平均响应长度。通过手动检查步骤 680 之前和之后的模型输出，该团队发现之后的响应中有更明显的反思模式。这种涌现行为值得进一步研究，该团队表示目前正在进行详细分析，以了解这种现象的潜在机制。

该团队也研究了新模型在知识和指令遵从基准 MMLU_PRO 和 IFEval 上的泛化能力，结果见表 2。

可以看到，Open-Reasoner-Zero 32B 模型表现出了强大的泛化能力：无需任何额外的指令微调，在 MMLU、MMLU_PRO 基准上，通过纯规模化强化学习训练在面向推理的任务上显著优于 Qwen2.5 Instruct 32B。

该团队也进行了详细的消融实验，详见原论文。

工程