为什么明明很准，奖励模型就是不work？新研究：准确度 is not all you need - ai人工智能 - 透明七彩巨人-tmqcjr.com

训练狗时不仅要让它知对错，还要给予差异较大的、不同的奖励诱导，设计 RLHF 的奖励模型时也是一样。

我们知道，一个 RLHF 算法是否成功的一大关键在于其奖励模型（RM）的质量。但是，我们应该如何衡量 RM 的质量呢？近日，普林斯顿大学一个研究团队发现，如果仅用准确度来衡量 RM 的质量，可能无法完全体现一个奖励模型作为有效教师的特性。为此，他们选择了从优化角度来研究这个问题。

论文标题：What Makes a Reward Model a Good Teacher? An Optimization Perspective
论文链接：https://arxiv.org/pdf/2503.15477

在这篇论文中，他们证明：无论奖励模型有多准确，如果它会导致奖励方差较低，那么 RLHF 目标优化起来就会比较缓慢。即使是完全准确的奖励模型也会导致优化速度极其缓慢，性能表现赶不上会导致奖励方差较高但准确度较低的模型。

他们还表明，对一种语言模型有效的奖励模型可能会让另一种语言模型的奖励方差较低，从而导致优化过程变得缓慢。

这些结果说明：如果在设计奖励模型时仅基于准确度或不考虑具体的语言模型，那么就会遭遇一些根本性的限制。总体而言，除了准确度之外，奖励模型还需要诱导出足够的方差才能实现有效优化。

考虑到强化学习与生物大脑学习机制具有一定的共通性，于是我们求助了 Claude，让它通过「人训练狗」的类比给我们提供了更为直观易懂的解释：

看起来这个解释还不错？

这项工作吸引了不少研究者的注意。其中，来自斯坦福大学的 AI 研究者Rajan Vivek 不止肯定了该工作的价值，还给出了一些让奖励更加细粒度（诱导奖励方差）的技巧，包括：

在最小对比对上进行训练：可以人工合成这些对比对，要求奖励模型能够可靠地为其中一个输出赋予略高的分数。
从生成式奖励模型中计算连续奖励：通过取 token 概率和分数的加权和来实现。
结合监督微调（SFT）、均方误差（MSE）和偏好损失：这些方法使模型能够生成推理依据，优化其连续奖励，并有效地从最小对比对中学习！

下面继续来看原论文给出的更为技术化的描述。

从优化视角看如何设计优良的奖励模型

该团队研究的是通过策略梯度最大化 RLHF 目标（如下 (1) 式）时预期的真实奖励 r_G 增加到所需量所需的时间。这个时间越短越好。

他们证明，如果奖励模型 r_RM 会为初始策略引入较低的奖励方差，则由于目标图景平坦，r_RM 和 r_G 都会以较慢的速度增加。因此，为了实现高效优化，r_RM 需要确保奖励方差不会太低。

之后，他们确立了奖励方差和优化率之间关系的两个主要含义。

1、由于奖励方差与准确度没有绑定，因此更准确的奖励模型不一定是更好的教师。

2、由于相同的奖励模型可能会给一种策略引入较高的奖励方差，但为另一种策略引入较低的奖励方差，因此对于不同的初始策略，使用不同的奖励模型会有更好的效果。

图 1 展示了准确度与奖励方差对 RLHF 目标图景的影响。

具体来说，准确度和奖励方差体现了奖励模型的不同方面：前者控制着与 ground truth 奖励的对齐，而后者决定了目标图景的平坦度。

准确度越低，奖励模型越容易受到奖励 hacking 攻击 —— 奖励模型认为有益的方向可能并不会提升 ground truth 奖励。另一方面，即使奖励模型完全准确，低奖励方差也意味着平坦的图景有碍策略梯度方法的效率。

低奖励方差意味着最大化奖励的速度缓慢

这里将预期奖励所需的时间下限设为一个加法常数。定理 1 表明，这个时间的增长与

成反比，这是 r_RM 针对初始策略与训练集 S 中的提示词得到的平均奖励方差。这样一来，如果提示词 x ∈ S 的

较低（即当 r_RM 无法充分地分离在初始策略下可能的输出时），则策略梯度就会出现优化速度慢的问题。

定理 1 是原论文中定理 4 的精简版，对其的证明请访问原论文附录部分。

众所周知，低奖励方差意味着通过 softmax 产生下一 token 分布的策略出现了梯度消失现象。

具体而言，对于任何提示词 x 和策略 π_θ，

都会随着

衰减。然而，仅凭这一点并不能得到令人满意的奖励最大化率下限，因为如果没有进一步的知识，梯度范数可能会在训练过程中迅速增加。

但研究表明情况并非如此：当奖励方差较低时，RLHF 目标的高阶导数会与梯度一起消失，从而阻止梯度范数的快速增加。这会限制策略参数 θ(t) 的移动，从而导致奖励增长率的下限。

更准确的奖励模型不一定是更好的教师

上一小节表明：低奖励方差会阻碍策略梯度的效率。值得注意的是，奖励方差与通常用于评估奖励模型的指标（准确度）无关。准确度仅取决于奖励模型如何排序不同的输出，而不考虑其奖励之间的分离程度，而奖励方差则由这种分离程度决定。定理 2 确定的一个关键含义是：准确的奖励模型 r_RM 也可能有较低的奖励方差。

需要明确一下，定理 2 考虑了两点：(i) 存在 r_RM 完全准确而 r′_RM 几乎完全不准确的极端情况；(ii) 对于提示词 x 和奖励模型 r_RM，关于无序输出对的均匀分布的准确度用 accx (rRM) 表示。关于该定理的详细版本（定理 5）的证明请访问原论文附录。

该团队指出，定理 2 并不意味着高准确度的奖励模型就一定是糟糕的教师。事实上，在几乎任何准确度水平上，一些奖励模型都会导致优化低效，而其他奖励模型则表现良好。定理 2 只是形式化了准确度本身不足以评估 RLHF 中的奖励模型的原因。

尽管如此，准确度仍是一个需要努力追求的属性，因为更准确的模型通常不太容易受到奖励 hacking 攻击。也就是说，当使用不完美的奖励模型进行训练时，由于两个奖励不匹配，最终 ground truth 奖励可能会开始减少。因此，通常的做法是只运行几个 epoch 的策略梯度。定理 2 体现到了这种情况，其中准确度较低的奖励模型可以通过推动 ground truth 奖励的更快增加而胜过更准确的奖励模型。

准确度的作用取决于对齐方法。虽然准确度本身并不能保证 RLHF 的有效性，但其重要性因对齐方法而异。例如，在 Best-of-N 采样中，很容易证明完全准确的奖励模型始终是最佳的。

对于不同的初始策略，不同的奖励模型更好

奖励方差取决于奖励模型和策略。特别是，对一个策略产生高奖励方差的奖励模型可能会对另一个策略产生低奖励方差。因此，奖励方差和优化之间的联系意味着对于不同的初始策略，使用不同的奖励模型会更好，见定理 3。这表明，为了忠实地评估 RLHF 的奖励模型，需要考虑正在对齐的策略。

实验结果

在实验部分，作者验证了从理论分析中得出的结论在实践中是成立的。

首先，他们表明，在策略梯度期间，奖励方差与奖励最大化率密切相关。具体来说，在固定训练预算下，更准确的奖励模型如果产生较低的奖励方差，反而可能导致性能下降。更令人意外的是，这一现象甚至适用于真实（ground truth）奖励本身：作者发现，即使能够直接获取真实奖励，在某些情况下使用代理奖励模型反而能取得更好的效果。

如下图 2 所示，作者使用一些奖励模型，通过策略梯度方法（RLOO）训练了一个 Pythia-2.8B 语言模型。这些奖励模型的特性如表 1 所示。作为对比，作者还直接使用真实奖励进行了策略梯度训练。图 2 展示了代理奖励（左图，即用于训练的奖励）和真实奖励（右图）随训练轮数增加的变化情况。与定理 2 一致，一个完美、准确但导致低奖励方差的奖励模型（红色标记）的表现不如一些准确度较低的模型。更有趣的是，在最初几轮训练中，使用代理奖励模型的效果甚至优于直接优化真实奖励。

图 7 展示了一个这种差距更为明显的实验。

接下来，作者证明了对于不同的语言模型，不同的奖励模型会带来更高的真实奖励。如下图 3 所示，作者使用公开可用的奖励模型，通过策略梯度方法（RLOO）在 UltraFeedback 的提示上训练了不同的语言模型；奖励模型的特性见表 9。图中数据显示，与定理 3 一致，能够产生最高真实奖励的奖励模型会随着初始策略的不同而变化。

有关这些实验的更多详情以及定理证明请参阅原论文。

工程 RLHF

联系人：	透明七彩巨人
Email：	weok168@gmail.com