为什么明明很准,奖励模型就是不work?新研究:准确度 is not all you need
- 2025-03-24 13:12:00
- 刘大牛 转自文章
- 239
训练狗时不仅要让它知对错,还要给予差异较大的、不同的奖励诱导,设计 RLHF 的奖励模型时也是一样。

论文标题:What Makes a Reward Model a Good Teacher? An Optimization Perspective 论文链接:https://arxiv.org/pdf/2503.15477

在最小对比对上进行训练:可以人工合成这些对比对,要求奖励模型能够可靠地为其中一个输出赋予略高的分数。 从生成式奖励模型中计算连续奖励:通过取 token 概率和分数的加权和来实现。 结合监督微调(SFT)、均方误差(MSE)和偏好损失:这些方法使模型能够生成推理依据,优化其连续奖励,并有效地从最小对比对中学习!















发表评论
文章分类
联系我们
联系人: | 透明七彩巨人 |
---|---|
Email: | weok168@gmail.com |