华人研究团队揭秘:DeepSeek-R1-Zero或许并不存在「顿悟时刻」
- 2025-02-07 13:52:00
- 刘大牛 转自文章
- 281
自我反思(尤其是肤浅的)有时对模型性能的助益不大。

模板 1(与 R1-Zero 相同)

模板 2(与 SimpleRL-Zero 相同)




行为 1:自我反思,反复检查以确认正确答案(图 3a);
行为 2:自我反思,纠正最初错误的想法(图 3b 和图 2);
行为 3:自我反思,在原本正确的答案中引入错误(图 3c);
行为 4:反复自我反思,但未能得出有效答案(图 3d)。





在倒计时(Countdown)任务上复制 R1-Zero 以分析输出长度动态;
在数学问题上复制 R1-Zero 以研究输出长度与自我反思之间的关系。


在 88 步之前的训练以塑造奖励 (r=0.1) 为主,通过调整模型使其在生成 token 预算内停止并在 <answer> </answer > 块内格式化答案,从而可以更轻松地进行优化。在此期间,冗长的错误响应受到抑制,平均响应长度急剧下降。
在第 88 步,模型开始通过输出更多重试(retries)来「爬上奖励山」,朝着更高的奖励(r=1 表示正确性)攀登。因此,我们观察到正确响应的长度增加。伴随而来的副作用是,模型输出更多冗长的肤浅自我反思,导致平均响应长度激增。
整个 RL 过程是将原本肤浅的自我反思转变为有效的自我反思,以最大化预期奖励,从而提高推理能力。


发表评论
文章分类
联系我们
联系人: | 透明七彩巨人 |
---|---|
Email: | weok168@gmail.com |