
原文地址:https://sebastianraschka.com/blog/2025/understanding-reasoning-llms.html

如何定义「推理模型」? 应该何时使用推理模型? 简要了解 DeepSeek 训练流程 构建和改进推理模型的 4 种主要方法
对 DeepSeek R1 的一些思考 在有限的预算下开发推理模型



演绎或归纳推理(例如解密、数学证明) 思维链推理(分解成多步骤问题) 复杂的决策任务 能更好地泛化到新问题
快速且低成本的响应(更多推理时间) 基于知识的任务(幻觉) 简单任务(过度思考)



论文标题:Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters 论文地址:https://arxiv.org/pdf/2408.03314


准确度奖励使用 LeetCode 编译器来验证编码答案,并使用确定性系统来评估数学响应。 格式奖励依靠 LLM 评判员来确保响应遵循预期格式,例如将推理步骤放在标签内。



推理时间扩展,这是一种无需训练或以其他方式修改底层模型即可提高推理能力的技术。 纯 RL,如 DeepSeek-R1-Zero,它表明推理可以在没有监督微调的情况下成为一种学习行为。 SFT + RL,这得到了 DeepSeek 的旗舰推理模型 DeepSeek-R1。

较小的模型效率更高。这意味着它们运行起来更便宜,但它们也可以在低端硬件上运行,这对许多像我一样的研究人员和修补匠来说尤其有趣。 纯 SFT 案例研究。这些蒸馏模型可作为有趣的基准,展示纯监督微调 (SFT) 在没有 RL 的情况下可以让模型走多远。


Qwen-32B 使用 SFT + RL 进行训练,类似于 DeepSeek-R1 的开发方式。这将有助于确定当 RL 与 SFT 结合时,与纯 RL 和纯 SFT 相比可以取得多大的改进。 DeepSeek-V3 使用纯 SFT 进行训练,与创建蒸馏模型的方式类似。这样可以直接比较,看看 RL + SFT 相对于纯 SFT 的效果如何。
推理时间扩展不需要额外的训练,但会增加推理成本,随着用户数量或查询量的增加,大规模部署的成本会更高。不过,对于已经很强大的模型来说,提高性能仍然是明智之举。我强烈怀疑 o1 利用了推理时间扩展,这有助于解释为什么与 DeepSeek-R1 相比,它在每 token 基础上的成本更高。 纯 RL 对于研究目标来说很有趣,因为它可以提供推理作为一种涌现行为的洞察。然而,在实际的模型开发中,RL + SFT 是首选方法,因为它可以产生更强大的推理模型。我强烈怀疑 o1 也是使用 RL + SFT 进行训练的。更准确地说,我相信 o1 从比 DeepSeek-R1 更弱、更小的基础模型开始,但通过 RL + SFT 和推理时间扩展进行了补偿。 如上所述,RL + SFT 是构建高性能推理模型的关键方法。DeepSeek-R1 是一个很好的蓝图,展示了如何做到这一点。 蒸馏是一种有吸引力的方法,尤其是用于创建更小、更高效的模型。然而,蒸馏的局限性在于它不会推动创新或产生下一代推理模型。例如,蒸馏总是依赖于现有的、更强大的模型来生成监督微调 (SFT) 数据。
o1 也是 MoE 吗? o1 有多大? o1 可能只是 GPT-4o 的稍微改进版本,具有最少的 RL + SFT 和仅广泛的推理时间扩展吗?


捷径学习是指指令微调的传统方法,其中仅使用正确的解决方案路径来训练模型。 另一方面,旅程学习也包括错误的解决路径,让模型从错误中学习。
