DeepSeek-R1之后推理模型发展如何？Raschka长文梳理后R1时代14篇重要论文 - ai人工智能 - 透明七彩巨人-tmqcjr.com

近日，Deepseek R1 等一系列推理大语言模型已成为 2025 年最热门的话题之一。在过去的几周里，研究人员推出了许多改进推理的新策略，包括扩展简单测试 - 时间规模化（S1）、关联思维链（Chain of Associated thoughts）、Inner Transformer 等方法。

不仅如此，还有来自腾讯实验室的研究人员探索了 Thoughts Are All Over the Place，通过衡量不正确答案中的 token 效率来鼓励模型对每条推理路径进行更深入的探索；来自美国马里兰大学和橡树岭国家实验室等机构联合提出了 Recurrent Block，通过重复调用同一个循环体的方式，在推理阶段可以迭代任意多次；以及来自美国 Zoom 视频通讯公司的研究团队提出了 Chain of Draft（CoD），基于更接近人类推理的提示策略提出了草稿图，这是一种优先考虑效率和推理的提示词策略。

目前大语言模型推理技术研究虽在细分领域取得突破，但研究路径分散、成果碎片化，缺少推理模型发展研究现状的总结，因此系统性总结成破局关键。

前统计学教授，现 AI/ML 研究员 Sebastian Raschka 在综述《The State of LLM Reasoning Models》中探讨并总结了推理 LLM 的最新研究进展，特别关注自 DeepSeek R1 发布以来出现的推理时间计算扩展。

原文地址：https://magazine.sebastianraschka.com/p/state-of-llm-reasoning-and-inference-scaling

顺带一提，Sebastian Raschka 前段时间还曾写过另一篇与推理模型相关的长篇博客，感兴趣的读者可访问《 Sebastian Raschka：关于 DeepSeek R1 和推理模型，我有几点看法》。

首先该文章简要介绍了什么是 LLM 推理模型？

相较于仅分享最终答案的简单问答式 LLM 不同，推理模型是一种通过生成中间步骤或显式「思维」过程来解决多步骤问题的 LLM。其核心突破在于模拟人类思维过程，主要呈现三大特征：

过程透明化：通过思维链（CoT）等技术，将问题拆解为可解释的推理步骤，使模型决策路径可视化。
计算动态化：采用测试时间扩展（Test-Time Scaling）等策略在推理阶段动态分配更多计算资源处理复杂子问题。
训练强化：结合强化学习（如 RLHF）、对抗训练等方法，利用高难度推理任务数据集（如 MATH、CodeContests）进行微调，提升符号推理与逻辑连贯性。

通过我们日常和 Deepseek 的交流可以看到，推理模型明确的展示了其思维过程，结合实际应用场景中来看，这有助于我们理解模型的决策过程，这在需要高度信任的应用场景中尤为重要，比如医疗诊断或金融投资。

那么如何提高大模型推理的推理能力呢？

该文章表示一般来说有两种核心策略：

增加训练计算，即通过扩展训练数据量、强化学习或针对特定任务的微调来增强模型能力；
增加推理计算，也称为推理时间扩展或测试时间扩展，即在模型生成输出时分配更多计算资源，允许模型 “思考更长时间” 或执行更复杂的推理步骤。

如上图所示，研究人员分别通过训练时间计算或测试时间计算来改进推理。值得注意的是，虽然这两种策略可以独立使用，但实际应用中，LLM 的推理能力优化通常需要结合两者。

具体来说，通过大量训练计算（如使用强化学习或专门数据集的深度微调）来提升模型的基础能力，同时通过增加推理计算（如动态扩展推理步骤或执行额外计算）来进一步增强其在复杂任务中的表现。

这种联合策略的使用能够显著提升 LLM 在数学推导、代码生成等，促进了 LLM 在多步推理的任务中的准确性和可靠性。

推理模型的主要类别

为了深入探究推理模型的开发过程，作者在综述中还列举了一些增强模型推理能力的主要方法：

推理时间计算扩展
纯强化学习
强化学习和监督微调
监督微调和模型提炼

从图中能够清晰看到，无论是采用纯强化学习方法，还是将强化学习与监督学习相结合，亦或是单纯运用监督学习方法，模型通常都会生成较长的响应内容，其中涵盖了推理的中间步骤以及详细解释。然而，推理成本是与响应长度呈正相关的，这就意味着，上述这些训练方法本质上与推理时间扩展密切相关。

针对这一问题，这篇综述聚焦于推理时间扩展的研究，着重探讨了那些明确调节生成 token 的技术，包括通过额外的采样策略、自我校正机制等方法。这些技术通过不同的优化方式，直接作用于推理时间扩展这一关键维度，从而显著提升计算效率。

推理时间计算扩展方法

在该综述里，广泛涵盖了测试时扩展、训练时扩展、推理时扩展以及推理计算时间扩展等多个方面的内容。目前而言，最简单直接的推理时间扩展方法即通过增加推理过程中的计算资源来改善 LLM 的推理。其背后改善推理效果的原理，可做如下形象类比：当给予人类更多思考时间时，他们会给出更好的反应，同理，LLM 可以通过鼓励在生成过程中进行更多「思考」的技术来改进。

提示词工程也是一种方法，如思维链 (CoT) 提示，其中 “逐步思考” 等短语指导模型生成中间推理步骤。这提高了复杂问题的准确性，但对于简单的事实查询而言是不必要的。并且，由于 CoT 提示会促使模型生成更多的 tokens，这实际上会增加推理成本。

除了上述提到的增加计算资源、提示词工程方法外，还有另一种方法即涉及到投票和搜索策略，例如多数投票或波束搜索，这些策略通过选择最佳输出来优化响应。

1.「s1：简单测试 - 时间规模化」

论文标题：s1: Simple test-time scaling
代码地址: https://arxiv.org/pdf/2501.19393

在推理时间计算扩展研究前沿，2025 年 1 月由斯坦福大学的研究团队提出的《Simple Test-Time Scaling》引入了「wait」token 机制。具体而言，当我们希望模型在某个问题上花费更多测试阶段的计算资源，会抑制思考结束词中分隔符的生成，而是在模型当前的推理过程中追加「wait」token，以鼓励模型进行更多探索。

并且，该研究中的预算强制技术（budget forcing）的主要机制包含以下两个方面：

强制结束推理：当模型生成超过预设的「思考」token 数量时，模型的思考过程被强制结束。
延长推理时间：如果希望模型在解决问题时花费更多的计算预算，则不生成「结束思考」token，而是在当前的推理结果上附加多个「wait」token，这样模型可以继续思考。

可以确保模型在推理过程中使用特定计算预算的控制机制。通过控制模型的推理时间或步骤数，支持更有效的推理和错误更正。

Test-Time Scaling 技术的核心在于通过动态调配计算资源进行「临场特训」，使得模型在遇到具体问题时能够展现出惊人的推理能力。这种技术突破解决了传统 AI 模型训练成本高、能源消耗大、创新门槛高等问题。

详见人工智能站报道《训练 1000 样本就能超越 o1，李飞飞等人画出 AI 扩展新曲线》。

2.「测试偏好优化框架」

论文标题：Test-Time Preference Optimization: On-the-Fly Alignment via Iterative Textual Feedback
代码地址: https://arxiv.org/pdf/2501.12895

‌Test-Time Preference Optimization（TPO）‌是一种新的框架，其核心目标在于使 LLM 在推理过程中快速对齐人类偏好，而无需重新训练模型参数。在每次迭代时，模型会按以下步骤执行操作：

针对给定的提示生成多个响应
运用奖励模型对响应进行评分，以选择得分最高和最低的响应作为 “选定” 和 “拒绝” 响应
提示模型比较和批评 “选定” 和 “拒绝” 响应
通过将批评转换为文本建议来更新原始模型响应，从而优化输出

通过执行上述迭代步骤，模型能够不断汲取每次迭代的经验教训，逐步修正原始响应中不符合人类偏好的部分，使 LLM 的输出更加贴合人类的期望和需求。

3.「思绪万千」

论文标题：Thoughts Are All Over the Place:On the Under thinking of o1-Like LLMs
代码地址: https://arxiv.org/pdf/2501.18585

研究团队发现了一种称为「underthinking（思考不足）」的现象，即推理模型频繁在推理路径之间切换，而不是完全专注于探索有希望的路径，这降低了解决问题的准确性。

为了解决这个「思考不足」问题，研究人员引入了一种称为思维转换惩罚 (TIP) 的策略，该策略修改了思维转换 token 的逻辑，以阻止过早的推理路径转换。且实验研究证明该方法不需要模型微调，并且在实验中提高了在多个高难度测试集上的准确性。

4.「用推理时间计算换取对抗鲁棒性」

论文标题：Trading Inference-Time Compute for Adversarial Robustness
代码地址: https://arxiv.org/pdf/2501.18841

该研究显示在众多情况下，延长推理时间计算能够提高推理 LLM 的对抗鲁棒性，进而降低成功攻击的概率。与传统的对抗训练不同，这种方法不需要任何特殊训练，也不需要事先了解特定的攻击类型，具有显著的便捷性和通用性。

然而，这种方法也并非在所有场景中都能发挥理想效果。例如，在涉及策略模糊性或者可被利用漏洞的环境里，该方法改进是有限的。此外，推理改进的鲁棒性增加可能会被「Think Less」和「Nerd Sniping」等新攻击策略所削弱。

5.「联想思维链」

论文标题：CoAT: Chain-of-Associated-Thoughts Framework for Enhancing Large Language Models Reasoning
代码地址: https://arxiv.org/pdf/2502.02390

Chain-of-Associated-Thoughts（CoAT）框架‌是一种用于增强大型语言模型推理能力的新方法，该框架巧妙地将蒙特卡洛树搜索（MCTS）算法与关联记忆机制相结合，通过结构化探索与自适应学习，有效扩展了大型语言模型的搜索空间。

CoAT 框架的核心工作原理如下：

蒙特卡洛树搜索（MCTS）‌：MCTS 算法用于结构化探索，帮助模型在决策过程中进行多步骤的推理。
关联记忆机制‌：一种用于集成新的关键信息的动态机制，能够根据上下文和推理过程中的需要，不断更新和补充相关信息，从而增强模型的自适应学习能力。

通过将 MCTS 的结构化探索与关联记忆的动态学习紧密结合，CoAT 显著扩展了大型语言模型的搜索空间，提升了其在复杂推理任务中的表现‌。

6.「自我回溯以促进推理」

论文标题：Step Back to Leap Forward: Self-Backtracking for Boosting Reasoning of Language Models
代码地址: https://www.arxiv.org/pdf/2502.04404

来自南京大学的研究团队提出了一种通过自我回溯（self-back tracking）来提升语言模型推理能力的方法，这种方法的核心思想是让语言模型在解决具体问题时，先从宏观角度进行抽象，然后再回到细节层面进行具体推理。

该方法包含两个主要步骤：

抽象阶段‌：模型首先被要求回答一个更一般的问题，这个问题是对原始具体问题的抽象。
推理阶段‌：基于抽象阶段得到的一般结论，模型再回到具体问题上进行推理，从而得出最终的答案。

实验结果显示，在 STEM（科学、技术、工程和数学）问题、知识问答以及多跳推理任务等场景中，这种自我回溯方法的效果显著优于传统的思维链（CoT）方法。

7.「基于深度循环隐空间推理」

论文标题：Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach
代码地址: https://arxiv.org/pdf/2502.05171

在提升模型推理能力的探索中，研究人员并未遵循生成更多 token 以改进推理的常规思路，而是提出了一个通过在潜在空间中迭代循环深度块来扩展推理时间计算的模型。这个深度块的功能类似于 RNN 中的隐藏状态，它允许模型改进其推理而不需要更长的 token 输出。

研究团队还进一步将一个概念验证模型进行了扩展，使其具备 35 亿参数和 8000 亿 token。在推理基准测试中，该扩展后的模型展现出了显著的性能提升，部分情况下其计算负载效果甚至可与拥有 500 亿参数的模型相媲美。

不过，一个关键短板在于该模型缺少清晰明确的推理步骤。对于用户和研究人员而言，清晰的推理步骤能够极大地提升模型的人类可解释性。而这恰恰是思维链方法的一项主要优势所在。

8.「1B LLM 可以超越 405B LLM 吗？」

论文标题：Can 1B LLM Surpass 405B LLM? Rethinking Compute-Optimal Test-Time Scaling
代码地址: https://arxiv.org/pdf/2502.06703

在提升大型语言模型（LLM）推理能力的相关研究中，许多推理时间扩展技术依赖于采样，这需要过程奖励模型 (PRM) 来选择最佳解决方案。这篇研究成果就对推理时间计算扩展与 PRM、问题难度之间的相互作用展开了系统分析。

研究人员开发了一种计算优化扩展策略，该策略可适应 PRM、策略模型和任务复杂性的选择。实验结果表明，通过正确的推理时间扩展方法，1B 参数模型可以胜过缺乏推理时间扩展的 405B Llama 3 模型。

同样地，研究还展示了配备推理时间扩展技术的 7B 模型不仅能够超越 DeepSeek-R1，还能保持更高的效率。这些发现凸显了推理时间扩展对于大语言模型（LLM）性能提升的显著作用，其中具有正确推理计算预算的小型 LLM 可以胜过更大的模型。

9.「重新思考计算最优测试时间扩展」

论文标题：Learning to Reason from Feedback at Test-Time
代码地址: https://arxiv.org/pdf/2502.15771

区别于前几种成果的思路，该研究的核心在于通过推理时动态调整大语言模型（LLM）的权重参数，使其能够从错误中学习，而无需将失败的尝试存储在提示（prompt）中，从而避免了高昂的成本。与传统的通过将先前的尝试添加到上下文中进行顺序修正或盲目生成新答案的并行采样不同，该方法在推理时直接更新模型的权重。

为实现这一目标，研究者提出了 OpTune，这是一种小型、可训练的优化器，能够根据模型在先前尝试中犯的错误更新模型的权重。这意味着模型会记住它做错了什么，而无需在提示 / 上下文中保留错误的答案。这种方法不仅提高了模型的自我修正能力，还显著降低了推理过程中的计算和存储开销。

10.「推理时间计算在大型语言模型（LLM）推理和规划中的应用」

论文标题：Inference-Time Computations for LLM Reasoning and Planning: A Benchmark and Insights
代码地址: https://www.arxiv.org/pdf/2502.12521

针对推理和规划任务的各种推理时间计算扩展技术进行了基准测试，该文章重点分析了它们在计算成本和性能之间的权衡。

在具体的实验里，研究人员评估了多种技术，例如思维链、思维树和推理规划，涉及算术、逻辑、常识、算法推理和规划等 11 个任务，细致地覆盖了多个领域的推理和规划场景。

实验结果表明，虽然扩展推理时间计算可以改善推理，但没有一种技术在所有任务中始终优于其他技术。这也侧面说明了目前在不同的推理和规划任务中，还需要根据具体情况灵活选择合适的推理时间计算扩展技术，以在计算成本和性能之间找到最佳平衡。

11.「内部思维 Transformer」

论文标题：Inner Thinking Transformer: Leveraging Dynamic Depth Scaling to Foster Adaptive Internal Thinking
代码地址: https://arxiv.org/pdf/2502.13842

面对需要处理复杂推理的关键 token 时，大型语言模型（LLM）在参数约束下会出现固有的性能瓶颈。针对这个问题，内部思维 Transformer (The Inner Thinking Transformer，ITT) 的解决思路是在推理过程中动态分配更多计算资源。

具体而言，ITT 通过自适应路由 token（Adaptive Token Routing）动态分配计算资源，通过残差思考连接迭代地优化表征，让这些困难的 token 多次通过同一层进行额外处理，从而使得 ITT 能够在不增加参数的情况下对关键的 token 进行更深入的处理。

12.「突破性框架 S*」

论文标题：Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters
代码地址: https://arxiv.org/pdf/2408.03314

传统的代码生成模型往往依赖于更大的参数量来提升性能。但是，新提出的 S * 框架通过一种巧妙的方式，让小模型也能发挥出大模型的实力。这个框架主要包含两个关键创新：

混合扩展策略：结合了并行采样和顺序调试，大幅提升了代码生成的覆盖率
自适应选择机制：通过智能生成测试用例来区分不同的代码方案，并通过实际执行结果来选择最佳答案

S* 是一个两阶段混合测试时缩放框架，由生成和选择阶段组成，如下图所示。它通过迭代调试扩展并行采样与顺序采样以提高覆盖率，并在选择过程中采用自适应输入合成来增强选择准确性，在整个过程中利用执行结果。不同阶段的效果示例可以在下图中找到。

阶段 1 ：在生成阶段，模型 S* 生成多个代码解决方案，并使用问题提示词中提供的执行结果和测试用例迭代细化它们。(1) 模型生成多个候选解决方案。(2) 每个解决方案都在公共测试用例（预定义的输入输出对）上执行。(3) 如果解决方案失败（输出不正确或崩溃），模型会分析执行结果（错误、输出）并修改代码以改进它。(4) 此改进过程不断迭代，直到模型找到通过测试用例的解决方案。
阶段 2：在选择阶段，S* 在生成 N 个候选解决方案后，下一步是识别最佳解决方案。(1) 模型比较两个都通过公开测试的解决方案。(2) 生成的测试用例，它使用合成的测试用例来指导选择。(3) 将新的测试输入并在其上运行两个解决方案。(4) 如果一个解决方案产生正确的输出而另一个失败，则模型会选择更好的解决方案。(5) 如果两种解决方案的表现相同，模型将随机选择其中一个。

S* 框架的效果非常不错，其在模型性能提升方面展现了显著优势：

小模型逆袭：在 S* 框架加持下，Qwen2.5-7B 模型的性能表现超越其原生 Qwen2.5-32B 版本，实现了 10.7% 的性能跃升，充分展现了小模型在优化框架下的巨大潜力。
性能突破：GPT-4o-mini 模型在集成 S* 框架后，性能表现超越了 o1-preview 版本，提升幅度达到 3.7%，成功突破了原有性能天花板。
顶尖追平：通过 S 框架的优化，DeepSeek-R1-Distill-Qwen-32B 模型的性能达到 85.7%，与当前业界领先的 o1-high 模型（88.5%）仅相差 2.8 个百分点，展现出极强的竞争力。

这些成果充分证明了 S * 框架在模型性能优化方面的卓越能力，为 AI 模型的发展开辟了新的可能性。

13.「草稿链 Chain of Draft」

论文标题：Chain of Draft: Thinking Faster by Writing Less
代码地址: https://arxiv.org/pdf/2502.18600

研究人员观察到，思维链 (CoT) 之类的技术在大语言模型 (LLM) 推理任务上通常会生成冗长的分步解释，但人类通常依赖于仅捕获基本信息的简洁草稿。

受此启发，他们提出了 Chain of Draft (CoD)，这是一种通过生成最少但信息丰富的中间步骤来减少冗长的提示策略。因此从本质上讲，它是一种推理时间扩展方法，通过生成更少的 token 来提高推理时间扩展的效率。

实验结果表明，CoD 的提示长度几乎与标准提示相当，但其准确性却与思维链（CoT）提示不相上下。推理模型的一大优势在于用户可以通过阅读推理过程来学习并更好地评估和信任模型的响应。虽然 CoD 在一定程度上削弱了这一优势，但它在无需冗长中间步骤的场景中展现出巨大潜力 —— 它不仅能够显著加快生成速度，还能保持 CoT 的准确性。因此 CoD 为高效推理提供了一种更具实用性的解决方案。

详见人工智能站报道《全新 CoD 颠覆推理范式，准确率接近但 token 消耗成倍降低》。

14.「更好的反馈和编辑模型 Better Feedback and Edit Models」

论文标题：Dedicated Feedback and Edit Models Empower Inference-Time Scaling for Open-Ended General-Domain Tasks
代码地址: https://arxiv.org/pdf/2503.04378

许多扩展推理时间推理的技术依赖于具有可验证答案的任务（如可以检查的数学和代码），这使得它们很难应用于写作和一般问题解决等开放式任务。

为了解决可验证答案的这种限制，研究人员开发了一个系统，其中一个模型生成初始响应，另一个模型提供反馈「反馈模型」，第三个模型根据该反馈改进响应「编辑模型」。

为了确保这些模型的有效性，研究人员使用大量人工注释的响应和反馈数据集来训练这些专门的 “反馈” 和 “编辑” 模型。然后，这些模型通过在推理时间内生成更好的反馈和进行更有效的编辑来帮助改进响应。

总结

可以看到，现有的许多推理模型技术包括简单的基于 token 的干预措施到复杂的基于搜索和优化策略，它们的核心目标是增加推理计算量，甚至可以让相对较小的模型实现显著的改进。这表明推理策略可以帮助缩小较小、更具成本效益的模型与较大模型之间的性能差距。

成本警告

尽管推理时间扩展能够显著提升模型性能，但其带来的推理成本增加是一个不容忽视的问题。因此，在实际应用中， 开发者需要在「使用具备大量推理扩展的小模型」与「训练更大模型但减少或不进行推理扩展」之间进行权衡。这种权衡必须基于数学计算，并结合模型的实际使用量来评估。

举例来说，使用重度推理时间缩放的 o1 模型实际上仍然比可能不使用推理时间缩放的更大的 GPT-4.5 模型稍微便宜一些。

然而，推理时间扩展并非万能之策。尽管像蒙特卡罗树搜索、自我回溯和动态深度缩放等技术，虽能显著提升推理性能，但效果仍取决于具体任务及其难度。正如早期一篇论文所指出的， 没有哪种推理时计算扩展技术能在所有任务中都表现最佳。

此外，许多此类方法为提升推理能力而牺牲了响应延迟，而较慢的响应延迟可能会影响用户体验，甚至让部分用户感到厌烦。

展望未来

基于上述研究成果，未来大家可能将看到更多「围绕通过推理时间计算扩展进行推理」研究的两个主要分支的论文：

纯粹以开发超越基准的最佳模型为中心的研究。
关注在不同推理任务之间平衡成本和性能权衡的研究。

推理时计算扩展的优势在于，它可以应用于任何现有的大语言模型，使其在特定任务上表现得更为出色。

在 DeepSeek R1 发布之后，行业出现了一个引人注目的趋势，即「按需思考」。 各家公司纷纷竞相为其产品增添推理功能，以提升模型在复杂任务中的表现。

作者表示：还有一个值得关注的发展动态，大多数大语言模型（LLM）提供商开始为用户提供启用或禁用「思考」功能的选项。目前该机制并未公开，不过它可能与具备回拨推理时间计算扩展的是同一模型。

总体而言，无论是借助推理时间计算扩展，还是训练时间计算扩展来添加推理能力，这一趋势都是 2025 年大语言模型发展向前迈出的重要一步。

最后，可以预计随着时间的推移推理将不再被视作可选或特殊的功能，而是会成为一种标准配置，就如同如今指令微调或基于人类反馈的强化学习（RLHF）调整模型已成为原始预训练模型的常规操作一样。

理论 DeepSeek Raschka