o1也会「想太多」?腾讯AI Lab与上海交大揭秘o1模型过度思考问题

图片

AIxiv专栏是人工智能站发布学术、技术内容的栏目。过去数年,人工智能站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文的共同通讯作者为涂兆鹏和王瑞,涂兆鹏为腾讯专家研究员,研究方向为深度学习和大模型,在国际顶级期刊和会议上发表学术论文一百余篇,引用超过9000次。担任SCI期刊NeuroComputing副主编,多次担任ACL、EMNLP、ICLR等国际顶级会议领域主席。王瑞为上海交通大学副教授,研究方向为计算语言学。共同第一作者为上海交通大学博士生陈星宇、何志威,腾讯AI Lab高级研究员徐嘉豪、梁添。

本文将介绍首个关于 o1 类长思维链模型过度思考现象。该工作由腾讯 AI Lab 与上海交通大学团队共同完成。
图片
  • 论文题目:Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs

  • 论文地址:https://arxiv.org/pdf/2412.21187

背景与动机


自 OpenAI 发布 o1 模型以来,它超强的逻辑推理以及难题解决能力就引发了广泛关注。o1 模型通过模拟人类的深度思考过程,在思维链中运用如 自我反思、纠错以及探索多种解法等推理策略,展现了强大的长时间推理(Inference-Time Scaling)性能。依靠这种机制,o1 模型能够不断优化自身的答案质量。然而,在 o1 成功的光环下,一个潜在问题逐渐被放大 ——  过度思考


随着 o1 模型的问世,许多类似的模型也陆续出现,比如 Qwen 团队开源的 QwQ-32B-Preview [1] 以及 Deepseek 推出的 R1-Preview [2] 模型。这些模型在推理时同样具备 “深度思考” 的特性,但也暴露出了类似的问题: 在不必要的情况下生成过长的思维链反而浪费了计算资源。举一个简单的例子,对于问题 “2+3=?”,不同模型的回答长度如下图所示:
图片
传统模型的回答通常只需要极少的 token 就能给出答案,然而对于 o1 模型,其消耗的推理 token 直接达到了 200 以上。更极端的是,Deepseek-R1-Preview 和 QwQ-32B-Preview 的 token 消耗甚至达到了 900!为什么 QwQ 模型会产生如此之长的输出?研究团队进一步分析了 QwQ 对这个问题的答案,结果见下图右栏:
图片
QwQ-32B-Preview 模型会在推理过程中尝试多种不同的解题策略。对于简单的加法问题,模型探索了直接使用数学计算、数轴移动模拟,以及类比数苹果等方法,经历了多轮推理后才最终确定结果。尽管这种思维链策略对于复杂问题的解答非常有帮助,但在应对简单问题时,反复验证已有的答案和进行过于宽泛的探索显然是一种计算资源的浪费。为了更好地研究这个问题,研究团队对这类 o1 模型的过度思考现象进行了更细致的定义和深入分析。


过度思考现象


文章首先定义了模型回复中的独立解答(Solution):每当模型完整地得到一次对输入问题的答案(无论对错),这就被认为是一个独立解答。如例子所示,每一个解答都包含了答案 “5”。基于这个定义,研究人员在三个不同的数据集上统计了 Qwen-QwQ-32B-Preview 模型和 Deepseek-R1-Preview 模型的解答数量分布(解答的判断和抽取由 Llama-3.3-70B 模型完成):
图片
其中,ASDIV [3] 是一个包含小学难度数学题的测试集,GSM8K [4] 是常用的初级难度数学题测试集,MATH500 [5] 是高中数学竞赛难度的测试集。如图所示,无论是对于 QwQ 模型还是 R1 模型,包含 2-4 个解答的样本占了所有样本的 70% 以上,可见这种 Solution-Level 的反思行为在当前的类 o1 模型中十分普遍。那么这些解答本身是否都是必须的呢?下图展示了在不同数据集上,模型首次得到正确答案的解答位置:
图片
令人惊讶的是,对 QwQ 模型和 R1 模型的实验分析显示,它们在超 90% 的情况下,都能在 第一次尝试中就成功输出正确答案。也就是说,后续多轮思考对答案正确率的提升几乎没有实质性贡献。这一现象进一步验证了此前对模型过度思考的观察:绝大多数情况下,模型的多轮反思可能只是在反复验证已有的答案,从而造成了资源浪费。


然而,这种现象也引发了不同观点的争论。一些研究者认为,o1 类模型的一个核心特性在于其能够自主探索问题的不同解法。从这一角度来看,如果模型在推理过程中使用了多种不同的思路来解决问题,那么这种多样化的探索不仅有助于加深模型对问题的理解,还体现了模型的自主探索能力,不应简单地视为 “过度思考”。为了更深入地剖析这一问题,研究团队进一步提出了一种分析方法。他们利用 GPT-4o 对模型的回答进行分类,具体包括以下步骤:  


  1. 推理策略分类:对每一个解答进行推理策略的标注,将采用相同推理方式的回答归为同一类。例如,对于 “2+3=?” 这样的问题,可能涉及的推理策略包括数学运算模拟、数轴移动和实物类比等。  

  2. 多样性分析:在归类的基础上,分析并统计不同解答之间的推理策略多样性。 

通过这一方法,研究者能够量化推理过程中是否存在真正意义上的 “多样化探索”。这种分析为我们提供了衡量模型行为的一种新视角:当模型的不同解答策略高度相似甚至重复时,可以说明多轮推理的贡献是有限的;而当推理策略的多样性伴随着思考层次的提升而增加时,则反映了模型对问题理解的进一步加深。这种视角能够帮助我们更准确地区分 “有效的自主探索” 和 “低效的重复推理”。如下图所示:
图片
图中展示了每个位置的解答引入新推理思路的可能性。第一个位置的解答总会是 “新的思路”,因此其概率为 100%。但随着推理位置的后移,解答中带来新推理思路的可能性逐渐降低。这一趋势表明,越到后续位置,模型越倾向于重复先前的推理思路,从而导致其推理行为变得冗余且低效。从这个角度来看, 模型的后续解答更多是一种无效的重复思考


通过上述分析,我们可以发现这些过度思考所产生的解答往往具备以下两个关键特征:  
  1. 新解答对答案的正确性没有贡献:模型往往在一开始就已经成功得出正确答案,后续的多轮反复检验是多余且不必要的。  

  2. 新解答未能引入实质性新思路:模型后续的解答仅以不同的表述方式重复了早先已有的结论,而没有真正扩展推理的深度或视角。  

过度思考指标


基于这一发现,研究团队进一步定义了两个衡量模型 “过度思考” 现象的核心指标:


1. 产出效率 (Outcome Efficiency):用于衡量模型回复中每一个解答对最终答案的贡献,等于正确解答中的 token 数除以完整回复的总 token 数。计算公式为:
图片
其中,N 为样本数, 图片为模型第 i 个样本的回复中第一个正确解答的 token 数目, 图片为第i个样本的整个回复的 token 数量, 图片代表第i个样本是否正确。 直观地看,一个模型得到正确解答之后进行反思的轮数越少,正确解答在整个回复中的占比就越大,产出效率就越高。


2. 过程效率 (Process Efficiency):用于衡量模型回复中每一个解答对推理策略多样性的贡献,等于回复中属于不同思路的总 token 数目除以整个回复的 token 数目,计算公式为:
图片
其中 N 为样本数, 图片为第i个样本的整个回复 token 数量, 图片为第i个样本中所有属于不同推理策略的 token 总数。 该指标衡量的是模型进行多轮反思的有效性,回答中涉及的不同的推理策略越多, 图片就会越大,那么过程效率就会越高


基于这两个指标,研究者们统计了 QwQ 模型和 R1 模型在 MATH500 数据集上的效率指标表现:
图片
从图中可以观察到,R1 模型在效率上略优于 QwQ 模型,但两个模型都不同程度地暴露出 “过度思考” 的问题。对于难度最低的等级 1 问题,研究者发现两个模型的表现都有如下特点:  
  1. 产出效率不足一半:两个模型在这种简单任务上的产出效率均未超过 50%,意味着模型在取得正确答案后,依然生成了超过必要推理步骤至少一倍的额外推理内容。这符合上文的研究发现:正确答案通常在推理的较早阶段得到,但模型的后续行为中存在大量冗余推理。  

  2. 思考过程效率较低:模型的整体过程效率只有 70% 左右,这意味着约 30% 的思考步骤是在重复无效的推理。这种重复的行为不仅未能提升正确率,也没有引入新的解题思路,从而造成了计算资源的浪费。

从以上分析可见,现有的 o1 类模型都普遍存在不同程度的 “过度思考” 现象,且这一问题在应对简单任务时尤为严重。这些现象突显了当前 o1 类模型推理机制中的不足,也意味着在模型的长思维链优化和推理资源分配方面仍有较大的改进空间。为此,研究者们提出了几种方法,旨在缓解模型的过度思考现象,提升推理效率。


缓解过度思考


由于目标是减少模型的过度思考但不损害模型的推理能力,因此最直接的想法就是通过偏好优化算法来鼓励模型生成更精简的回复。研究者们使用开源的 Qwen-QwQ-32B-Preview 模型作为实验的基座模型,基于该模型在 PRM12K [10] 的数据集上的多次采样结果,选择最长的模型回复作为偏好优化的负样本,而对于正样本的选择,有如下几种策略:
  • 最短回复(Shortest Response):使用模型采样结果中最短的生成结果作为正样本。

  • 首个正确回答(First-Correct Solutions, FCS):使用模型采样结果中最短的首次得到正确答案的解答作为正样本,抛弃所有后续的思考。

  • 首个正确回答 + 验算(FCS+Reflection):由于绝大多数的采样结果都是在第一个解答中就出现了正确答案,仅保留首个正确回答可能会使得模型退化,因此研究者们在第一次得到正确答案后,额外保留了一轮反思的内容。

  • 最多样回复(Greedily Diverse Solutions,GDS):除了单纯地对长度进行控制,另一个优化思路是尽可能保留更多样化的思考轨迹,因此研究者们在 FCS 方法的基础上,尽可能多地保留了包含不同推理策略的解答。

基于以上几种偏好数据,研究者们尝试了最基础的 SFT 以及多种偏好优化算法,如 DPO [6],RPO [7][8] 以及 SimPO [8]。实验结果如下:
图片
表格中的 SFT 方法是指仅使用正样本进行微调。从表格中可以看出,在同样的 “最短回复” 设置下,SimPO 有着最好的优化效果,而基于 SimPO 的进一步实验表明,使用首个正确回答 + 验算作为正样本的策略能够很好地取得效率和性能的平衡,能够在保持模型性能的同时大幅度地减少输出的 token 数目以及平均解答轮数,并有效地提高产出效率和过程效率。为了进一步分析方法的有效性,研究者们分析了 MATH500 测试集的不同难度下 SimPO+FCS+Reflection 方法的表现,如下图所示:
图片
有意思是,文中提出的方法在最简单的难度 1 的问题上,仅使用了相比于原来 63.6% 的 token 数目便达到了 100% 的正确率,而且在难题(难度 4 和 5)上,文中的方法能够在提升性能的同时大幅度减少输出的冗余,这展示了提出的方法在减缓过度思考上的有效性。


总结


这篇论文聚焦于 o1 类推理模型面临的一个核心挑战:如何合理控制推理过程中的计算量,提升思考效率。文章通过分析实验揭示了一个普遍问题 ——o1 类模型在处理简单问题时容易陷入过度思考,从而增加了不必要的计算消耗。基于对此现象的详细分析,研究者提出了一系列有效的优化方法,能够在保持模型性能的同时,大幅减少冗余推理,提升推理效率。这些方法的实验结果表明,它们显著优化了模型在简单任务上的资源利用情况,为实现 “高效思考” 的目标迈出了重要一步。未来的研究将重点探索以下方向:
  1. 自适应调控策略:开发让模型根据问题复杂程度动态调整推理深度的机制,更智能地分配计算资源;

  2. 更精细的效率评估指标:设计能够覆盖更广泛推理轨迹的指标,从而更全面地评估模型的思考效率。

这项研究不仅提升了 o1 类模型的推理,同时也为未来更高效、更智能的推理机制提供了重要的理论基础与实践参考。


参考文献
[1] Qwen. Qwq: Reflect deeply on the boundaries of the unknown, November 2024. URL https: //qwenlm.github.io/blog/qwq-32b-preview/.
[2] DeepSeek. Deepseek-r1-lite-preview: Unleashing supercharged reasoning power. https://api-docs.deepseek.com/news/news1120, 2024. Accessed: 2024-12-29.
[3] Shen-Yun Miao, Chao-Chun Liang, and Keh-Yih Su. A diverse corpus for evaluating and developing english math word problem solvers. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, 2020.
[4] Karl Cobbe, Vineet Kosaraju, Mohammad Bavarian, Mark Chen, Heewoo Jun, Lukasz Kaiser, Matthias Plappert, Jerry Tworek, Jacob Hilton, Reiichiro Nakano, Christopher Hesse, and John Schulman. Training verifiers to solve math word problems. arXiv:2110.14168, 2021.
[5] Dan Hendrycks, Collin Burns, Saurav Kadavath, Akul Arora, Steven Basart, Eric Tang, Dawn Song, and Jacob Steinhardt. Measuring mathematical problem solving with the MATH dataset. In NeurIPS, 2021.
[6] Rafael Rafailov, Archit Sharma, Eric Mitchell, Christopher D Manning, Stefano Ermon, and Chelsea Finn. Direct preference optimization: Your language model is secretly a reward model. Advances in Neural Information Processing Systems, 36, 2024.
[7] Richard Yuanzhe Pang, Weizhe Yuan, He He, Kyunghyun Cho, Sainbayar Sukhbaatar, and Jason E Weston. Iterative reasoning preference optimization. In The Thirty-eighth Annual Conference on Neural Information Processing Systems, 2024. URL https://openreview.net/forum?id=4XIKfvNYvx.
[8] Zhihan Liu, Miao Lu, Shenao Zhang, Boyi Liu, Hongyi Guo, Yingxiang Yang, Jose Blanchet, and Zhaoran Wang. Provably mitigating overoptimization in rlhf: Your sft loss is implicitly an adversarial regularizer. arXiv preprint arXiv:2405.16436, 2024.
[9] Yu Meng, Mengzhou Xia, and Danqi Chen. Simpo: Simple preference optimization with a referencefree reward. In Advances in Neural Information Processing Systems (NeurIPS), 2024.
[10] Hunter Lightman, Vineet Kosaraju, Yuri Burda, Harrison Edwards, Bowen Baker, Teddy Lee, Jan Leike, John Schulman, Ilya Sutskever, and Karl Cobbe. Let’s verify step by step. In The Twelfth International Conference on Learning Representations, 2024. URL https://openreview.net/forum? id=v8L0pN6EOi.
工程