
论文标题:Diverse Inference and Verification for Advanced Reasoning 论文地址:https://arxiv.org/pdf/2502.09955
模型大小、数据大小和损失之间的关系,即更多参数、训练数据和训练时的语言模型表现更好。 模型性能和测试时算力之间的关系,早期棋盘游戏中验证了训练时和测试时算力之间的权衡,增加其中任何一项都会带来更好的性能。最近 DeepMind 的 AlphaCode 2 和 OpenAI 的 o1、o3-mini 展示了测试时算力扩展对推理型 LLM 的助益。
IMO:研究者使用 8 种不同的方法,分别是 LEAP、Z3、RTO、BoN、SC、MoA、MCTS、PV,可以显著提高推理模型准确率。其中将英语题目自动形式化为 Lean,从而完成了完美验证。 ARC:合成代码解决方案在训练示例上作为单元测试(unit test)进行验证。 HLE:使用 best-of-N 作为不完美验证器,随着示例增加而解决率提升。
IMO:将组合题转化为了可交互游戏环境,并使用组合搜索或深度强化学习来得出部分结果或边界。 ARC:通过合成代码来探索谜题转换,从而删除不正确的解决方案并优化候选解决方案。


没有 o3,16 个多元模型和方法将模型性能从 53%提升到了 69.5%。 有了 o3,16 个多元模型和方法将模型性能从 91.5% 提升到了 93.75%。 16 个多元模型和方法解决了 948 名人类无法解决的 80% 的谜题。 16 个多元模型和方法解决了 o3 high 失败的 26.5% 的谜题。




