Bengio参与,扩散模型+蒙特卡洛树搜索实现System 2规划
- 2025-02-23 17:28:00
- 刘大牛 转自文章
- 267
把扩散模型的生成能力与 MCTS 的自适应搜索能力相结合,会是什么结果?
扩散模型(Diffusion Model)通过利用大规模离线数据对轨迹分布进行建模,能够生成复杂的轨迹。与传统的自回归规划方法不同,基于扩散的规划器通过一系列去噪步骤可以整体生成完整轨迹,无需依赖前向动力学模型,有效解决了前向模型的关键局限性,特别适用于具有长周期或稀疏奖励的规划任务。
尽管扩散模型具有这些优势,但如何通过利用额外的测试时间计算(TTC)来有效提高规划精度仍然是一个悬而未决的问题。一种潜在的方法是增加去噪步骤的数量,或者增加采样次数。然而,已知增加去噪步骤带来的性能提升会迅速趋于平缓,而通过多个样本进行独立随机搜索的效率非常低,因为它们无法利用其他样本的信息。
另一方面,蒙特卡洛树搜索(MCTS)则具有强大的 TTC 可扩展性。通过利用迭代模拟,MCTS 可以根据探索性反馈改进决策并进行调整,使其可以随着计算量的增加而有效地提升规划准确度。
这种能力使 MCTS 成为了许多 System 2 推理任务的基石,例如求解数学问题和生成程序。
然而,与基于扩散的规划器不同,传统的 MCTS 依赖于前向模型来执行树 rollout。这也就继承了其局限性,包括失去全局一致性。
除了局限于离散动作空间之外,生成的搜索树在深度和宽度上都可能变得过大。这会导致计算需求变得非常大,特别是当任务场景涉及到长远规划和大动作空间时。
那么,关键的问题来了:为了克服扩散模型和 MCTS 各自的缺陷,同时提升基于扩散的规划的 TTC 可扩展性,可以将扩散模型与 MCTS 组合起来吗?又该怎么去组合它们?
近日,Yoshua Bengio 和 Sungjin Ahn 领导的一个团队为上述问题提供了一个答案,提出了蒙特卡洛树扩散(MCTD)。这是一种将扩散模型的生成力量与 MCTS 的自适应搜索功能相结合的全新框架。该团队表示:「我们的方法将去噪(denoising)重新概念化为一个树结构过程,允许对部分去噪的规划进行迭代评估、修剪和微调。」

论文标题:Monte Carlo Tree Diffusion for System 2 Planning 论文地址:https://arxiv.org/pdf/2502.07202v1
第一,MCTD 将去噪(denoising)过程重构成了一种基于树的 rollout 过程,于是便能在维持轨迹连贯性的同时实现半自回归的因果规划。 第二,其引入了引导层级作为元动作(meta-action),从而可实现「探索」与「利用」的动态平衡,进而确保在扩散框架内实现自适应和可扩展的轨迹优化。 第三,其采用的模拟机制是快速跳跃去噪(fast jumpy denoising)。从名字也能看出来,该机制的效率肯定很高 —— 不使用成本高昂的前向模型 rollout 即可有效估计轨迹质量。






联系人: | 透明七彩巨人 |
---|---|
Email: | weok168@gmail.com |