

论文标题:SPIN-Bench: How Well Do LLMs Plan Strategically and Reason Socially? 论文链接:https://arxiv.org/pdf/2503.12349 项目主页:https://spinbench.github.io

经典规划(PDDL)- 测试 "单智能体思维" 极限

多智能体对抗或合作 - 逐步升级的脑力绞杀
战略游戏与谈判 - 七国混战 + 实时谈判,上演 AI 版《权力的游戏》
闭源模型:包含 OpenAI(如 o1, o3-mini, o1-mini, GPT-4o、GPT-4o mini、GPT-4-turbo 等)和 Anthropic 的 Claude 3.5(Sonnet/Haiku),共 10 个商业模型。 开源模型:涵盖 DeepSeek-R1、Llama3 系列、Qwen2.5-72B 和 Mistral-7B 等 7 个模型。


o1 在经典规划上表现最佳,但在大型行动 / 状态空间中仍有明显下降。 核心发现:模型准确率与状态 - 行动空间规模的关联性显著高于与合法行动平均数量的关联性。 认知解读:模型在规划时需承担未来大量潜在分支的认知负担,即使每一步仅有少量有效选择。这表明 LLMs 更易受全局复杂性影响,而非单步决策限制。
井字棋(Tic-Tac-Toe):较强的模型(如 o1,Claude 3.5 Sonnet)偶尔能与完美 Solver 达成平局,但多数情况仍落败。 四子棋(Connect Four)与国际象棋(Chess):游戏 Solver(如 Stockfish 引擎)对所有测试的 LLMs 保持 100% 胜率。 LLMs 在四连环中偶尔能选择最优棋步,但在国际象棋中准确率骤降,凸显其深层战术推理与分支扩展能力不足。

当玩家数量从 2 人增至 5 人时,顶尖模型(如 o1)的平均得分从 16.4 降至 14.2,表明多代理协调对 LLMs 的策略一致性造成压力。 部分模型(如 o1-mini、DeepSeek-R1)它们的高方差以及相对较低的平均得分表明缺乏足够的策略规划能力以有效地进行 Hanabi 游戏,无法适应复杂协作场景。
作者团队爬取并分析了 54,977 场人类 Hanabi 游戏数据,发现人类得分集中在 15-25 分区间。 当 LLMs 必须协调多个不完整的信息渠道并跟踪队友不断变化的知识状态时,所有 LLMs 均未达到人类得分的第一四分位数,暴露其 "社会智能" 普遍不足。

在无谈判的单玩家最简单基准测试中,仅 o1-preview、o1 和 GPT-4o 能在 20 回合内占领 18 个补给中心,其他模型均失败,反映 LLMs 在长期战略规划上的局限性。
o1 在基本命令(如移动和攻击)的成功率上超过其他模型(20-30%)。 对于需要多步或多智能体逻辑的复杂行动(如自我支援和支援他人),所有模型的性能都明显下降。
随着参与国数量增加(2-7),LLMs 的指令准确性、攻击成功率与供应中心收益显著下降,表明其难以应对部分可观测性与动态联盟关系的叠加复杂度。 对模型谈判消息的分析表明,大型语言模型在谈判中展现出差异化策略:所有模型均表现出高策略一致性(比率 > 0.90),其中 o1 的说服力最强(接受率 65%),而 Claude 3.5 Haiku 较弱(36%)。多数模型倾向提出互利方案(如 GPT-4-turbo),但 DeepSeek-R1 和 3.5 Haiku 更倾向于引发冲突。尽管 GPT-4-turbo 擅长换位思考,DeepSeek-R1 善用条件性战术,但从结果来看,所有模型均缺乏人类谈判者的策略灵活性 —— 尤其在复杂社交互动中表现局限,反映出当前 AI 的社会智能仍处于初级阶段。
引入谈判往往会对 o1 这样的强推理模型产生反直觉的影响:执行的指令数量与最终得分(补给中心 / 控制区域)大幅下降,而部分较弱模型反而表现稳定。 这一结果表明,激烈的社交互动可能会破坏强推理 LLM 的计划连贯性和推理思维链,凸显其 "思维链扩展" 与社会智能间的潜在矛盾。