先别骂队友,上交如何让DeepSeek R1在分手厨房再也不糊锅?
- 2025-03-18 14:37:00
- 刘大牛 转自文章
- 243


预判式协作:你切菜时, DPT-Agent 秒递盘子;牛排烧焦了,它抢先灭火;
动态分工:根据订单优先级,自动切换「主厨」与「帮工」角色,有效安排时间;
读心级配合:甚至能通过你的动作历史,推测你想做汉堡还是沙拉。

论文题目:Leveraging Dual Process Theory in Language Agent Framework for Real-time Simultaneous Human-AI Collaboration
论文地址:https://arxiv.org/abs/2502.11882
项目地址:https://github.com/sjtu-marl/DPT-Agent



「快脑」System 1—— 条件反射级响应
代码即策略(Code-as-Policy):将高频操作(灭火、递食材)固化为有限状态机(FSM)规则,优化初始 FSM 策略;
持续输出保障:即使 System 2 在后台思考,System 1 也能按 FSM 中最新策略持续行动,杜绝 “宕机卡顿”,原子动作响应延迟 < 0.1 秒。
「慢脑」System 2—— 战略级读心术
心智理论(ToM):让 LLM 通过分析玩家动作历史,实时构建人类意图模型(例:「TA 连续取牛肉→今晚主打牛肉汉堡」);
异步反思:在「快脑」指挥智能体做菜的同时,「慢脑」根据游戏历史优化策略,如发现「生菜总是不够」,自动调整备菜优先级,边协作边进化。



推理模型战胜高延迟:DeepSeek-R1 满血版在 DPT-Agent 框架加持下,相比使用 ReAct 的 - 42.5 分有大幅提升,获得 74.3 分的战绩,逆袭成 MVP, o3-mini-high 相比 o3-mini-medium 和 o3-mini-low 即使延迟增大,也一样呈现能力上升趋势。
非推理模型表现也亮眼:DeepSeek-V3 在 DPT_Agent 框架加持下表现与满血 DeepSeek-R1 接近,展现不俗实力。
ToM 模块的双刃剑:
神助攻案例:
当 规则 AI 是专注取牛肉的 Agent 时,DeepSeek-R1-70b 驱动的 DPT-Agent 通过 ToM 推断「玩家专注牛肉汉堡」,主动改变策略备好面包 + 生菜
人类持续传递牛肉表明其偏爱处理肉类,所以智能体应专注于其他任务以优化团队合作。
当规则 AI 是专注组装汉堡并上菜的 Agent 时,o3-mini-low 驱动的 DPT-Agent 通过 ToM 推断 “玩家专注于组装汉堡并上菜”,及时调整策略为准备所有的食材来进行配合
人类玩家优先处理紧急的牛肉订单并进行快速组装,通常专注于组装和提供即食食品。智能体应通过准备熟透的牛肉并迅速传递完成的食材来支持这一点,以确保更顺畅的协作。
翻车现场:「ToM 模块是协作上限的钥匙,但锁眼必须匹配模型自身的心智推理能力」。
Llama3-70B 可能因自身 ToM 能力薄弱,搭载完整 DPT-Agent 后反而得分下降,没有观察到显著的推断现象
关于 ToM 模块的更多研究,尤其是 Agent 和人的双向 ToM 过程,可以参考团队的另一篇工作「Mutual Theory of Mind in Human-AI Collaboration: An Empirical Study with LLM-driven AI Agents in a Real-time Shared Workspace Task」。
论文链接:https://arxiv.org/abs/2409.08811




联系人: | 透明七彩巨人 |
---|---|
Email: | weok168@gmail.com |