智力与应变力Max！经捉迷藏游戏训练的AI更“人性化” - ai人工智能 - 透明七彩巨人-tmqcjr.com

捉迷藏游戏历史已久，不分国界，孩子们都爱玩。今日OpenAI发表一篇论文表示，他们的AI也爱“玩”捉迷藏。论文描述了在虚拟的捉迷藏游戏环境中，一群由AI控制的智能体是如何学会相互隐藏、寻找，并在数千万场比赛中赢过单人作战的智能体的场景。经实验结果表明 ，AI经捉迷藏游戏训练后，会自动发展出类似人类的生活化行为，从而进一步提高它们的智力与应变力。 使得人工智能变成“人性智能”。

其实捉迷藏游戏中的决策部分与人工智能系统的决策很像，它一定程度上可以揭示AI如何权衡多种信息，并进行决策。从生物进化角度来看，人类能快速适应外部环境与挑战，在关键时刻做出最合适的决策。这种人类独有的特质，正是人工智能所欠缺的；人工智能若不想变成“手工智能”，学习捉迷藏似乎是不二选择。

尽管机器学习（Machine Learning）在诸如Dota 2这类复杂游戏中已取得显着进步，但AI在这些领域掌握的技能并不一定可以实际应用于真实生活场景，毕竟生活不是打打杀杀。所以越来越多AI研究以建立机器智能，训练AI的行为、学习、进化更接近于“人性化”为目标。

为什么选择捉迷藏？

论文的第一作者、OpenAI研究员Bowen Baker表示，选择捉迷藏是出于其简单易懂的游戏规则以及游戏本身的趣味性。

图片来源：OpenAI Blog

同时他还解释了AI捉迷藏的规则：

游戏中的AI以人形状态显示（如上图红、蓝部分所示），它们可以执行三种类型的操作：找“人”、抓取和移动物体；同时它们还可以锁定要寻找的目标，一旦锁定找到，这些目标只能由AI或其队友解锁。
游戏玩家包括：1-3名“躲避者”和1-3名“搜寻者”。它们被置于模拟房间中，房间四周为静态墙壁环绕，其中还包括各类不同大小的活动箱子和活动坡道作为游戏“障碍”设置。
研究人员使用强化学习（Reinforcement Learning）来训练游戏中的AI，游戏的奖励机制也遵循了捉迷藏的规则，较为易懂简单。

AI如何捉迷藏？

游戏中的AI由两个网络组成，策略网络用于生成动作，另一个评估网络则用于预测相应的回应动作。研究人员采用 近端策略优化方法（Proximal Policy Optimization, PPO）来优化AI的应对能力。在捉迷藏游戏中，AI玩家接受了 数百万次的训练。它们置身复杂的游戏环境中，从游戏开始到最后的阶段，AI需要在16个GPU和4000个CPU上接受为期3-4天的训练。

整个训练过程，AI会经历几个阶段的 策略演变。一开始，躲避方（图中蓝色部分）只学会如何躲避、不被找到。随着游戏的进行，它们学会了团队合作，开始利用周围的障碍物，比如移动箱子挡门，这样搜寻者便无法轻易进入虚拟房间。

▲ Door Blocking，箱子挡门阻止“搜寻者”进入 （图片来源：OpenAI Blog）搜寻方（图中红色部分）也并不会就此善罢甘休，因为几只箱子而打“退堂鼓”！于是它们便制定相应的应对策略，例如借助虚拟房间里的活动坡道，翻墙而过。

▲ Ramp Use，“翻墙而入” （图片来源：OpenAI Blog）

躲避方为了防止自己被找到，紧接着又学会一招应对策略——把活动坡道搬进躲藏的房间，这样搜寻方就不能用它来翻越墙壁了。

▲ Ramp Defense，“道高一尺，魔高一丈” （图片来源：OpenAI Blog）你来我往中，躲避方学会了使用加长型的箱子挡门，来建造更坚固的“堡垒”。研究人员当时以为捉迷藏游戏胜负已定时，搜寻方竟开始“绝地反击”！它们利用箱子移动时的动力，站在箱子上，快要接近“堡垒”时，一跃而入。

▲ Box Surfing, “一跃而入，冲破‘堡垒’” （图片来源：OpenAI Blog）游戏最后阶段，躲避方见势不对，便又学会了在建造“堡垒”之前锁上所有的散落在房间内箱子，以抵御搜寻者接近。

▲ Surf Defense, 躲为上策……! （图片来源：OpenAI Blog）从完整的捉迷游戏过程看来，研发团队直言，成绩喜人。AI的团队协作性也因此得以实现，但是该系统目前还是存在一些bug。 一方面是“人”为的bug。研发人员表示，一些AI智能体 有时会有一些“聪明过头”的行为，比如，躲避者试图逃离游戏区域（也就是上文所说的虚拟房间），想要一劳永逸防止被找到，这时候研究人员就会有相应的惩罚措施并使其重回“赛场”。

还有一类可归为虚拟环境中的物理bug。例如，在游戏过程中，躲避者把活动坡道推到墙角处，坡道会因为某种原因穿过墙壁、然后消失，这样搜寻者就找不过来了。这样的bug也就说明了算法安全性在AI系统应用中的重要性，若是研发人员考虑周全，那么此类“作弊”行为即可被杜绝。不过新技术的诞生存在问题也可谅解，重要的是发现问题后及时改正。研究团队下一步，便计划解决物理环境的问题。

关于未来

Bowen Baker 表示，他们十分开心看到智能群体在捉迷藏游戏中做出诸多的应对策略，因为这从某种程度上意味着人工智能有超越现有技术成就、变得更灵活变通的潜力了。通过简单的游戏规则，多智能体便体现了强大的竞争意识，那么基于大规模的标准强化学习算法，未来可以促使更多智能体不断实现自我优化，从而做出更多应对复杂策略的决策。

OpenAI最近已经开源了该系统代码以及部署环境，以鼓励同行在这一领域的深入研究。

其实这样的技术进步，不仅推动了游戏领域的设计与开发。还有可能作为研究通用人工智能（AGI）的第一步，将其转化为解决现实世界问题的能力，比如，未来可能将AGI技术应用于预测诊断疾病、预测复杂蛋白质结构等实用性领域。

题图来源：Pixabay

参考资料

[1] Why Playing Hide-and-Seek Could Lead AI to HumanlikeIntelligence Retrieved Sep 18, 2019 from https://syncedreview.com/2019/09/17/why-playing-hide-and-seek-could-lead-ai-to-humanlike-intelligence/

[2] OpenAI teaches AI teamwork by playing hide-and-seek RetrievedSep 18, 2019 from https://venturebeat.com/2019/09/17/openai-and-deepmind-teach-ai-to-work-as-a-team-by-playing-hide-and-seek/

[3] Emergent Tool Use from Multi-Agent Interaction Retrieved Sep18, 2019 from https://openai.com/blog/emergent-tool-use/

药明康德AI

药明康德微信团队专业打造。当人工智能遇上大健康，带你看全AI时代的智慧之光。

产业机器学习 OpenAI 强化学习

联系人：	透明七彩巨人
Email：	weok168@gmail.com