智力与应变力Max!经捉迷藏游戏训练的AI更“人性化”

2019-09-19 09:40:00
刘大牛
转自文章
229
捉迷藏游戏历史已久,不分国界,孩子们都爱玩。今日OpenAI发表一篇论文表示,他们的AI也爱“玩”捉迷藏。论文描述了在虚拟的捉迷藏游戏环境中, 一群由AI控制的智能体是如何学会相互隐藏、寻找,并在数千万场比赛中赢过单人作战的智能体的场景。经实验结果表明 ,AI经捉迷藏游戏训练后,会自动发展出类似人类的生活化行为,从而进一步提高它们的智力与应变力。 使得人工智能 变成“人性智能”。
 
其实捉迷藏游戏中的决策部分与 人工智能 系统的决策很像,它一定程度上可以揭示AI如何权衡多种信息,并进行决策。从生物进化角度来看,人类能快速适应外部环境与挑战,在关键时刻做出最合适的决策。这种人类独有的特质,正是 人工智能 所欠缺的; 人工智能 若不想变成“手工智能”,学习捉迷藏似乎是不二选择。
 
尽管 机器学习 (Machine Learning)在诸如Dota 2这类复杂游戏中已取得显着进步,但AI在这些领域掌握的技能并不一定可以实际应用于真实生活场景,毕竟生活不是打打杀杀。所以越来越多AI研究以建立机器智能,训练AI的行为、学习、进化更接近于“人性化”为目标。

为什么选择捉迷藏?

论文的第一作者、OpenAI研究员Bowen Baker表示,选择捉迷藏是出于其简单易懂的游戏规则以及游戏本身的趣味性。

图片来源:OpenAI  Blog

同时他还解释了AI捉迷藏的规则:
  • 游戏中的AI以人形状态显示(如上图红、蓝部分所示),它们可以执行三种类型的操作:找“人”、抓取和移动物体;同时它们还可以锁定要寻找的目标,一旦锁定找到,这些目标只能由AI或其队友解锁。
  • 游戏玩家包括:1-3名“躲避者”和1-3名“搜寻者”。它们被置于模拟房间中,房间四周为静态墙壁环绕,其中还包括各类不同大小的活动箱子和活动坡道作为游戏“障碍”设置。
  • 研究人员使用强化学习 (Reinforcement Learning)来训练游戏中的AI,游戏的奖励机制也遵循了捉迷藏的规则,较为易懂简单。

AI如何捉迷藏?

游戏中的AI由两个网络组成, 策略网络 用于生成动作,另一个评估网络则用于预测相应的回应动作。研究人员采用 近端策略优化方法(Proximal Policy Optimization, PPO)来优化AI的应对能力。在捉迷藏游戏中,AI玩家接受了 数百万次的训练。它们置身复杂的游戏环境中,从游戏开始到最后的阶段,AI需要在16个GPU和4000个CPU上接受为期3-4天的训练。

整个训练过程,AI会经历几个阶段的 策略演变。一开始,躲避方(图中蓝色部分)只学会如何躲避、不被找到。随着游戏的进行,它们学会了团队合作,开始利用周围的障碍物,比如移动箱子挡门,这样搜寻者便无法轻易进入虚拟房间。

▲  Door Blocking,箱子挡门阻止“搜寻者”进入 (图片来源:OpenAI  Blog)搜寻方(图中红色部分)也并不会就此善罢甘休,因为几只箱子而打“退堂鼓”!于是它们便制定相应的应对策略,例如借助虚拟房间里的活动坡道,翻墙而过。

▲  Ramp Use,“翻墙而入” (图片来源:OpenAI  Blog)

躲避方为了防止自己被找到,紧接着又学会一招应对策略——把活动坡道搬进躲藏的房间,这样搜寻方就不能用它来翻越墙壁了。

▲  Ramp Defense,“道高一尺,魔高一丈” (图片来源:OpenAI  Blog)你来我往中,躲避方学会了使用加长型的箱子挡门,来建造更坚固的“堡垒”。研究人员当时以为捉迷藏游戏胜负已定时,搜寻方竟开始“绝地反击”!它们利用箱子移动时的动力,站在箱子上,快要接近“堡垒”时,一跃而入。

▲  Box Surfing, “一跃而入,冲破‘堡垒’” (图片来源:OpenAI  Blog)游戏最后阶段,躲避方见势不对,便又学会了在建造“堡垒”之前锁上所有的散落在房间内箱子,以抵御搜寻者接近。

▲  Surf Defense, 躲为上策……! (图片来源:OpenAI  Blog)从完整的捉迷游戏过程看来,研发团队直言,成绩喜人。AI的团队协作性也因此得以实现,但是该系统目前还是存在一些bug。 一方面是“人”为的bug。研发人员表示,一些AI智能体 有时会有一些“聪明过头”的行为,比如,躲避者试图逃离游戏区域(也就是上文所说的虚拟房间),想要一劳永逸防止被找到,这时候研究人员就会有相应的惩罚措施并使其重回“赛场”。

还有一类可归为虚拟环境中的物理bug。例如,在游戏过程中,躲避者把活动坡道推到墙角处,坡道会因为某种原因穿过墙壁、然后消失,这样搜寻者就找不过来了。这样的bug也就说明了算法安全性在AI系统应用中的重要性,若是研发人员考虑周全,那么此类“作弊”行为即可被杜绝。不过新技术的诞生存在问题也可谅解,重要的是发现问题后及时改正。研究团队下一步,便计划解决物理环境的问题。

关于未来

Bowen Baker 表示,他们十分开心看到智能群体在捉迷藏游戏中做出诸多的应对策略,因为这从某种程度上意味着 人工智能 有超越现有技术成就、变得更灵活变通的潜力了。通过简单的游戏规则,多智能体便体现了强大的竞争意识,那么基于大规模的标准 强化学习 算法,未来可以促使更多智能体不断实现自我优化,从而做出更多应对复杂策略的决策。

OpenAI最近已经 开源了该系统代码以及部署环境,以鼓励同行在这一领域的深入研究。

其实这样的技术进步,不仅推动了游戏领域的设计与开发。还有可能作为研究通用 人工智能 (AGI)的第一步,将其转化为解决现实世界问题的能力,比如,未来可能将AGI技术应用于预测诊断疾病、预测复杂蛋白质结构等实用性领域。

题图来源:Pixabay

参考资料

[1] Why Playing Hide-and-Seek Could Lead AI to HumanlikeIntelligence Retrieved Sep 18, 2019 from https://syncedreview.com/2019/09/17/why-playing-hide-and-seek-could-lead-ai-to-humanlike-intelligence/

[2] OpenAI  teaches AI teamwork by playing hide-and-seek RetrievedSep 18, 2019 from https://venturebeat.com/2019/09/17/openai-and-deepmind-teach-ai-to-work-as-a-team-by-playing-hide-and-seek/

[3] Emergent Tool Use from Multi-Agent Interaction Retrieved Sep18, 2019 from https://openai.com/blog/emergent-tool-use/

药明康德AI
药明康德AI

药明康德微信团队专业打造。当人工智能遇上大健康,带你看全AI时代的智慧之光。

专栏二维码
产业 机器学习 OpenAI 强化学习
发表评论
评论通过审核后显示。
文章分类
联系我们
联系人: 透明七彩巨人
Email: weok168@gmail.com