前段时间,英国公司登记处的一份文件披露了 DeepMind 2018 年的财务状况:这家 AI 科技公司的净亏损由 2017 年的 3.41 亿美元增加至 2018 年的 5.72 亿美元,今年到期的债务高达 12.656 亿美元。如此巨额的亏损引起了广泛关注,也引发了人们对于 AI 前景的质疑。近日,纽约大学心理学和神经科学教授 Gary Marcus 就在《连线》上撰文表达了对于 DeepMind 亏损状况、深度强化学习现状以及 AI 未来走向的深度思考。
DeepMind
可能是全世界最大的专注于科研的 AI 公司,但它正在遭受巨额亏损,过去三年的亏损超过 10 亿美元,而且未来 12 个月还有超过 10 亿美元的债务需要偿还。
事实并非如此。做研究需要花钱,
DeepMind
每年都在做更多的研究。这家公司的确花了很多钱,而且可能比以往任何 AI 研究公司都要多。但与科学界那些大型项目相比,
DeepMind
花的钱还远远算不上史无前例。例如,大型强子对撞机每年可能要花费 10 亿美元,而发现希格斯玻色子的花费估计超过了 100 亿美元。当然,实现电影里那种真正的机器智能(即 AGI)要花费的还远不止这些。
尽管如此,
DeepMind
的巨额亏损(从 2016 的 1.54 亿美元到 2017 年的 3.41 亿美元再到 2018 年的 5.72 亿美元)还是值得我们反思。在我看来,这其中有
三个核心问题:
对于第一个问题,我们有理由持怀疑态度。
DeepMind
将大部分人力和财力投入到了深度
强化学习
的技术研究中。该技术结合了深度学习和
强化学习
,前者主要用于模式识别,后者则是以奖励信号(如游戏中的得分或胜负)为基础的学习。
深度
强化学习
技术是
DeepMind
在 2013 年提出的,他们在一篇名为《Playing Atari with Deep Reinforcement Learning》的论文中展示了单个神经网络系统如何玩转各种雅达利游戏,如打砖块(Breakout)、太空侵略者(Space Invaders)等,而且证明神经网络的表现优于人类。
这篇论文称得上一篇工程杰作,可能也是 2014 年谷歌收购
DeepMind
的关键催化剂。这项技术的持续发展推动了
DeepMind
在围棋和《星际争霸》游戏对抗中取得成功。
但问题是,这项技术的适用范围非常狭窄。以打砖块游戏为例,轻微的改变(如将拍子往上移动几个像素)就会导致网络性能大幅下降。
DeepMind
的《星际争霸》AI 也非常受限,只有在单一地图上选择某种角色才会达到超越人类的水平,但随着地图和角色数目的增加,该 AI 的性能也大幅降低。要转换角色,你需要从头训练整个系统。
从某些方面来说,深度
强化学习
是一种涡轮增压式的记忆方式:使用该技术的系统能够完成令人惊叹的壮举,但它们对自己在做什么知之甚少。因此,现有的系统缺乏灵活性,也就无法在现实世界发生变化时做出补充(
DeepMind
提前 48 小时预测急性肾损伤的 AI 系统也受到了这种质疑)。
深度
强化学习
还需要大量数据,如 AlphaGo 的训练需要完成数百万次自我博弈,这一训练量远远大于人类成长为世界级棋手所需的训练量。这就需要谷歌级别的算力,也就意味着在现实世界中,多数用户仅仅因为算力开销就会望而却步。据估算,AlphaGo 的训练花费了 3500 万美元,这相当于 12760 个人脑三天三夜不眠不休所消耗的能量。
但这还只是经济方面的考量。正如我和 Ernest Davis 在即将出版的新书《Rebooting AI》中所谈到的,真正的问题在于可靠性。迄今为止,深度
强化学习
还只能在控制良好、很少出现意外的环境中进行。围棋就是一个完美的环境,其规则和棋盘两千年来都未发生变化,但在现实世界的许多场景中,你不会想要依赖这项技术。
出现上述问题的部分原因在于,只有极少数的现实世界问题像
DeepMind
所研究的游戏那样受到各种限制,
DeepMind
还未发现深度
强化学习
的任何大规模商业应用场景。Alphabet 对
DeepMind
的投资已经达到了 20 亿美元左右(包括 2014 年收购时所花费的 6.5 亿美元)。相比之下,
DeepMind
创造的直接经济回报却少得可怜,2018 年只有 1.25 亿美元,其中包含利用
强化学习
帮助谷歌降低服务器冷却开销所缩减的费用。
DeepMind
用来解决围棋问题的那一套技术可能无法用来解决现实世界中需要用 AI 来解决的问题,如癌症治疗和清洁能源。对此,IBM 已经在 Watson 项目中经历了惨痛的教训。Watson 在某些情况下表现良好,但在其他情况下并不好用,出现了心脏病漏诊等问题,而一年级的医学生都不会犯这种错误。
当然,这也许只是时间问题。
DeepMind
至少从 2013 年就开始了深度
强化学习
的研究,也许他们需要更长时间,很少有科学进展能够在一夜之间实现商业化。
DeepMind
或其他公司可能会通过结合其他技术开发出更深层次、更稳定的深度
强化学习
系统,也可能不会。
深度
强化学习
最终可能会成为另一个「晶体管」,走出实验室并最终改变世界,也可能只是一种学术好奇心,John Maynard Smith 曾经将这种好奇心描述为「寻找问题的解决方案」(solution in search of problem)。我个人猜测,深度
强化学习
会介于两者之间,它会成为一种有用并被广泛采用的工具,但不会改变世界。
没有人可以将
DeepMind
排除在外,尽管其现有的战略不像许多人期望的那样丰富。深度
强化学习
可能并非是通向
通用人工智能
的坦途,但
DeepMind
自身是一个令人敬畏的公司,它组织严密、资金充足,拥有数百名博士。在围棋、《星际争霸》上取得的成功令其获得了更多的曝光,越来越多的人才加入其中。如果 AI 的风向发生变化,
DeepMind
很可能会转向另一个方向。显然,
DeepMind
是无可匹敌的。
最后一个问题是关于
DeepMind
的财务状况会对 AI 总体发展产生怎样的影响,这个问题很难回答。如果炒作大于产出,就容易带来另一个「AI 寒冬」,到时即便是支持者也不会愿意投资。投资界也会注意到这种巨额损失;如果
DeepMind
的损失每年翻一番,即使是 Alphabet 也会被逼退。这不只是钱的问题。目前为止还看不到切实的财务成果。在某个时候,投资者可能不得不重新调整他们对于 AI 的热情。
迄今为止,
通用人工智能
还停留在炒作的层面,实现起来还很困难。尽管我们已经在广告、语音识别等几个有限的领域取得了重大进展,但 AI 无疑还有很长的路要走。对大数据集进行合理分析所带来的好处是不可否认的,即使只是以有限的形式,AI 已经成为一种有力的工具。业界对 AI 的热情可能没那么高了,但他们也不会彻底退出。
十年后,我们将得出结论:深度
强化学习
在 2010 年代后期被高估了,其他许多重要领域则受到了忽视。我们在
强化学习
上每投入一美元,在其他领域就少投入一美元,比如可能产生有价值洞见的人类认知科学。
机器学习领域的研究者现在经常会问,「儿童学习语言、理解世界所需的能量和数据比现有的 AI 系统要少得多,他们是如何做到的?」如果花更多时间、金钱和精力去解决后面这个问题,我们也许能早点实现
通用人工智能
。
https://www.wired.com/story/deepminds-losses-future-artificial-intelligence/