12 月 20 日一早,上海纽约大学 15 层能够容纳 200 人的大教室里座无虚席,一场为期两天的人工智能论坛即将在这里展开。眼下的人工智能有烈火烹油、鲜花着锦之盛,如此规模的论坛屡见不鲜,然而当你将目光投向坐满了会场前两排的演讲者们,你就会发现这一场论坛的与众不同:他们都太年轻了,平均年龄甚至远低于在场的听众们。
演讲者合影
这是一场以「青年」为主题的论坛,全称为 Future Leaders of AI Retreat(FLAIR),由上海纽约大学终身教授张峥发起,得到了来自业界、市政府以及中国科学工程两院的支持。它的组织形式很特别:包括深度残差网络作者何恺明、MXNet 框架创始人李沐等在内的 5 名全球知名年轻学者组成了委员会,挑选了 16 位活跃在全球顶尖实验室的一流博士生乃至本科生,让这些「明日之星」们有机会坐在一起,介绍自己的工作同时了解对方的工作,能够相互讨论与辩论,并与国内的研究人员与业界实验室进行交流。
座无虚席的会场
论坛分为五个单元,涉猎面从理论与核心算法到机器人、自然语言处理、计算机视觉等多个应用领域。论坛内容非常详实,许多演讲者都以自己的研究思路为主线,串联起多篇近期工作,呈现给听众关于某个特定主题一个更全局化的视角。同时现场的氛围非常的热烈,每位演讲者都收到了来自老师、同行、业界人士的诸多问题。而最有趣的环节则是每个单元收尾处的十五分钟「集体 Q&A」环节,演讲者们没有做任何提前准备的情况下对主持人和听众抛来的问题做「快问快答」,问题大多涉及当下的热点与趋势。一位演讲者的回答往往很能体现他或她的价值观,而几位演讲者的观点放在一起,就能够反映存在于青年学者中的一些趋势了。
问答环节
在理论及核心算法单元的问答里,讨论的主题一直围绕着「理论与实践之间的鸿沟」。单元主持人、微软研究院首席研究员 David Wipf 问起大家的 NIPS 见闻,研究信息瓶颈(IB)的 Ravid Shwartz-Ziv 提到理论与实践之间连接的缺乏:会议上不乏优秀的理论研究者、不乏优秀的实际应用构建者,但致力于联通二者的学者则少之又少。随后致力于系统与框架研究的王敏捷也进一步展开了这一话题:了解更多的理论知识当然具有启发意义,但是理论研究范围广阔且往往十分艰深,究竟哪些理论研究有助于应用开发者,应用开发者应该了解理论到何种程度?研究非凸优化的杜少雷直言:「不同于上一代的凸优化或 SVM 等算法,我不认为今天的任何深度学习理论真的有助于指导实践。我们对于神经网络的理解还非常有限。当下我认为你不用太深入挖掘理论,可能再等十到二十年吧。」「」但 Wipf 提到,有很多理论有悖于人的直觉,因此了解理论会有助于研究者提出有趣的假设,并在之后通过实证方法进行验证。杜少雷也同意这一点:在优化领域,很多大规模提高效率的算法的来源是对理论的挖掘。
在游戏与通用智能单元,由于几乎每位演讲者,尤其是工作与机器人相关的几位演讲者,都把波士顿动力的机器人视频放在了演讲的开头。因此来自 FAIR 的田渊栋提到了当下存在「基于学习的方法(learning-based approaches)与基于模型的方法(model-based approaches)之间的争论」。研究感知与机器人学结合的朱玉可表示,学习的做法并不见得擅长解决一个非常特定的问题,然而在视觉或者自然语言领域的经验告诉我们,学习擅长的是为大量不同任务建立一个主程序。而在之前的演讲一开始就明确表示自己希望成为一名机器人学家的周佳骥说,「我当然认同我们需要拥抱学习。但我的一项个人哲学是,对于那些能够计算出来的变量,不要动用基于学习的方法。当然,现在有很多任务是计算所不能胜任而学习可以另辟蹊径的。这二者是不矛盾的。比如作为一个致力于『能算就算』的人,我觉得我们现在急需更好的模拟器,在这方面我们需要视觉方向研究人员的帮助,来处理可以通过计算解决的问题。而基于学习方法的人需要更多的数据。只有所有的方向同时进步,我们才能得到更好的结果。」
在自然语言处理单元,深度好奇创始人吕正东提到了「传统的基于符号的方法在未来自然语言处理中的地位」。研究生成模型的胡志挺表示,现在的情况是,尽管深度神经网络比基于符号的方法复杂很多,但在生成句子的效果上却没有体现出相应的优越性。而效果的不尽人意可能是由于优化方法的问题,也可能我们至今都没抓住其核心。而他的部分工作就是试图结合神经网络与符号方法。主攻语义的彭昊认为,在神经网络全面取代现有的自然语言处理任务中好用的模型之前,认定神经网络主宰了自然语言处理都是不妥当的。深度学习诚然改变了连续的、可微的问题的特征工程特质,但在语言这种离散的问题上,尚且需要极为优雅的关于导数的设计才能解决相关问题。
而从所有的这些回答中,笔者获得最深的一点体会是,一位好的研究者必然兼顾对宏观方向的判断和对微观选择的坚持。有理论研究者对自己的研究给予「落地可能还要十到二十年」的评价,有专注机器人控制的博士生大力表达了对基于学习的方法的推崇,同时非常坚定地说,「我的哲学是能计算则计算」。他们是离潮流最近的人,因为他们对学界与业界行进的趋势了若指掌,他们同时也是离潮流最远的人,因为有明确的研究动力、清晰的分析逻辑,独特的看待问题结构问题的视角,他们可以在瞬息万变的的潮流里站稳脚跟,不为所动,面向心中的目标一往无前。庄子说「举世而誉之而不加劝,举世而非之而不加沮」,大概就是这个意思了吧。
最后,是人工智能站对本次论坛中的部分演讲内容的简要梳理。
理论及核心算法单元
本单元中,一部分研究者试图从数学的角度给出神经网络有效性的证明,另一部分则利用特定结构的性质构建高效的算法。
随机初始化的梯度下降算法学习卷积神经网络的能力
杜少雷,卡耐基梅隆大学
杜少雷介绍了他两篇最新的工作,都围绕着优化神经网络这个非凸优化问题,具体来说,是随机初始化的梯度下降方法学习卷积滤波器(convolutional filter)的能力这一主题。第一份工作展示了当输入满足特定结构时,随机初始化的梯度下降算法能够学到一个带 ReLU 激活函数和平均池化的卷积滤波器。第二份工作则展示了当输入满足高斯分布时,带有权重归一化的随机初始化梯度下降算法能够学到带有一个隐藏层的卷积神经网络。
从信息角度揭开深度神经网络的黑箱
Ravid Shwartz-Ziv,耶路撒冷希伯来大学
Shwartz-Ziv 师从 Naftali Tishby 教授,研究方向为计算机和神经科学。他与他的导师一起,通过「信息平面」,即深度神经网络的每一层保留了多少输入数据的信息,以及多少输出标签的信息,来对深度神经网络进行分析,并提出了「信息瓶颈」概念。今天的展示中,Shwartz-Ziv 展示了一些以「信息平面」分析神经网络的新见解,包括:
1. 训练可以分为两个阶段,分别是隐藏层(1)拟合(fitting)训练数据、增加与标签的互信息,和(2)压缩(compression)表示、减少与输入的互信息。信息时分层次被学习的,存在部分重叠。
2. 大部分训练时间花费在压缩表示,即第二阶段上,即使训练过程中没有正则化或者直接的压缩模块。
3. 每个隐藏层的收敛点都位于或接近信息瓶颈的理论极限,因此从输入层到隐藏层、从隐藏层到输出层的映射服从信息瓶颈的压缩-预测权衡曲线。
4. 在深度学习中,随机梯度下降可以实现这种最优,即每一层的压缩状态能够使限制条件松弛到服从标签误差的最大条件熵状态。
非凸稀疏盲解卷积:全局几何结构和高效方法
张雨倩,哥伦比亚大学
作为一名电子工程学系的博士生,张雨倩并不是某一类机器学习算法本身的研究者,她更多关注如何为计算机视觉、科学数据分析等应用领域开发高效、可靠、稳健的算法。本次她带来的分享主题与「盲解卷积」有关,这些算法非常有助于模糊/马赛克图片的复原。
「盲解卷积」,即从卷积中同时恢复卷积核和激活信号相关,然而这本身就是一个不适定的问题。本次,张雨倩通过分析稀疏盲解卷积的全局几何结构,来介绍如何找出高效的算法来解决这个高度非凸的问题。她的工作将卷积核归一化为单位 Frobenius 范数,然后将盲解卷积问题变为核空间内的非凸优化问题。并且证明:
1. 在一定条件下,每个局部最优解都是好的,都接近于某些经过位移和截断的真实情况
2. 对于球面上的通用滤波器来说,当激活信号的稀疏度小于 O(k^{-2/3})、观测次数大于 poly(k),可以证明某些经过位移和截断的真实情况是可得的。
对抗正则化自编码器和误差编码网络
赵俊博,纽约大学
赵俊博是一名博士二年级学生,他师从 Yann Lecun 教授,主要研究方向为视觉和语言领域的深度学习和无监督学习方法。本次他介绍了一些正则化自编码器的最新进展。自编码器是一种重要的表示学习方法,然而在实现中需避免其落入退化解(degenerate solution),对原函数做无意义的复制。为了防止自编码器落入退化解而采用的一系列措施,如添加稀疏性先验、变分自编码器或者注入噪声等,可称为「正则化」。本次赵俊博介绍了对抗性正则自编码器(ARAE)和误差编码网络(EEN),两种正则化自编码器结构,前者能够实现最优水平的非对齐文本样式转换,后者能够对时间序列数据进行鲁棒的多模态条件预测。
游戏与通用智能单元
本单元中的演讲者均有一定的机器人学背景,一些人以学习的方式探索机器人的可能性,另一些则专注于经典的控制理论。
用于机器人的样本高效的深度强化学习:整合在线策略、离线策略和基于模型的方法
顾世翔,剑桥大学
顾世翔在本科阶段就与 Geoffrey Hinton 教授一起完成了有关神经网络分布式训练的论文,现在在剑桥大学 Max Planck 智能系统研究院从事深度学习与机器人学相关研究,与 UC Berkeley 的 Sergey Levine 和 DeepMind 的 Timothy Lillicrap 多有合作。本次他主要介绍了如何应用 Q-Prop 结合在线策略与离线策略模型、用时序差分模型(TDM)整合基于模型的方法和基于离线策略的费模型方法。提高采样效率,从而将深度强化学习用于机器人等实际应用中。
走向具有感知能力的可泛化的机器人学习
朱玉可,斯坦福大学
朱玉可师从李飞飞教授,主攻视觉知识与机器人学。他表示虽然单一任务的机器人发展很迅速,但是一旦改换任务,机器人就无法泛化。他展示了如何整合感知与机器人具身从而使机器人获得更强的泛化能力。
游戏中的人工智能:成果与挑战
田渊栋,Facebook 人工智能研究中心
田渊栋主要介绍了 ELF,一个大范围、轻量级灵活的实时策略游戏研究平台。
自然语言处理与计算机视觉单元
本单元中,除了在校的博士生外,也有两位来自业界的嘉宾给出了不同视角的观点。
自然语言处理的现状与未来 - 以对话为例
李航,头条人工智能实验室
李航主要以对话系统为例给出了自然语言处理课题的近况与发展方向的综述。他介绍了自然语言处理的五个基本问题:分类、匹配、翻译、结构预测和序列决策过程。简介了单轮与多轮对话的模型构建要点,并给出了当前趋势与未来方向:神经符号处理、深度增强学习、语义落地、模块化和分层处理以及元学习。
统一深度生成模型
胡志挺,卡耐基梅隆大学
胡志挺师从邢波教授,主攻方向为用于自然处理的建模与推理,特别是文本生成方向。本次他带来的工作介绍偏重理论层面,以新角度阐释生成对抗网络(GAN)与变分自编码器(VAE),从而建立二者之间的联系。统一的观点为分析两种模型的各变种提供了有力的工具,并可以将在一种结构上有效的方法迁移到另一种结构上。例如可以将 VAE 中的重要性权重办法用于 GAN。
系统单元及人工智能在创意艺术领域的应用
TVM:深度学习系统的端到端中间表示堆栈
陈天奇,华盛顿大学
陈天奇目前的研究方向集中在分布式深度机器学习。他是 DMLC 项目的发起人,本次他主要介绍了 TVM,是与模块化深度学习系统 NNVM 一起,组成深度学习到各种硬件的完整优化工具链的解决方案,提供一个中间层,使不同框架开发的机器学习模型能够部署到不同硬件上。
对抗神经网络指导的众包服装设计
大曾根宏幸、佐藤大哲,筑波大学
大曾根宏幸和佐藤大哲是筑波大学本科二年级的学生,他们是本次论坛最年轻的演讲者。他们本次介绍的工作入选了 NIPS 2017。他们展示了 DeepWear,用深度卷积对抗生成网络(DCGAN)学习特定品牌的服装特征并生成图像,用图像指导图案的生成,并在此基础上设计服装。