2016 ICLR回顾:塑造人工智能未来的深度学习

2016-06-03 10:45:00
刘大牛
转自文章
231

导语:Tomasz Malisiewicz 是 vision.ai 联合创始人。在参加完近期的 2016 ICLR 大会之后,他总结了此次大会和之前的一些研究成果,方便我们明晰人工智能研究的方向与未来。人工智能站将文中谈到的所有论文 PDF 进行了整理,可点击「阅读原文」自行下载。

深度学习趋势@ ICLR 2016

由 Yann LeCun 和 Yoshua Bengio 等「深度学习帮派」最年轻成员发起的 ICLR 大会,正迅速变成深度学习领域最重要盛事的有力竞争者。ICLR 比 NIPS 更亲切,比 CVPR(IEEE 国际计算机视觉与模式识别会议)又少些严格的标准,ICLR 的世界是以 arXiv 为基础的,而且发展得非常快。



本文完全是关于 ICLR 2016 的。我将在本文中强调一些用于构建更深度和更强大的神经网络的新策略、大型网络压缩得更小的想法、以及用于开发「深度学习计算器(deep learning calculators)」的技术。许多新的人工智能问题正遭受着最新的深度学习技术浪潮的严重冲击;而从计算机视觉的角度上看,深度卷积神经网络毫无疑问正是当今用于处理感知数据的「主算法(master algorithm)」。

天堂里的深度聚会?ICLR 2016 在波多黎各举办

无论你是在机器人、增强现实领域开展工作,还是在解决与计算机视觉相关的问题,下面的 ICLR 研究趋势总结将能让你一览当今各种深度学习技术之巅的可能模样。你可以考虑将本文作为阅读小组交流会的起点。

  • 第一部分:ICLR vs. CVPR

  • 第二部分:ICLR 2016 深度学习趋势

  • 第三部分:深度学习,你往何处去?

第一部分:ICLR vs CVPR

上个月举办的 ICLR 2016(通常发音为「eye-clear」)其实可以更准确地称为「深度学习国际大会」。 ICLR 2016 于 5 月 2-4日在可爱的波多黎各举办。今年是本会议的第四届——第一届举办于 2013 年,那时这还是一个非常小的会议,甚至不得不与另一个会议选在了同一地点。因为其发起人正是所谓的「深度学习黑手党」,所以,与会的所有人都必然正在学习和/或应用深度学习方法,这毫不奇怪。卷积神经网络(在图像识别任务中占主导地位)已无处不在,位居二线的则是 LSTM 和其它循环神经网络(用于对序列建模和构建「深度学习计算器」)。我个人的大部分研究大会经历来自 CVPR,而且自 2004 年以来我就一直是 CVPR 的参会者。和 ICLR 相比,CVPR 给人几分更冰冷、更实证的感觉。为了描述 ICLR 和 CVPR 之间的不同,Yan LeCun 在 Facebook 上引用 Raquel Urtasun 的话给出了最好的说明:

CVPR:深度网络能为我做什么?

ICLR:我能为深度网络做什么?

ICLR 2016 大会是我第一个真正感到紧密交织着「让我们分享知识」活动的正式会议。在三天的主会议时间里,有许多夜晚的网络活动,而且没有专题研讨会。ICLR 总共有大约 500 名参会者,规模大约是 CVPR 的四分之一。事实上,在哥伦比亚特区举办的 CVPR 2004 是我参加的第一个会议,海报包装过的会议、多种会议和足够让会议持续一周的研讨会,已经让 CVPR 臭名昭著。在 CVPR 结束时,你会有一种研究后遗症的感觉,需要几天才能恢复。我更喜欢 ICLR 的规模和时长。

和许多其它深度利用机器学习技术的顶级会议一样,CVPR 和 NIPS 已经发展出了庞大的规模,这些大型会议的论文接受率已经接近 20%。要说 ICLR 的研究论文和 CVPR 论文相比是不成熟的,并不一定是正确的,但 ICLR 的实验验证类论文的数量使其成为了与 CVPR 不同的野兽。CVPR 主要关注的是产出「当下最先进的」论文,这基本上意味着你必须在一个基准之上运行你的算法,并击败上一赛季的领先技术。ICLR 则主要关注强调深度卷积神经网络的分析和设计中新的和有前途的技术、该种模型的初始化方案和用于从原始数据中学习该种模型的训练算法。

深度学习就是学习表征

2013 年,Yann LeCun 和 Yosha Bengio 发起这个会议,是因为存在这种需求—— 在一个新的、小的、高质量的场所,集中讨论深度方法。为什么这个会议被称为「学习表征(Learning Representations)」呢?因为以端到端的方式训练的典型深度神经网络,事实上学习的是这样的中间表征(intermediate representations)。传统的浅层方法是以可训练分类器之上、人工处理过的特征为基础;但是,深度方法学习的是一个层级网络,它不仅学习那些高度渴望的特征,也学习分类器。所以,当模糊特征和分类器之间的界限时,你能得到什么?你得到了表征学习(representation learning)。而深度学习也就是这么一回事。

ICLR 发行模式:只能选 arXiv

在 ICLR,论文直接发布在 arXiv 上。如果你对 arXiv 自古腾堡计划以来已成为了唯一最棒的科研论文发行模式还存在任何怀疑,就让 ICLR 的成功也成为让你开悟的另一个数据点吧。ICLR 基本上已经绕过了老式的发行模式——Elsevier 这样的第三方说:「你可以通过我们发表论文,我们会将我们的 logo 放在论文上,然后向每一个想要阅读每篇论文的普通人收取 30 美元费用。」抱歉,Elsevier,科研不是这么搞的。大部分研究论文根本不值得花 30 美元一读。研究的整体才能提供真正的价值,其中的一篇论文不过只是一扇门而已。你看,Elsevier,如果你真的能带给世界一个额外的科研论文搜索引擎,然后有能力以 30 美元/月的订阅费提供印刷在高质量纸张上的 10-20 篇论文,那你就为研究者提供了一个杀手级服务,我也愿意支持这样的订阅。所以,理所当然地,ICLR 说去你的,我们将使用 arXiv 作为传播我们的思想的方法。未来所有的研究会议都应该使用 arViv 来传播论文。任何人都可以下载这些论文、查看何时张贴了新的修正版本、而且他们也能打印他们自己的实物副本。但要注意:深度学习发展迅速,你必须每周刷新或访问 arXiv,否则你就会被加拿大一些研究生教育了。

ICLR 与会者

谷歌 DeepMind 和 Facebook 的 FAIR(Facebook 人工智能实验室)占到了与会者的大部分。还有来自 Googleplex(谷歌总部)、Twitter、NVIDIA 和 Clarifai 与 Magic Leap 等创业公司的研究者。总的来说,这是一个非常年轻且充满活力的群体,其中 28-35 岁之间超聪明的人代表了这个群体的大多数。

第二部分:深度学习主题  

将结构纳入深度学习

多伦多大学的 Raquel Urtasun 发表了演讲,探讨了将结构纳入深度学习的话题。

许多关于结构学习和图形模型的观点,都在她的演讲中。论文引人注目之处在于,Raquel 对计算机视觉的关注。另外,也简单介绍了部分近期研究情况 ,取材自她的 CVPR 2016 文章。

在去年的 CVPR 2015 会议上, Raquel 有过精彩演讲 3D Indoor Understanding Tutorial

Raquel 的强项之一,纯熟运用几何学的能力,而且她的研究同时涵盖了基于学习的方法以及多视角几何。我强烈建议大家密切关注她即将发表的研究思想。以下,是两篇 Raquel  领导团队撰写的前沿论文:第一篇关注的是利用 MRF中的分支界限法进行推论(branch and bound inference),根据球赛广播定位球场位置。

Raquels new work. Soccer Field Localization from Single Image. Homayounfar et al, 2016.

2016 年论文:Soccer Field Localization from a Single Image。作者: Namdar Homayounfar, Sanja Fidler, Raquel Urtasun。

Raquel 团队即将发布的第二篇论文讨论的是,秉承 FlowNet 的精神,针对Dense Optical Flow 使用深度学习,我在去年的一篇博文中( ICCV 2015 hottest papers )对此有讨论。这项技术建立在这一观察基础之上:该场景通常由静态背景,以及数量相对较少的交通参与者组成,这些交通参与者严格地在三维模式下移动。密集光流技术(dense optical flow technique)被应用到了自动化驾驶中。



2016 CVPR 论文:Deep Semantic Matching for Optical Flow。 作者:Min Bai, Wenjie Luo, Kaustav Kundu, Raquel Urtasun. 

增强学习

Sergey Levine 曾进行了一场精彩的主题演讲,探讨了深度强化学习及其在机器人中的应用。这方面工作似乎还得寄希望于未来,主会议中几乎没有出现与机器人相关的研究。这似乎不足为奇,因为组装机器人手臂的开销并不低,而且大多数研究生研究实验室也没有这样的装配机器。在 ICLR 会议中,多数的论文都是描述一些纯软件或数学理论,如果要开始研究典型的深度学习体系,一个 GPU 就足够了。

谷歌内部,一组机器人手臂正在一起学习如何抓取东西

接下来是一个有趣的论文,从中可以一窥牛人 Alex Krizhevsky 当前的研究内容。他就是2012年业界传奇之文  AlexNet 的作者,该文曾轰动了目标识别(object recognition)界。Alex 的新作与机器人的深度学习有关,目前针对谷歌机器人。

论文:Learning Hand-Eye Coordination for Robotic Grasping with Deep Learning and Large-Scale Data Collection。作者:Sergey Levine, Peter Pastor, Alex Krizhevsky, Deirdre Quillen. 

压缩网络

模型压缩:会是神经网络的 WinZip 吗?

如今的深度学习硬件之王或许当属 NVIDIA ,但我仍隐约觉得,还有高手正深藏不露。请注意,一旦人们意识到拥有比特币的经济价值,基于 GPU 的比特币挖掘就已经开始没落。为运行底层的比特币计算,比特币的挖掘技术很快就过渡到了更加专业化的 FPGA 硬件,而且深度学习的 FPGA 也指日可待。NVIDIA 会坐守第一的宝座吗?我认为, NVIDIA 的未来将面对关键的抉择,NVIDIA  可以选择继续生产硬件,继续满足游戏爱好者和机器学习研究人员,也可以更加专业化。非常多优秀的企业,如 Nervana Systems, Movidius,以及业界大牛谷歌等都不想再依赖 GPU ,因其功耗大且易发热,特别是要扩展已经训练完成的深度学习模型的时候更是如此。可以看一下 Movidius 的Fathom ,或谷歌的 TPU。

然而,人们已经看到了深度网络的经济价值,但是,深度网络的「软件」这一边所期望的,并不是神经网络的 FPGA 硬件。压缩神经网络的软件版本是个非常热门的话题。基本上,人们都会想有一个强大的神经网络,然后将其压缩成更小、更有效的模型。将权重二分化是其中的一种方法。而且,通过模拟更大型网络来训练小网络的「Student-Teacher」技术也已经有了。不出意外,明年我们就将见证,仅仅 1 兆大的网络就可以以牛津的 VGGNet 的同等水准,执行 ImageNet 的 1000-way  分类任务。

关于 ICLR 2016 会议所收录论文 Deep Compression (深度压缩)  的总结,作者为 Han 等人。

今年的 ICLR 中出现了大量的关于  Compression (压缩)的论文,其中三篇如下:

2016 ICLR 论文:Deep Compression: Compressing Deep Neural Networks with Pruning, Trained Quantization and Huffman Coding。作者:Song Han, Huizi Mao, and Bill Dally。 该论文荣获 Best Paper Award (最佳论文奖)。

2016 ICLR 论文:Neural Networks with Few Multiplications。作者:Zhouhan Lin, Matthieu Courbariaux, Roland Memisevic, Yoshua Bengio。

2016 ICLR 论文:8-Bit Approximations for Parallelism in Deep Learning。作者:Tim Dettmers。

无监督学习

Philip Isola  展示了一篇论文,非常有 Efrosian 的风格(Efrosian 为 Efros 星球上的人,该星球为「星际迷航」科幻系列中的星际联邦中 ,Flarset 系统的第四个行星)。内容为,利用在无监督学习中基于局部定义的 Siamese Networks ,学习局部相似性函数。这种局部与局部之间的相似性函数,旨在创建基于图像定义的局部相似图,可用该图发现物体的大小。这让我想起了由 Alyosha Efros 和 MIT 团队发起的对象发现( Object Discovery)的系列研究,其中的基本思想就是,在学习相似性函数时,避免使用类别标签。

Isola 等人: A Siamese network has shared weights and can be used for learning embeddings or "similarity functions"

2016 ICLR 论文:Learning visual groups from co-occurrences in space and time。作者:Phillip Isola, Daniel Zoran, Dilip Krishnan, Edward H. Adelson。 



Isola 等人:Visual groupings applied to image patches, frames of a video, and a large scene dataset

发表评论
评论通过审核后显示。
文章分类
联系我们
联系人: 透明七彩巨人
Email: weok168@gmail.com