CVPR 2016谷歌论文：直击谷歌计算机视觉研究最新动态 - ai人工智能 - 透明七彩巨人-tmqcjr.com

本周， 2016 年计算机视觉与模式识别大会（CVPR 2016）在拉斯维加斯举办。此次年度计算机视觉大会包括几个主要的会议和若干多地同时进行的研讨会和短期课程。作为计算机视觉研究的领导者，谷歌带着 8 篇论文，受邀讨论，强势出现在此次发布会、课程和研讨会上。

据谷歌 Research Blog 介绍，谷歌的研究员刘策（Ce Liu）和谷歌学院顾问 Abhinav Gupta，双双被选为年度在计算机视觉中做出杰出研究贡献的 PAMI 青年研究者奖。谷歌职员 Henrik Stewwenius，获得回顾性奖项，这个奖项选取近十年里对计算机视觉研究做出重大贡献的两篇论文。Henrik 发表于 2006 年的「 Scalable Recognition with a Vocabulary Tree」论文获得此奖项，该论文的另一合作者是 David Nister。

谷歌还展示了最近的几个成果，包括 Motion Still 背后的技术，一个基于神经网络的图像压缩现场 demo 和 TensorFlow-Slim，在 TensorFlow-Slim 中定义、训练和评估模型的轻量库。

以下是谷歌在 CVPR 2016上展示的论文：

本周的 CVPR 2016 上，谷歌的研究者们展示了几项成果。其中有三篇介绍了他们已经教会计算机视觉系统如何检测出一个场景中最重要的人，挑选出来并跟踪个体身体的部分，用语言描述它们实际看到了什么。这三篇论文（以及谷歌正在介绍的更多论文）很自然地都使用了深度学习和/或某类神经网络。

一、在视频中找到「事件和关键人物」

让我们看看在视频中找到「事件和关键人物」的能力——这是谷歌和斯坦福的合作成果。像篮球比赛等多人场景，画面中可能有十到上百人，但是，只有少数人值得关注。论文介绍的 CV 系统使用了循环神经网络来为每一帧创建一个「关注面具（attention mask）」，然后随着时间线跟踪每个目标的关联性。

随着时间的推移，该系统不仅能够找出关键人物，还可以找出潜在重要人物和与之关联的事件。比如：它不仅能显示某个准备上篮的球员很重要，而且会显示最重要的防守球员。智能整理拥挤的镜头（如机场，车水马龙的大街）的意义也很重大。

论文：在多人视频中检测事件以及关键参与者（Detecting events and key actors in multi-person video）

作者：Vignesh Ramanathan, Jonathan Huang, Sami Abu-El-Haija, Alexander Gorban, Kevin Murphy, Li Fei-Fei

摘要

多人事件的识别是一件非常具有挑战性的任务，场景里面总是包含有多个人物，但只有少数人是对实际事件有影响。在此论文中，我们提出了一种模型：能够学习在这样的视频中检测事件，同时自动地「注意」对这个时间有责任关系的人物。我们的模型在训练和测试过程中，没有使用关于这些人物是谁或者在哪里这样的明确注释。特别地，我们追踪视频中的人物，并且使用一个循环神经网络来表达这些追踪特征。我们学习将时变的（time-varying）的注意权重与每个瞬间特征结合起来。然后，使用另一个事件检测/分类的循环神经网络处理这些注意特征。因为大部分多人视频数据集的视频数量都有限制，我们也收集了一个新的、包含了 257 个篮球比赛的篮球视频数据集，这些比赛拥有 14k 的事件注释以及 11 个事件分类。我们的模型在此新数据集上的事件分类和检测任务中，表现胜过了最顶尖的方法。此外，我们也表明，这一注意机制能够始终如一的定位相关球手。

导语

视频中的事件识别和检测，已经大大获益于对近期大规模数据集和模型的引介。然而，这主要限于单人行为领域，视频中的参与者只完成一个主要的活动。另一个同样重要的问题是多人视频中的事件识别。在我们的论文中，我们为此特殊背景（setting）提出了一种新的模型和数据集。

在体育场、商场或者其他户外捕捉到的视频通常包含多人之间的互动。大部分人都在做着什么事，但并不是所有人都涉及到主要事件。主要时间由一小撮人主宰着。例如，篮球中的投篮仅由一或两个人决定（看图 1）

图 1 ：就像你看第一排的篮球视频一样，在多人事件中关注错误的人是毫无意义的。然而，在同样的视频中关注到正确的人，基于投手以及球手传球的行为就能轻松识别出这是一个「2分球」事件。我们使用同样的直观思维确定事件识别任务中的关键球手。

因此，识别事件中的有关人物本身也是一件非常有趣的任务。然而，获取这样的注释是非常昂贵的。因此，在训练中，使用不需要注释的模型来识别这些关键人物，是可取的。这也可以视为是一个弱监督关键人物识别的问题。在这篇论文中，通过使用一个能够「注意」到关键参与者这撮人的模型，我们提出了一个分类事件的方法。我们做到这一点，甚至没有明确告诉模型谁是关键参与者或者关键参与者在哪里。

近期，已经有篇论文提出使用「注意」模型，将来自一个固定（fixed）输入的元素与固定输出对齐。例如，两种语言间的句子翻译，注意输入中的不同单词；生成一条图像标注，注意图像中的不同区域；以及生成一个视频标注，注意视频中的不同帧。

在我们的研究中，我们利用注意力决定哪几个人物与视频中表现出的行为最为相关；这一注意力面具（attention mask）能随时间发生变化。因此，我们结合了时间和空间上的注意。在人物检测从一帧变化到另一帧的同时对其进行注解，全追踪过程中不同帧的注解能连接到一起。我们展示了如何使用一个循环神经网络从每一个追踪中表达信息；注意力模型的任务是选择每一帧中最相关的追踪。除了能够挑选出关键参与者之外，我们也表明，此注意力模型能产生更好的事件识别。

为了评估我们的模型，我们需要大量的涉及到多人的视频演示事件。而之前大部分的活动或事件识别数据集专注于一到两个人的行为。多人数据集的视频数量总是有限。因此，我们收集了自己的数据集。特别是我们提出了一个新的带有时间标识的篮球事件数据集，257 个视频每个时长 1.5 小时，总共可分为 11 个不同事件。从注释数量上考虑，这个数据集可相比于 THUMOS 检测数据集，但包含多人背景方面的更长的视频。

总而言之，我们论文的贡献如下。首先，我们介绍了一个新的大规模篮球事件数据集，它带有长视频序列的密集时间注释（14k）。第二，在标准任务中，比如独立片段分类，对更长的未经整理的视频中的事件进行时间定位，我们的方法超越了最顶尖的成果。第三，我们表明，我们的方法会学习注意相关的球员，即使是在训练集中没有告诉模型哪个球员是相关的。

结论

我们已经介绍了一种在多人视频中进行事件分类和检测的注意力模型。除了识别事件，我们的模型能在没有利用这样注释进行明确训练的情况下，识别出与事件有责任关系的关键人物。我们的方法能泛化至任何多人设定中。然而，为了达到论文目的，我们介绍了一个新的篮球视频数据集，它有着密集的事件注释。而且我们与最顶尖的方法进行了性能对比。我们也评估了模型识别事件中的「投篮」行为以及对模型注意到的空间位置进行可视化的能力。

二、识别有关节对象的身体部位

这是一篇更异想天开的论文：研究者已经开发出一个计算机视觉系统来发现虎的腿。

虎（和一些马）被简单地定义为「关节对象类」——从本质说，就是带有连续移动部位的对象——以便系统能加以观察和理解。通过识别独立运动部位以及它们的动作还有位置（与动物其他部分有关的位置），动物的肢体可以被一帧帧地识别出来。这里的先进之处在于，程序可以横跨许多视频做出这样的识别，即使视频中的动物运动方式不同。

找到并跟踪任意一个人、动物或机器（或树、衣服等）的个别部位是一个非常强大的技能。想象一下，我们可以这样处理视频，就为了那些被标记的动物或者手里拿着手机的人或者有篮子的自行车。这一技术被用于监控的潜在可能性让人毛骨悚然，但是，从学术上讲，这项技术却使人着迷。这篇论文是爱丁堡大学和谷歌的合作成果。

论文：从多个视频中发现有关节对象类别的身体部位（Discovering the physical parts of an articulated object class from multiple videos）

作者：Luca Del Pero, Susanna Ricco, Rahul Sukthankar, Vittorio Ferrari

摘要

我们提出了一种基于运动的从多个视频中发现有关节对象（ articulated object ）的身体部位（如马的头/躯干和腿）的方法。其中的关键是从多个视频中，找到一个对象中相对于其它部位区域而表现出一致运动的区域。然后我们可以学习构建这些部位的位置模型，并在单个视频中使用能量函数（energy function）对它们进行准确地切割；能量函数也能迫使在部位运动中出现时间和空间的连续性。和我们的方法不同的是，传统的运动分割（motion segmentation）方法或运动中的非刚性结构（non-rigid structure）一次只能处理一个视频。因此，除非在那个特定的视频中一个部位表现出了独立的运动模式，否则它们就无法发现这个部位。我们在一个包含了 32 段虎和马的视频的新数据集上对我们的模型进行了评估，我们得到的结果显著超越了最近的一个在部位发现（part discovery）任务上的运动分割方法（实现的准确度差不多是其两倍）。

引言

我们的目标是从视频中发现有关节的对象类别（如：虎、马）的身体部位。这里「身体」的意思是指能独立运动的部位，比如一个动物的头或小腿。我们的方法的一个输出案例如图 1 所示，其中视频帧被分割成了对应不同身体部位（如：头、躯干、左小腿）的区域。

我们方法的主要新颖之处在于通过类别层面的推理同时从多个视频中发现身体部位。我们的方法能从多个视频中发现相对于对象的其它部位而连续独立运动的部分，这个方法有两个优点。第一，我们可以在不同的视频之间共享对象的信息：比如，我们可以从虎行走的视频中发现虎的腿，然后这些信息迁移到虎只在摇头的视频中，反之亦然。第二，我们可以在多个视频中建立对应关系：我们的方法知道图 1 中的两个视频的棕色部分对应着同一身体部位（虎的头）。

图1

传统的非刚性的来自系统的结构（non-rigid structure-from-motion）方法试图通过单个视频的运动域（motion field）将一个有关节的对象分解成一些刚性的部分，而我们的方法不一样，使用了多个视频。它们在运动分割方法方面也不一样——运动分割是指将单个视频分割成具有一致运动的不同区域（可能对应着不同的身体部位）。这两类方法有一个主要的限制：当一个身体部位不相对于其它部位独立运动时，它们就不能发现这个部位，比如在虎只是头在动的视频中不能发现虎的腿。在类别层面上进行推理让我们可以克服这种限制：我们可以从某个部位移动的视频中发现这个部位，然后将它们迁移到该部位不移动的视频中。

我们的方法是弱监督式的。每个视频需要两个标签：其对象所属的分类（如：虎）和其主视角(dominant viewpoint)（如：面对左方）。为了处理真实的视频，我们对这些要求并不严格。在我们实验的视频中，目标常常被遮挡，它会进入和走出屏幕，并出现视角上的变化。我们只需要注释器（annotator）标记出视频中最常见的视角。

我们将部位发现（part discovery）看作是一个超像素标记问题（superpixel labeling problem），其中每一个像素都对应于对象的一个不同的身体部位，再加上一个用于背景的标签。我们将这个问题阐述为能量最小化问题（energy minimization problem）。其中的能量由部位的位置模型驱动，我们可以通过由底向上的方式通过同样的主视角在不同的视频之上学习到这个模型。它也包含了促进超像素（superpixel，其不会严格地共同移动）获取不同标签的项目，同时这也提升了时间平滑度（temporal smoothness）。

尽管我们使用语义标签（头、躯干等）指代被发现的部位，但这只是为了方便。事实上，我们在视频中发现的是对象上相对于其它区域独立运动的区域。我们要强调：我们的方法并不需要任何对该对象的语义理解或骨骼模型，也不特定于某一目标类别。

我们在一个包含了 32 段虎和马视频的新数据集上对我们的方法进行了评估，我们在其中手动标注了它们的身体部位。我们的结果证实了使用多个视频的优势，因为我们的方法显著超越了一个最近的在身体部位发现上运动分割方法。我们的标注也可以成为其它任务的一个有用的定量指标，例如来自运动或运动分割的结构；而且我们将其公布在了我们的网站上（http://calvin.inf.ed.ac.uk/publications/partdecomposition）。

结论

我们提出了一种从多个视频中发现有关节对象类别的身体部位的方法，该方法将身体部位识别为多个视频中独立于其它区域的连续运动的对象区域。现有的运动分割和运动结构的成果都独立处理每一段视频，不能像我们的方法一样发现一个视频中并不移动的部位。我们已经在两个不同对象类别的真实世界视频中对我们的方法进行了定量评估，并在评估中超越最近一种部位发现的运动分割方法。我们公开发布了我们的数据，从而为身体部位发现提供了一个参考基准。

三、明确目标描述的生成与理解

这是一个更贴近日常生活的计算机视觉新能力。计算机视觉系统早就能分类所见对象了：一个人、一张桌子或一个表面、一辆车。但是，在描述对象方面，这些系统恐怕没法像人一样精确。在一桌子葡萄酒杯中，哪只是你的？在一群人中，谁是你的朋友？

这篇论文是谷歌与加州大学洛杉矶分校，牛津大学和约翰霍普金斯大学合作的成果。论文讲述了一个新的办法，可以让计算机明确描述目标。它将一些基本逻辑与图片标注背后的强大系统结合起来。

计算机浏览针对目标的描述符，然后找到这些描述符的组合方法，这种组合方法只能被用于一个目标。因此，在一组笔记本电脑中，系统可能会说「灰色的笔记本电脑是开着的」，如果几台电脑都是开着的，系统会补充道「灰色的笔记本电脑是开着的，而且电脑屏幕上有一位穿蓝色裙子的女人」，诸如此类。

上述事情都是人们不假思索就能做到的，但是，对于计算机来说却十分困难。当然，对我们来说，计算机能够准确描述事物是有用的，或许有一天，你会对机器人管家说「帮我拿西红柿后面的琥珀啤酒来」。

论文题目：明确目标描述的生成与理解（Generation and Comprehension of Unambiguous Object Descriptions）　　

作者：Junhua Mao ，Jonathan Huang， Alexander Toshev，Oana Camburu， Alan Yuille，Kevin Murphy

摘要

我们提出了一个可以生成图片中特定目标（object）或区域明确描述（所谓的指称表达）的方法，这个方法也可以理解或解释这一指称表达，进而推断出正被描述的目标是哪一个。我们展示了，我们的办法优于以前的生成目标描述方法，之前的那些方法并没有将情景中的其他潜在模糊目标考虑在内。我们模型灵感源自近期深度学习方法的成功（在图像标注方面），不过，尽管很难对图片标注进行评估，但是，我们的任务考虑到了如何轻松实现目标评估。我们也提出了一个新的用于指称表达的大规模数据集，其基础是 MSCOCO。我们已经发布了这个数据集以及用于可视化和评估的工具箱，详见： https://github.com/ mjhucla/Google_Refexp_toolbox

导语

近来，人们对生成图片文本描述的研究很感兴趣。不过基本上，这种图片标注问题既主观也病态。既然有这么多有效的方法来描述任何给定图片，因此，也很难对自动标注方法进行评估。特别是，我们如何能判定一张图片的描述优于另一个描述？

在这篇论文中，我们关注了一个为给定图片生成本文的特别案例，其目标是，生成明确的文本描述，这个描述能被精确地应用到图片中的某个目标或区域。这样一种描述就是所谓的「指称表达」。这一方法明显优于通用图片标注，因为它有一个定义良好的表现指标：如果独特描述出文本中相关目标或区域，听者能够理解这个描述并能指出其所描述的那个目标，这就是一个好的指称表达。另外，由于任务性质本身是有区别的，因此，较之图片标注，指称表达趋于更加细节化（也因此更有用）。最后，较之整张图片，它更容易搜集训练数据以覆盖（cover）针对给定目标的合理指称表达空间。

我们思考了两个问题：（1）描述生成，我们必须生成可以独特指出图片中的重要目标和区域的文本表达，以及（2）描述理解，根据一个给定的描述这个目标的文本表达，找出这个目标。之前文献中的所有研究工作完全专注于描述生成。

在这篇论文中，我们使用了最先进的深度学习方法来处理真实图片和文本，特别是，我们的模型建立在最近开发出的方法上，这些方法将卷积神经网络（CNN）和循环神经网络（RNN）结合起来。我们证实，我们的模型表现高于基线，后者是在没有考虑到听者必须理解的情况下生成的指称表达。我们也表明，通过自动生成对图片区域的描述，可用半监督方式训练我们的模型。

在很多使用自然语言界面的应用中，比如控制一台机器人（比如，「Rosie ，从冰箱顶层给我那瓶啤酒来」），或者与图像编辑软件互动（比如，「Picasa，将栅栏后的第三辆汽车替换成一辆摩托车」），能够生成并了解目标描述很关键。另外，对于从事视觉和系统领域的研究工作来说，这也是一个很好的测试台，因为它有一个有用的客观表现评价尺度。

为了训练和评估这个系统，我们已经搜集并公布了一个新的基于流行 MS-COCO 数据组的大型指称表达数据组。

总而言之，我们的主要贡献如下。首先，我们提出了一个新的用于指称表达的大规模数据组。第二，我们评估了现有图片标注方法在指称表达任务上的表现情况。第三，我们研究出了一个联合生成和理解的新方法，这个方法比现有方法更好。

结论

作为结论，我们留给读者两个简单的要点。首先，指称表达的研究已经有几十年的历史了，不过，由于近来人们对图片说明的研究产生兴趣，因此，指称表达也呈现出新的重要性。在很难对图片标注进行评估的地方，指称表达会有一个客观的表现评估指标，并要求对语言和视觉进行同样的语义理解。因此，数据集标准上的成功要比标准图片标注指标意义上的成功，更加有意义。

第二，为了成功生成描述，我们必须考虑听众。我们的实验表明，打造一个持续、正确解码一个生成描述的听者模型，其效果要好于那些基于区域特征简单生成描述的模型。我们希望，除了我们的数据集，这些洞见也能促进视觉和语言联合模型的研究更进一步。

四、其他五篇论文

论文 1：DeepStereo：学习从世界图景中预测新视角（DeepStereo: Learning to Predict New Views From the World’s Imagery）

作者：John Flynn, Ivan Neulander, James Philbin, Noah Snavely

摘要

近期，深度网络在计算机视觉中的识别和分类问题的应用上已经取得了巨大的成功 [22, 33]，但是它们在图形问题（graphics problem）上的使用一直有限（令人瞩目的[23, 7]除外）。在本论文中，我们展现了一种能够直接在像素上执行新的视图合成的全新深度架构，该架构是在大量的图像数据集上进行训练的。不同于传统的方法，它包含了多个复杂的处理阶段，每一个阶段都需要进行细心的微调，而且可能会以一种意想不到的方法而失败。我们的系统是端到端训练的。一个场景的相邻视图（view）的像素会在这一网络中表达出来，然后直接产生未知视图的像素。我们方法的好处包括一般性（我们只需要适定的图像集（posed image set)，而且能轻易的将此方法应用于不同的领域），还有在传统的高难度场景中取得高质量的结果。我们相信这应归功于我们系统端到端的天性，它能够合理地根据从训练数据集中自动学习到的颜色、深度、纹理生成像素。我们展示了在 KITTI 数据集图景上的视图插值（ view interpolation）结果，以及在谷歌街景（Google Street View）图像数据上的结果。据我们所知，我们的研究是首次在真实世界以及自然图景数据集中的新视图合成问题上应用深度学习。

论文 2：Blockout：分层深度网络的动态模型选择（Blockout: Dynamic Model Selection for Hierarchical Deep Networks）

作者：Calvin Murdock, Zhen Li, Howard Zhou, Tom Duerig

摘要

大部分用于图像分类的深度架构都要学习与一个单一模型共同的图像表征，即使是那些训练出的能对大量不同图片类别进行分类的架构也是如此。直观地，更相似的类别应该比非常不同的类别具有更多共同的信息。尽管分层深度架构通过为相关分类的子集学习不同的特征而能解决这个问题，但目前的实现需要使用通过启发式聚类（heuristic clustering）方法特殊处理过的固定架构简化过的模型。而我们提出了 Blockout——一种用于正规化和模型选择的方法，其能同时学习模型架构和参数。一般而言，我们的 Blockout 方法提供了一种全新的对分层架构参数化的方法，该方法允许通过反向传播（back-propagation）进行结构学习。为了证明其效用，我们在 CIFAR 和 ImageNet 数据集上对 Blockout 进行了评估，结果证明在分类准确度上实现了提升、得到了更好的正则化（regularization）表现、更快的训练速度和分层网络结构的清晰涌现。

论文 3：反思计算机视觉的初始结构（Improving the Robustness of Deep Neural Networks via Stability Training ）

作者：Christian Szegedy, Vincent Vanhoucke, Sergey Ioffe, Jon Shlens, Zbigniew Wojna

摘要

卷积神经网络是大部分当前表现最佳的多种任务的计算机视觉应用的核心。自 2014 年以来，非常深度的卷积网络开始变得主流，在多种标准上都实现了重大的收获。尽管模型大小和计算成本的增长往往能为大部分任务带来即时的质量增益（quality gain）（只要有足够的有标签数据能用于训练），但计算效率和低参数数量仍然是移动视觉和大数据场景等多种应用案例的促成因素。这里我们探索了以尽可能高效利用额外的计算为目标的方式来扩展网络规模的方法——通过适当地分解卷积和激进的正则化（aggressive regularization）。我们在 ILSVRC 2012 分类挑战验证集上检验了我们的方法，证明在当前最佳性能之上得到显著的增益：使用每次推理 50 亿次乘-加运算的计算成本和少于 2500 万个参数的网络，在单帧评估上实现了 21.2% 的 top-1 和 5.6% 的 top-5 错误。使用 4 个模型的组合和多作物评估（multi-crop evaluation），我们在验证集上得到了 3.5% 的 top-5 错误和 17.3% 的 top-1 错误，而在官方测试集上实现了 3.6% 的 top-5 错误。

论文 4：通过稳定度训练提升深度神经网络的稳健性（Improving the Robustness of Deep Neural Networks via Stability Training）

作者：Stephan Zheng, Yang Song, Thomas Leung, Ian Goodfellow

摘要

本论文中，我们解决了深度神经网络输出不稳定的问题：视觉输入中的小扰动会显著扭曲神经网络的嵌入特征和输出。这种不稳定性在许多种类的计算机视觉任务上影响了许多最先进的架构的表现。我们展示了一个通用的稳定训练方法，该方法能使深度网络在由各种通常图象处理过程（例如压缩、缩放和裁切）产生的小输入扭曲中保持稳定。我们通过使最先进的 Inception 构架在上述扭曲中保持稳定来验证我们的方法。另外，我们也证实：我们的稳定模型在大规模近重复检测（ largescale near-duplicate detection）、相似图象排名和噪音数据集分类中有着稳健且最先进的表现。

论文 5：使用 CNN 和一种特别训练的域转换实现的特定任务边缘探测的语义图像分割（Semantic Image Segmentation With Task-Specific Edge Detection Using CNNs and a Discriminatively Trained Domain Transform）

作者：Liang-Chieh Chen, Jonathan T. Barron, George Papandreou, Kevin Murphy, Alan L. Yuille

摘要

深度卷积神经网络（CNN）是目前最先进的语义图象分割系统的脊梁。最近的成果表明，全连接条件随机域（CRF）的互补深度卷积神经网络可以显著提高它们的对象定位（object localization）的精确度，然而高密度条件随机域推理的计算量十分巨大。我们建议用域转换（DT）来替代全连接条件随机域，域转换是当代一个保留边缘的过滤方法，其中平滑度受参考边缘图（reference edge map）控制。域转换过滤（domain transform filtering）比高密度条件随机域推理快数倍，并且我们证明它能生成可比较的语义分割结果——该结果精确获取了对象边界。重要的是，我们的公式允许学习从过渡卷积神经网络特征中参考边缘图，而不是在标准域转换过滤中使用图象梯度幅值（ image gradient magnitude）。这在端到端可训练系统优化中产生了特定任务的边缘。

理论谷歌 CVPR 2016 计算机视觉理论论文

联系人：	透明七彩巨人
Email：	weok168@gmail.com