2020年已过近半,人工智能学术界的顶级会议也举行了不少。在今年已经举行的顶会中,腾讯、百度、阿里等国内科技巨头被收录论文在数量和质量上均有所突破,涉及机器学习、自然语言处理、计算机视觉等多个领域。下面,本文整理出这些科技公司在今年顶会中被录入的部分已分享的论文以飨读者,欢迎大家收藏。
AAAI 2020
腾讯
在2020年的AAAI上,腾讯优图实验室共有10篇论文入选,以下是已分享的部分论文:
1、Rethinking Temporal Fusion for Video-based Person Re-identification on Semantic and Time Aspect(Oral)
推荐:本文提出了一种新的通用时间融合框架,在语义和时间两个方面对帧特征进行融合。在语义方面,探索了多阶段融合网络,在多个语义层次上融合更丰富的帧特征,有效地减少了传统单阶段融合带来的信息损失。同时,针对时间轴,对现有的帧内注意方法进行了改进,增加了一个新的帧间注意模块,通过考虑帧间关系,有效地减少了时间融合中的信息冗余。
论文地址:https://arxiv.org/abs/1911.12512
2、Fast Learning of Temporal Action Proposal via Dense Boundary Generator
推荐:本文提出了提出一种快速的、端到端的稠密边界动作生成器(Dense Boundary Generator,DBG)。该生成器能够对所有的动作提名(proposal)估计出稠密的边界置信度图。并引入额外的时序上的动作分类损失函数来监督动作概率特征(action score feature,asf),该特征能够促进动作完整度回归(Action-aware Completeness Regression,ACR)。此外,还设计一种高效的动作提名特征生成层(Proposal Feature Generation Layer,PFG),该Layer能够有效捕获动作的全局特征,方便实施后面的分类和回归模块。
论文地址:https://arxiv.org/abs/1911.04127
3、TEINet: Towards an Efficient Architecture for Video Recognition
推荐:本文提出了一个有效的时间模块,称为时间增强和交互(TEI模块),它可以插入到现有的2dcnn中(用TEINet表示)。TEI模块通过分离信道相关和时间交互的建模,提出了一种不同的学习时间特征的范式。首先,它包含一个运动增强模块(MEM),该模块在抑制无关信息(例如背景)的同时增强与运动相关的特征。然后,介绍了一个时态交互模块(TIM),它以信道方式补充时态上下文信息。该两阶段建模方案不仅能够灵活有效地捕捉时间结构,而且能够有效地进行模型推理。
论文地址:https://arxiv.org/abs/1911.09435v1
4、Revisiting Image Aesthetic Assessment via Self-Supervised Feature Learning
推荐:本文从自监督特征学习的角度对图像审美评价问题进行了研究。作者设计了两个新的接口任务来识别应用于合成实例的编辑操作的类型和参数。然后,将我们的前托词任务中的特征应用于一层线性分类器,以二元审美分类的方式评估其性能。我们在三个基准数据集上进行了大量的定量实验,证明我们的方法能够忠实地提取美学感知特征,并优于其他的接口方案。此外,我们还获得了与使用ImageNet 1000万个标签的最新监督方法相当的结果。
论文地址:https://arxiv.org/abs/1911.11419v1
5、Asymmetric Co-Teaching for Unsupervised Cross-Domain Person Re-Identification
推荐:人的再识别(re-ID)是一项具有挑战性的工作,因为身份样本和成像条件的高度差异。尽管近年来在深层学习领域的研究取得了显著的成果,但很少有研究能够很好地推广到不可见的目标领域。一种流行的解决方案是通过聚类给未标记的目标图像分配伪标记,然后再对模型进行再训练。然而,聚类方法往往会引入噪声标签,并将低置信度样本作为离群点丢弃,这可能会阻碍再训练过程,从而限制泛化能力。在这项研究中,我们认为,通过在聚类之后显式地添加一个样本过滤过程,挖掘出的样本可以更有效地使用。为此,我们设计了一个非对称的协同教学框架,该框架通过协同两个模型选择彼此可能有干净标签的数据来抵抗噪声标签。同时,其中一个模型接收尽可能纯净的样本,而另一个模型接收尽可能多样的样本。此过程鼓励所选训练样本既干净又杂,并且这两个模型可以迭代地相互促进。大量的实验表明,该框架能够始终如一地提高大多数基于聚类的方法的适应精度。
地址:https://arxiv.org/abs/1912.01349
6、Viewpoint-Aware Loss with Angular Regularization for Person Re-Identification
推荐:近年来有监督的行人重识别(ReID)取得了重大进展,但是行人图像间巨大朝向差异,使得这一问题仍然充满挑战。大多数现有的基于朝向的特征学习方法,将来自不同朝向的图像映射到分离和独立的子特征空间当中。这种方法只建模了一个朝向下人体图像的身份级别的特征分布,却忽略了朝向间潜在的关联关系。为解决这一问题,本文提出了一种新的方法,叫带角度正则的朝向敏感损失(VA-ReID)。相比每一个朝向学习一个子空间,该方法能够将来自不同朝向的特征映射到同一个超球面上,这样就能同时建模身份级别和朝向级别的特征分布。在此基础上,相比传统分类方法将不同的朝向建模成硬标签,本文提出了朝向敏感的自适应标签平滑正则方法(VALSR)。这一方法能够给予特征表示自适应的软朝向标签,从而解决了部分朝向无法明确标注的问题。大量在Market1501和DukeMTMC数据集上的实验证明了本文的方法有效性,其性能显著超越已有的最好有监督ReID方法。
论文地址:https://arxiv.org/abs/1912.01300
7、Robust Conditional GAN from Uncertainty-Aware Pairwise Comparisons
推荐:CGAN往往需要大量标注。为了解决这个问题,现有方法大多基于无监督聚类,比如先用无监督学习方法得到伪标注,再用伪标注当作真标注训练CGAN。然而,当目标属性是连续值而非离散值时,或者目标属性不能表征数据间的主要差异,那么这种基于无监督聚类的方法就难以取得理想效果。本文进而考虑用弱监督信息去训练CGAN,在文中我们考虑成对比较这种弱监督。成对比较相较于绝对标注具有以下优点:1.更容易标注;2.更准确;3.不易受主观影响。
论文地址:https://arxiv.org/abs/1911.09298
8、An Adversarial Perturbation Oriented Domain Adaptation Approach for Semantic Segmentation
推荐:如今神经网络借助大量标注数据已经能够达到很好的效果,但是往往不能很好的泛化到一个新的环境中,而且大量数据标注是十分昂贵的。因此,无监督领域自适应就尝试借助已有的有标注数据训练出模型,并迁移到无标注数据上。对抗对齐(adversarial alignment)方法被广泛应用在无监督领域自适应问题上,全局地匹配两个领域间特征表达的边缘分布。但是,由于语义分割任务上数据的长尾分布(long-tail)严重且缺乏类别上的领域适配监督,领域间匹配的过程最终会被大物体类别(如:公路、建筑)主导,从而导致这种策略容易忽略尾部类别或小物体(如:红绿灯、自行车)的特征表达。本文提出了一种生成对抗扰动并防御的框架。首先该框架设计了几个对抗目标(分类器和鉴别器),并通过对抗目标在两个领域的特征空间分别逐点生成对抗样本。这些对抗样本连接了两个领域的特征表达空间,并蕴含网络脆弱的信息。然后该框架强制模型防御对抗样本,从而得到一个对于领域变化和物体尺寸、类别长尾分布都更鲁棒的模型。
论文地址:https://arxiv.org/pdf/1912.08954.pdf
百度
本届AAAI大会,百度共有28篇论文被收录,较去年的15篇入选成绩提升近一倍,入选论文涉及机器学习、自然语言处理、计算机视觉等多个领域,以下是已分享的部分论文:
1、Distributed Primal-Dual Optimization for Online Multi-task Learning
推荐:传统的在线多任务学习算法有两个重要的局限性:1.由于向中央机器传送高速度的顺序数据而导致通信量大;2.建立任务关联性的运行时复杂度昂贵。为了解决这些问题,在本文中,我们考虑一个设置,其中多个任务位于不同的地理位置,其中一个任务可以与其他任务同步数据,以利用相关任务的知识。具体地说,我们提出了一种自适应的原始-对偶算法,该算法不仅能捕获对抗学习中的任务特定噪声,而且能以运行时效率执行无投影更新。此外,由于该模型允许能量不足或带宽受限的任务延迟更新,因此非常适合于分散的周期连接任务。理论结果证明了我们的分布式算法的收敛性保证,并且有一个最优的遗憾。实证结果表明,该模型对各种真实数据集都是有效的。
论文地址:https://arxiv.org/abs/2004.01305
2、Meta-CoTGAN: A Meta Cooperative Training Paradigm for Improving Adversarial Text Generation
推荐:本文提出了一种新的方法,旨在通过有效地减缓对抗训练的模式崩溃来提高对抗文本生成的性能。为此,我们引入了一种协同训练范式,即语言模型与生成器协同训练,并利用该语言模型有效地塑造生成器的数据分布以防模式崩溃。此外,我们没有原则性地参与生成器的协同更新,而是建立了一个元学习机制,将生成器的协同更新作为一个高层次的元任务,直觉地确保在对抗性更新之后生成器的参数能够抵抗模式崩溃。在实验中,我们证明我们提出的方法可以有效地减缓对抗性文本生成器的模式崩溃速度。总的来说,我们提出的方法无论是在生成质量还是在验证域的多样性方面,都能优于具有显著裕度的基线方法。
论文地址:https://arxiv.org/abs/2003.11530v1
3、IVFS: Simple and Efficient Feature Selection for High Dimensional Topology Preservation
推荐:特征选择是处理高维数据的重要工具。在无监督的情况下,许多流行的算法都是为了保持原始数据的结构。本文提出了一种简单有效的特征选择算法,从计算拓扑上下文的持久图表示的拓扑保持的角度来增强样本的相似度保持。该方法是在一个统一的特征选择框架IVFS的基础上设计的,该框架受到随机子集方法的启发。该算法能够很好地保持完整数据的成对距离和拓扑模式。结果表明,该算法在亚采样率较低的情况下,能够提供令人满意的性能,从而支持了该方法在大规模数据集上的有效实现。大量实验验证了所提出的特征选择方案的有效性。
论文地址:https://arxiv.org/abs/2004.01299
4、ERNIE 2.0: A Continual Pre-training Framework for Language Understanding
推荐:近年来,预训练模型在各种语言理解任务中取得了最新的成果,这表明大规模语料库的预训练在自然语言处理中可能起着至关重要的作用。目前的预训练程序通常集中在几个简单任务的模式训练上,以掌握单词或句子的共现。然而,除了共现外,在训练语料库中还存在其他有价值的词汇、句法和语义信息,如命名实体、语义贴近度和话语关系。为了从训练语料库中最大限度地提取词汇、句法和语义信息,我们提出了一个名为ERNIE 2.0的连续预训练框架,该框架通过不断的多任务学习,逐步构建和学习预训练任务。实验结果表明,ERNIE 2.0在16个任务上均优于BERT和XLNet,其中包括基于GLUE基准的英语任务和几种常见的汉语任务。
论文地址:https://arxiv.org/abs/1907.12412?context=cs.CL
5、Synchronous Speech Recognition and Speech-to-Text Translation with Interactive Decoding
推荐:近年来,将源语翻译成目的语的语篇转换(ST)受到了广泛的关注。与传统的流水线系统相比,端到端ST模型具有低延迟、较小模型尺寸和较少错误传播的潜在优点。然而,众所周知,如果没有作为中间产物的转录,很难实现这样一个模型。现有的研究一般采用多任务学习的方法,结合自动语音识别(ASR)技术对端到端ST进行联合训练,以提高翻译质量。然而,该方法中不同的任务不能充分利用彼此的信息,限制了改进。另一些工作提出了一个两阶段模型,其中第二个模型可以使用第一个模型的隐藏状态,但是它的级联方式极大地影响了训练和推理过程的效率。本文提出了一种新的交互注意机制,使ASR和ST能够在单一模型中同步、交互地进行。具体来说,转录和翻译的生成不仅依赖于它以前的输出,而且还依赖于在其他任务中预测的输出。在TED语音翻译语料库上的实验表明,该模型在语音翻译质量上优于强基线,并取得了较好的语音识别性能。
论文地址:https://arxiv.org/abs/1912.07240
6、Multi-Label Classification with Label Graph Superimposing
推荐:近年来,图卷积网络(GCN)被用来提高多标签识别的性能。然而,什么是标签相关建模的最佳方法,以及如何通过标签系统感知来改进特征学习,目前还不清楚。本文从以下两个方面对传统的GCN+CNN多标签识别框架进行了改进,提出了一种标签图叠加框架。首先,将统计共现信息生成的标签图叠加到由标签的知识先验构成的图中,建立标签相关性模型,然后对最终的重叠图进行多层图卷积,实现标签嵌入抽象。其次,我们建议利用整个标签系统的嵌入来更好地进行表示学习。在特征学习过程中,通过在浅层、中层和深层增加GCN和CNN之间的横向连接,将标签系统的信息注入主干CNN中,实现标签感知。在MS-COCO和Charades数据集上进行了大量的实验,
https://arxiv.org/pdf/1911.09243v1.pdf
7、Cross-Modality Attention with Semantic Graph Embedding for Multi-Label Classification
推荐:多标签图像和视频分类是计算机视觉中的基础性任务,也是一项具有挑战性的任务。主要的挑战在于捕获标签之间的空间或时间依赖关系,并发现每个类的区别特征的位置。为了克服这些困难,我们提出了将跨模态注意与语义图嵌入相结合的多标签分类方法。在构造标签图的基础上,提出了一种基于邻接关系的相似度图嵌入方法来学习语义标签嵌入,该方法可以显式地利用标签关系。然后在学习标签嵌入的指导下生成了新的跨模态注意图。在两个多标签图像分类数据集(MS-COCO和NUS-WIDE)上的实验表明,这个方法优于其他现有技术。此外,在一个大型多标签视频分类数据集(YouTube-8M片段)上验证了该方法的有效性,评价结果证明了该方法的泛化能力。
论文地址:https://arxiv.org/abs/1912.07872
8、Dynamic Instance Normalization for Arbitrary Style Transfer
推荐:在本文中,作者提出了一个新的广义规范化模块,称为动态实例规范化(DIN),它允许灵活和更有效的任意样式传输。由实例规范化和动态卷积组成,DIN将样式图像编码为可学习卷积参数,在此参数上对内容图像进行样式化。与使用共享的复杂编码器对内容和样式进行编码的传统方法不同,所提出的DIN引入了一个复杂的样式编码器,同时还提供了一个紧凑和轻量级的内容编码器,用于快速推断。实验结果表明,所提出的方法在具有挑战性的样式模式上产生了非常不错的结果。
论文地址:https://arxiv.org/abs/1911.06953
9、SetRank: A Setwise Bayesian Approach for Collaborative Ranking from Implicit Feedback
推荐:在线推荐系统的最新发展集中在用户点击和购买等隐性反馈的协同排名上。与反映分级用户偏好的显式评分不同,隐式反馈只生成正面和不明显的标签。虽然在这方面已经作出了相当大的努力,但众所周知的成对和列表方法仍然受到各种挑战的限制。具体地说,对于成对方法,独立成对偏好的假设在实践中并不总是成立的。此外,由于整个列表排列的先决条件,列表方法不能有效地容纳“关系”。为此,本文提出了一种新的协同排序方法SetRank,以内在地适应推荐系统中隐含反馈的特点。具体来说,SetRank的目标是最大化新的setwise偏好比较的后验概率,并且可以通过矩阵分解和神经网络来实现。
论文地址:https://arxiv.org/pdf/2002.09841
10、Semi-Supervised Hierarchical Recurrent Graph Neural Network for City-Wide Parking Availability Prediction
推荐:预测全市停车可用性的能力对于停车诱导和信息(PGI)系统的成功开发至关重要。事实上,有效预测全市停车场的可用性,可以提高停车效率,有助于城市规划,最终缓解城市拥堵。然而,预测城市停车场的可用性是一项非常重要的工作,主要面临三大挑战:1.停车场之间的非欧氏空间自相关;2.停车场内部和停车场之间的动态时间自相关;3.实时传感器(如摄像机、超声波传感器、GPS)获取的实时停车可用性信息不足。为此,我们提出了半监督递阶递归图神经网络(SHARE)来预测城市停车场的可用性。
论文地址:https://arxiv.org/abs/1911.10516v1
11、Learning Conceptual-Contextual Embeddings for Medical Text
推荐:外部知识通常对自然语言理解任务有用。我们引入了一个上下文文本表示模型,称为概念上下文(CC)嵌入,它将结构化知识整合到文本表示中。与实体嵌入方法不同,我们的方法将知识图编码为上下文模型。CC嵌入可以像预先训练的语言模型一样,轻松地重用于各种任务。我们的模型通过利用语义泛化有效地对庞大的UMLS数据库进行编码。对电子健康记录(EHRs)和医学文本处理基准的实验表明,我们的模型大大提高了有监督的医学NLP任务的性能。
论文地址:https://arxiv.org/abs/1908.06203
12、Ultrafast Photorealistic Style Transfer via Neural Architecture Search.
推荐:真实感风格转换的关键挑战在于,算法应该忠实地将参考照片的风格转换为内容照片,而生成的图像应该看起来像是由相机捕获的图像。虽然已经提出了几种真实感风格的图像传输算法,但它们需要依赖于后期和/或预处理才能使生成的图像看起来真实。如果我们禁用额外的处理,这些算法将无法在细节保存和照片真实感方面产生合理的照片真实感样式化。在这项工作中,我们提出了解决这些问题的有效办法。我们的方法包括一个构建步骤(C-step)来构建真实感风格化网络和一个修剪步骤(P-step)来加速。在C-step中,我们在仔细设计预分析的基础上,提出了一种密集型自动编码器PhotoNet。PhotoNet集成了特征聚合模块(BFA)和实例规范化跳过链接(INSL)。为了产生忠实的样式化,我们在解码器和INSLs中引入了多个样式转换模块。PhotoNet在效率和有效性方面都明显优于现有算法。在P-step中,我们采用了一种神经结构搜索方法来加速光网络。提出了一种基于师生学习的真实感风格化自动网络剪枝框架。搜索得到的名为PhotoNAS的网络架构在保持样式化效果几乎不变的情况下,比PhotoNet实现了显著的加速。
论文地址:https://arxiv.org/abs/1912.02398
13、Symbiotic Attention with Privileged Information for Egocentric Action Recognition
推荐:以自我为中心的视频识别是进行多种交互推理的自然实验平台。由于以自我为中心的视频数据集中有大量的动作词汇,最近的研究通常采用两个分支结构进行动作识别,即一个分支用于动词分类,另一个分支用于名词分类。然而,动词与名词分支之间的关联性研究却大多被忽视。此外,由于缺乏位置感知注意机制,这两个分支未能挖掘出局部特征。在本文中,我们提出了一个利用特权信息(SAP)进行自我中心视频识别的共生注意框架。更精细的位置感知目标检测特性有助于理解参与者与目标的交互。我们在动作识别中引入这些特征,并将它们视为特权信息。我们的框架允许动词分支、名词分支和特权信息之间的相互通信。这种通信过程不仅将局部细节注入到全局特征中,而且利用了对正在进行的动作的时空位置的隐含指导。我们引入新的共生注意(SA)来实现有效的交流。
论文地址:https://arxiv.org/pdf/2002.03137.pdf
14、GBCNs: Genetic Binary Convolutional Networks for Enhancing the Performance of 1-bit DCNNs
推荐:二值卷积神经网络(BCNNs)被广泛应用于移动和人工智能芯片应用中,以提高深卷积神经网络(DCNNs)的存储和计算效率。然而,目前的BCNNs还不能完全探索其相应的全精度模型,导致它们之间的性能差距很大。本文提出了一种改进的二值卷积网络(RBCNs),将全精度核函数和特征映射相结合,在统一的框架下对二值化过程进行改进,以达到优化BCNNs的目的。特别地,我们使用GAN在其相应的全精度模型的指导下对1位二进制网络进行训练,显著提高了BCNNs的性能。校正后的卷积层具有通用性和灵活性,可以很容易地并入现有的dcnn,如WideResNets和ResNets。大量实验表明,与最新的BCNNs相比,所提出的RBCNs具有更好的性能。特别地,我们的方法对目标跟踪任务具有很强的泛化能力。
论文地址:https://arxiv.org/abs/1908.07748
15、AutoRemover: Automatic Object Removal for Autonomous Driving Videos
推荐:基于自动驾驶中对真实感仿真的需要,本文提出了一种视频修复算法emph{AutoRemover},该算法专为生成无运动物体的街景视频而设计。在我们的设置中,我们有两个挑战:第一个是阴影,阴影通常没有标记,但与移动对象紧密耦合。第二个是视频中巨大的自我运动。为了处理阴影,我们建立了一个自动驱动阴影数据集,并设计了一个深度神经网络来自动检测阴影。为了处理大的自我运动,我们利用多源数据,特别是三维数据,进行自主驾驶。更具体地说,帧之间的几何关系被合并到修补深度神经网络中,以产生高质量的结构一致的视频输出。实验表明,该方法优于其他最新的目标去除算法,使RMSE降低了19%以上。
论文地址:https://arxiv.org/abs/1911.12588
16、CSPN++: Learning Context and Resource Aware Convolutional Spatial Propagation Networks for Depth Completion
推荐:深度完成是指给定相应的彩色图像,将稀疏的深度图转换为稠密的深度图。卷积空间传播网络(CSPN)是目前最先进的深度完成方法之一,它可以恢复场景的结构细节。本文提出了CSPN++,通过学习自适应卷积核大小和传播迭代次数,进一步提高了CSPN++的有效性和效率,从而可以根据请求动态分配每个像素所需的上下文和计算资源。
论文地址:https://arxiv.org/abs/1911.05377
17、ZoomNet:Part-Aware Adaptive Zooming Neural Network for 3D Object Detection
推荐:3D目标检测是自动驾驶和机器人技术中的一项重要任务。虽然已经取得了很大的进展,但在估计远距离和遮挡物体的三维姿态方面仍然存在挑战。本文提出了一种新的基于立体图像的三维检测框架ZoomNet。ZoomNet的流水线是从一个普通的二维目标检测模型开始的,该模型用于获取左右边界框对。为了进一步利用RGB图像中丰富的纹理线索进行更精确的视差估计,我们引入了一个概念上的直接模块——自适应缩放,它同时将2D实例边界框调整为统一的分辨率,并相应地调整相机的内部参数。通过这种方法,我们可以从调整大小的方块图像中估计更高质量的视差图,然后为附近和远处的物体构建密集的点云。此外,我们引入学习零件位置作为互补特征,以提高抗遮挡能力,并提出三维拟合分数,以更好地估计三维检测质量。
论文地址:https://arxiv.org/abs/2003.00529
ICLR 2020
ICLR 2020 上出现了多达 34 篇满分论文(8 分),以下是来自华为、字节跳动、腾讯等企业的满分论文。
Causal Discovery With Reinforcement Learning
推荐:在此论文中,华为诺亚方舟实验室因果研究团队将强化学习应用到打分法的因果发现算法中,通过基于自注意力机制的 encoder-decoder 神经网络模型探索数据之间的关系,结合因果结构的条件,并使用策略梯度的强化学习算法对神经网络参数进行训练,最终得到因果图结构。在学术界常用的一些数据模型中,该方法在中等规模的图上的表现优于其他方法,包括传统的因果发现算法和近期的基于梯度的算法。同时该方法非常灵活,可以和任意的打分函数结合使用。
论文地址:https://arxiv.org/pdf/1906.04477.pdf
字节跳动
1、Mirror-Generative Neural Machine Translation
推荐:本文研究者提出了一个镜像生成式的机器翻译模型(MGNMT),可以更好地利用非平行语料提高NMT的效果。MG-NMT使用生成式的方法,同时优化两个方向的翻译器和语言模型,从而能从两个角度得到提升。实验表明了这种方法的有效性。
论文地址:https://openreview.net/pdf?id=HkxQRTNYPH
2、Sparse Coding with Gated Learned ISTA
推荐:本文研究了求解稀疏编码问题的迭代收缩阈值学习算法。在前人工作的假设下,作者首先发现其估计中的码成分可能低于预期,即需要增益,为了解决这个问题,一个适合于对该机制进行理论分析的门机制,因此其有效性可以形式化地保证。在除了增益门,我们进一步引入超调门来补偿LISTA。广泛实证结果证实了我们的理论发现,并验证了我们方法的有效性。
论文地址:https://openreview.net/forum?id=BygPO2VKPH
腾讯
Watch the Unobserved: A Simple Approach to Parallelizing Monte Carlo Tree Search
推荐:蒙特卡罗树搜索(MCTS)算法在许多具有挑战性的基准上取得了巨大的成功。然而,它们通常需要大量的发布,这使得它们的应用程序成本高昂。此外,由于MCT固有的顺序性,并行化MCT也极具挑战性:每次推出都严重依赖于从以前的模拟中估计的统计数据(例如,节点访问计数),以实现有效的勘探开发权衡。尽管有这些困难,我们还是开发了一个算法WU-UCT来有效地并行化MCTS,该算法实现了线性加速,并且随着工人数量的增加,性能损失有限。WU-UCT的关键思想是我们引入一组统计信息来跟踪正在进行但不完整的模拟查询(称为未观测样本)的数量。这些统计数据用于在选择步骤中原则性地修改UCT树策略,以便在并行化最耗时的扩展和模拟步骤时保持有效的勘探开发权衡。在专有基准和Atari游戏基准上的实验表明,与现有技术相比,WU-UCT具有线性加速和优越的性能。
论文地址:https://arxiv.org/abs/1810.11755?context=stat.ML
ACL 2020
腾讯
在ACL 2020的论文收录名单中,腾讯共有30篇论文入选,入选论文数刷新国内企业记录,领跑国内业界AI研究第一梯队,研究方向涵盖对话及文本生成、机器翻译及对话、多模信息抽取多个自然语言处理的重点领域。
1、Generate, Delete and Rewrite: A Three-Stage Framework for Improving Persona Consistency of Dialogue Generation
推荐:在对话过程中保持一致的角色属性信息对人类来说是很容易的,但对机器来说,这仍然是一项有待探索的任务。近几年,基于角色属性的对话生成任务被提出来,旨在通过在对话生成模型中加入显式的角色文本来解决属性一致性问题。虽然现有的基于角色的对话生成模型在生成类似人类的回复上取得了成功,但是它们的单阶段解码框架很难避免生成不一致的角色词。在这项工作中,作者提出了一个三阶段的对话生成框架。该框架使用生成-删除-重写机制从生成的原型回复中删除不一致的词语,然后进一步将其改写为属性信息一致的回复。通过人工评价和自动指标进行了评估。在PersonaChat数据集上的实验表明,这个方法获得了非常好的性能。
2、How Does Selective Mechanism Improve Self-Attention Networks?
推荐:近年来,在自注意力网络引入选择机制使得模型关注其中重要的输入元素已经取得很好的效果。但是,对于选择机制取得这样结果的原因尚不清楚。本文提出一个通用的基于选择机制的自注意力网络。传统的自注意力网络在顺序编码以及结构信息建模能力存在一些不足,而本文针对其提出相应的假设,并在实验中验证假设的正确性。实验分析发现,将选择机制引入自注意力网络的好处在于:1.其更多关注周围词的信息,从而对周围词序的变化比较敏感,使得其更好对顺序进行编码;2.其对于树结构重要成分关注度更高,从而其拥有更强的捕捉结构信息的能力。
阿里巴巴
阿里巴巴有22篇论文入选ACL 2020,内容覆盖跨领域分词、细颗粒度情感分析、多领域对话系统、文本生成、知识蒸馏等诸多NLP领域的热点和前沿研究方向。
1、Structure-LevelKnowledge Distillation For Multilingual SequenceLabeling
推荐:多语种序列标记是一项使用单一的多语种统一模型预测标签序列的任务。与依赖于多个单语模型相比,使用多语言模型具有模型规模小、在线服务容易和对低资源语言通用的优点。然而,由于模型容量的限制,目前的多语种模型仍然远远低于单独的单语模型。本文提出将多个单语模型(教师)的结构知识提取到统一的多语言模型(学生)中,以缩小单语模型与统一的多语言模型之间的差距。我们提出了两种基于结构层次信息的知识发现方法:1.近似地最小化学生和教师的结构层次概率分布之间的距离;2.将结构层次知识聚合为局部分布,并最小化两个局部概率分布之间的距离。我们对4个多语种任务和25个数据集的实验表明,我们的方法优于几种强基线,并且比基线模型和教师模型具有更强的零炮概化能力。
论文地址:https://arxiv.org/abs/2004.03846
2、Slot-consistent NLG for Task-oriented Dialogue System with Iterative Rectification Network
推荐:基于神经网络的方法在 NLG 任务上已经取得了不错的效果。然而,数据驱动类型的模型无法保证鲁棒性,例如忽略了一个输入槽位或生成了多余的槽位。前人的工作将这个问题称为幻视现象。在这个工作中,我们研究如何通过保证槽位一致性提高 NLG 模型的可靠性。所谓槽位一致性是指模型生成的模板应该和输入表示语义一致,即具有相同的槽位集合。针对这个问题,我们提出迭代改写器,它能保证 NLG 模型生成正确而且流利的句子。它包含两个模块:1.基于检索的自举抽样,用于抽样伪错数据;2.策略梯度学习,用于融入离散奖励,例如不一致惩罚度。我们在 4 个数据集上验证了模型的有效性,结果显示我们大大降低了所有基线模型的槽位错误率 (ERR) 并达到了目前最好的效果,并且BLEU 的提升和人工校验的结果也显示了我们模型提高了生成句子的顺畅度。
本届ACL大会中,百度被收录的11篇论文,覆盖了对话与交互系统、情感分析/预训练表示学习、NLP 文本生成与摘要、机器翻译/同声翻译、知识推理、AI辅助临床诊断等诸多自然语言处理界的前沿研究方向。
1、Conversational Graph Grounded Policy Learning for Open-Domain Conversation Generation
推荐:我们提出用图的形式捕捉对话转移规律作为先验信息,用于辅助开放域多轮对话策略学习。基于图,我们设计策略学习模型指导更加连贯和可控的多轮对话生成。首先,我们从对话语料库中构造一个对话图(CG),其中顶点表示“what to say”和“how to say”,边表示对话当前句与其回复句之间的自然转换。然后,我们提出了一个基于CG的策略学习框架,该框架通过图形遍历进行对话流规划,学习在每轮对话时从CG中识别出哪个顶点和如何从该顶点来指导回复生成。我们可以有效地利用CG来促进对话策略学习,具体而言:1.可以基于它设计更有效的长期奖励;2.它提供高质量的候选操作;3.它让我们对策略有更多的控制。我们在两个基准语料库上进行了实验,结果证明了本文所提框架的有效性。
2、PLATO: Pre-trained Dialogue Generation Model with Discrete Latent Variable
推荐:研发开放领域(Open-Domain)的对话机器人,使得它能用自然语言与人自由地交流,一直是自然语言处理领域的终极目标之一。对话系统的挑战非常多,其中有两点非常重要,一是大规模开放域多轮对话数据匮乏;二是对话中涉及常识、领域知识和上下文,一个对话的上文(Context),往往可以对应多个不同回复(Response)的方向。PLATO首次提出将离散的隐变量结合Transformer结构,应用到通用对话领域。通过引入离散隐变量,可以对上文与回复之间的“一对多”关系进行有效建模。同时,通过利用大规模的与人人对话类似的语料,包括Reddit和Twitter,进行了生成模型的预训练,后续在有限的人人对话语料上进行微调,即可以取得高质量的生成效果。PLATO可以灵活支持多种对话,包括闲聊、知识聊天、对话问答等等。而文章最终公布的在三个公开对话数据集上的评测,PLATO都取得了新的最优效果。
3、Towards Conversational Recommendation over Multi-Type Dialogs
推荐:真实人机对话,涉及多类型对话(闲聊、任务型对话、问答等),如何自然的融合多类型对话是一个重要的挑战。为应对这个挑战,作者提出一个新的任务——多类型对话中的对话式推荐,期望Bot能够主动且自然地将对话从非推荐对话(比如『问答』)引导到推荐对话,然后基于收集到的用户兴趣及用户实时反馈通过多次交互完成最终的推荐目标。为便于研究这个任务,我们标注了一个包含多种对话类型、多领域和丰富对话逻辑(考虑用户实时反馈)的人-人对话式推荐数据集DuRec(1万个对话和16.4万个utterance)。针对每个配对:推荐寻求者(user)和推荐者(bot),存在多个序列对话,在每个对话中,推荐者使用丰富的交互行为主动引导一个多类型对话不断接近推荐目标。这个数据集允许我们系统地考察整个问题的不同部分,例如,如何自然地引导对话,如何与用户交互以便于推荐。最后,我们使用一个具有多对话目标驱动策略机制的对话生成框架在DuRec上建立基线结果,表明了该数据集的可用性,并为将来的研究设定了基线。
4、SKEP: Sentiment Knowledge Enhanced Pre-training for Sentiment Analysis
推荐:作者提出了一种情感知识增强的语言模型预训练方法,在通用预训练的基础上,设计了面向情感知识建模的Masking策略和情感多目标学习算法,融合了情感词、极性、主体评论关系等多层情感知识,首次实现了情感任务统一的文本预训练表示学习。该算法在情感分类、观点抽取等情感分析任务中相对主流预训练模型RoBERTa有显著的提升,同时刷新了多个情感分析标准测试集的世界最好水平。
5、Cross-Lingual Unsupervised Sentiment Classification with Multi-View Transfer Learning
推荐:本文针对无标签资源的目标语言,提出了一种无监督的跨语言情感分析模型。
6、Leveraging Graph to Improve Abstractive Multi-Document Summarization
推荐:本论文提出基于图表示的多文档生成式摘要方法GraphSum,在神经网络模型中融合多文档语义关系图例如语义相似图、篇章结构图等,建模多篇章输入及摘要内容组织过程,从而显著提升多文档摘要效果。GraphSum 基于端到端编解码框架,其中图编码器利用语义关系图对文档集进行编码表示,图解码器进一步利用图结构组织摘要内容并解码生成连贯的摘要文本。GraphSum 还可以非常容易地与各种通用预训练模型相结合,从而进一步提升摘要效果。在大规模多文档摘要数据集WikiSum 和MultiNews 上的实验表明,GraphSum 模型相对于已有的生成式摘要方法具有较大的优越性,在自动评价和人工评价两种方式下的结果均有显著提升。
7、Exploring Contextual Word-level Style Relevance for Unsupervised Style Transfer
推荐:无监督风格转换是指在无平行语料的情况下,把输入的句子改成目标风格,同时尽可能保持其原义。本文提出了一种全新的序列到序列的生成模型,可以动态地根据生成词的风格相关性进行风格转换。本文有两个主要的创新点,一是用层级相关性传播算法计算风格分类器中每个输入词的风格相关性信息,并以此作为指导信号来训练生成器,让生成器在生成的同时可以预测下一个词的风格相关性。二是设计了以词级别风格相关性和语义信息作为输入的风格转换解码器,并通过多个损失项进行finetune训练,从而实现风格转换的功能。实验表明,本文提出的方法在情感风格转换和口语化风格转换的任务上都达到了领先效果。
8、Opportunistic Decoding with Timely Correction for Simultaneous Translation
推荐:在本论文中,百度首次提出了一种具有及时纠错能力的解码技术,它总是在每一步产生一定数量的额外单词,以保持观众对最新信息的跟踪,同时,它也在观察更多的上下文时,对前一个过度生成的单词提供及时的纠错,以确保高翻译质量。本文还首次提出了对这种纠错场景下的延迟指标。实验表明,我们的技术提高了延迟和质量:延迟减少了2.4,BLEU增加了3.1,中英翻译和中英翻译的修改率低于8%。本系统可用于任何语音到文本的同传系统中。
9、Simultaneous Translation Policies: from Fixed to Adaptive
推荐:本文提出一种简单的启发式算法,根据翻译模型输出的概率分布,可以将几种精简的固定“读写”策略组合成一种灵活的策略。本文进一步将该算法与集成方法相结合,既提高了翻译质量,又降低了翻译过程的时延。这种简单的算法不需要训练策略模型,使得其更易于在产品中使用。
10、Learning Interpretable Relationships between Entities, Relations and Concepts via Bayesian Structure Learning on Open Domain Facts
推荐:本文通过贝叶斯结构学习建立了开放领域的关系与概念(Concept)之间的关联,使得实体为何属于某个概念的原因得到了很好的解释。
11、Towards Interpretable Clinical Diagnosis with Bayesian Network Ensembles Stacked on Entity-Aware CNNs
推荐:本研究提出一种新的诊断算法框架,该框架针对EMR具有无结构化文本和结构化信息并存的特点,结合医疗NLU,以深度学习模型实现EMR的向量化表示、诊断预分类和概率计算。结合医疗知识图谱增强的多种贝叶斯网络的组合模型,实现具有可解释性的诊断推理。该框架能同时兼顾高诊断准确率和强可解释性的特点,并可应用于面向基层医师的辅助临床诊断产品中。
IJCAI 2020
腾讯
Deep Feedback Network for Recommendation
推荐:在本文中,作者初步研究了推荐系统中的多种显式/隐式和正/负反馈之间的协同合作机制。DFN模型能够基于多种反馈信息即时学习到用户的无偏的正负向兴趣,在点击预估和不感兴趣预估等多个任务上均有提升效果。直观而有效的模型也使得DFN能成功在工业级推荐系统中得到部署和验证。