哈工大SCIR九篇长文被EMNLP 2020及子刊录用

EMNLP 2020(2020 Conference on Empirical Methods in Natural Language Processing)将于 2020年11月16日至20日在线会议的形式举办。EMNLP是计算语言学和自然语言处理领域顶级国际会议之一, CCF B类会议,由ACL SIGDAT(语言学数据特殊兴趣小组)主办,每年举办一次。

EMNLP 2020共收到有效投稿 3114篇,录用 754篇,录用率为 24.82%。此外,因为高质量的论文越来越多超出了EMNLP会议本身所能容纳的范围,今年EMNLP新增了 Findings of EMNLP这一子刊,它将接纳那些未被主会录用但是被程序委员会评价为值得出版的文章 ,此次Findings of EMNLP共接收了 520篇文章。EMNLP 2020接收的论文覆盖了对话交互系统、信息抽取、信息检索和文档分析、词法语义、语言学理论、认知建模和心理语言学、用于NLP的机器学习、机器翻译与多语言、问答、句子级语义学、情感分析和论点挖掘、文本挖掘和NLP应用、文本推理等自然语言处理领域众多研究方向。

哈尔滨工业大学社会计算与信息检索研究中心有 九篇长文被录用,其中 四篇被主会录用, 五篇被Findings of EMNLP子刊录用。下面是论文列表及介绍:

01

题目:Combining Self-Training and Self-Supervised Learning for Unsupervised Disfluency Detection

作者:王少磊,王重元,车万翔,刘挺

录用类别:主会

简介:目前大部分在文本顺滑(Disfluency Detection)任务上的工作都严重依赖人工标注数据。有一些工作尝试用自监督方法(self-supervised)来缓解这个问题,但是他们的方法仍然依赖于有标注数据。在本工作中,我们首次尝试用无监督的方法来解决文本顺滑问题。我们通过结合自学习(self-training)和自监督两种方法,在不采用任何有标注训练数据的情况下,取得了跟目前最好的有监督方法接近的效果。

02

题目:Recall and Learn: Fine-tuning Deep Pretrained Language Models with Less Forgetting

作者:陈三元,侯宇泰,崔一鸣,车万翔,刘挺,余翔湛

录用类别:主会

简介:深层预训练模型在“预训练+精调”模式中取得了巨大成功。但这种迁移学习方法通常会碰到“灾难性遗忘”问题并且会导致次优结果。为了在精调过程中减少“灾难性遗忘”问题,我们提出了一种“recall and learn”的方法来同时学习预训练任务和下游任务。具体地,我们提出了一种模拟预训练机制,在不使用数据的情况下回忆预训练任务所带来的知识;同时提出了一种目标转移机制来逐步学习下游任务。实验结果表明我们的方法可以在GLUE任务上获得state-of-the-art效果。同时,BERT-base在应用了我们的方法后能够超过直接精调BERT-large的效果。我们已经将Rec Adam优化器 进行开源:https://github.com/Sanyuan-Chen/RecAdam。

03

题目:Profile Consistency Identification for Open-domain Dialogue Agents

作者:宋皓宇,王琰,张伟男,赵正宇,刘挺,刘晓江

录用类别:主会

简介:保持一致的角色属性是 对话系统 自然地与人类进行交流的关键因素之一。现有的关于提高属性一致性的研究主要探索了如何将属性信息融合到对话回复中,但是很少有人研究如何理解、识别 对话系统 的回复与其属性之间的一致性关系。在这项工作中,为了研究如何识别开放域对话的属性一致性,我们构建了一个大规模的人工标注数据集KvPI,该数据集包含了超过11万组的单轮对话及其键值对属性信息。对话回复和键值对属性信息之间的一致性关系是通过人工进行标注的。在此基础上,我们提出了一个键值对结构信息增强的BERT模型来识别回复的属性一致性。该模型的 准确率 相较于强基线模型获得了显著的提高。更进一步,我们在两个下游任务上验证了属性一致性识别模型的效果。实验结果表明,属性一致性识别模型有助于提高开放域对话回复的一致性。

04

题目:Counterfactual Off-Policy Training for Neural Dialogue Generation

作者:朱庆福,张伟男,刘挺,William Wang

录用类别:主会

简介:开放域 对话系统 由于潜在回复数量过大而存在着训练数据不足的问题。我们在本文中提出了一种利用反事实推理来探索潜在回复的方法。给定现实中观测到的回复,反事实推理模型会自动推理:如果执行一个现实中未发生的替代策略会得到什么结果?这种后验推理得到的反事实回复相比随机合成的回复质量更高。在 对抗训练 框架下,使用反事实回复来训练模型将有助于探索潜在回复空间中奖励信号更高的区域。在DailyDialog数据集上的实验结果表明,我们的方法显著优于HRED模型和传统的 对抗训练 方法。

05

题目:A Compare Aggregate Transformer for Understanding Document-grounded Dialogue

作者:马龙轩,张伟男,孙润鑫,刘挺

录用类别:Findings of EMNLP 子刊

简介:基于文档的对话是指针对给定文档进行多轮对话。先前的工作主要关注如何利用对话历史筛选合适的文档信息,利用筛选出的信息生成对话回复。但对话历史不一定与当前对话完全相关。如果不区分历史对话和当前对话之间的相关性,将导致在生成回复时引入无关噪音。因此本文提出了一种"对比聚合"的Transformer结构,将对话历史进行降噪处理,并聚合文档信息以生成回复。在公开数据集CMU_DoG上的实验表明,我们提出的模型优于最新的基线模型。代码和数据将在Github中发布。

06

题目:Towards Fine-Grained Transfer: An Adaptive Graph-Interactive Framework for Joint Multiple Intent Detection and Slot Filling

作者:覃立波、徐啸、车万翔、刘挺

录用类别:Findings of EMNLP 子刊

简介:在现实世界中,用户在同一个话语中通常有多个意图。遗憾的是,大多数口语理解(SLU)模型要么主要集中于单一意图场景,要么简单地将所有意图信息整合到一个统一的向量去指导槽位填充,忽略了细粒度的多意图信息整合。在本文中,我们提出了一个自适应图交互框架(AGIF),用于联合多意图检测和槽位填充。AGIF通过引入意图-槽位的图交互层,来建模槽位和多意图之间的相关性。这种交互层能够自适应地应用于每个单词,可以自动为每个槽位分别捕获相关的意图信息,从而为单词级别的槽位填充进行细粒度的意图信息指导。实验结果表明,我们的方法不仅在两套多意图数据集上获得了SOTA结果,而且还在两个单意图的数据集上实现了更好的性能。

07

题目:Enhancing Content Planning for Table-to-Text Generation with Data Understanding and Verification

作者:龚恒,闭玮,冯骁骋,秦兵,刘晓江,刘挺

录用类别:Findings of EMNLP 子刊

简介:基于神经网络的表格到 文本生成 模型可以选择和排序重要数据,并通过surface realization阶段来流畅地用文字表达它们。分析已有工作的结果,当前模型的性能瓶颈在于内容 规划 阶段(从表格数据中选择和排序重要内容)。在surface realization阶段,如果将输入的标准的内容 规划 结果替换为模型预测的内容 规划 时,性能将急剧下降。在本文中,我们提出以下方法来增强基于神经网络的内容 规划 模块:(1)通过上下文数值表示来理解数据,将对数据进行比较的概念引入内容 规划 阶段;(2)通过策略梯度验证所选数据序列的重要性和顺序。 我们在ROTOWIRE和MLB两个数据集上评估了我们的模型。结果表明,在内容 规划 指标方面,我们的模型优于现有系统。

08

题目:CodeBERT: A Pre-Trained Model for Programming and Natural Languages

作者:冯掌印,郭达雅,唐都钰,段楠,冯骁骋,公明,寿林钧,秦兵,刘挺,姜大昕, 周明

录用类别:Findings of EMNLP 子刊

简介:本文我们提出了一个叫做CodeBERT的双模态预训练模型,也是目前已知第一个适用于NL-PL(自然语言-编程语言)的预训练模型。CodeBERT通过学习一般性的表示来支持下游NL-PL相关的应用,比如自然语言代码检索,代码文档生成等。和目前大多数预训练模型类似,CodeBERT使用Transformer作为基本的网络结构。为了利用NL-PL对的双模数据和大量单模代码数据,我们采用了混合 目标函数 来训练CodeBERT,包括标准的掩码 语言模型 (MLM)和替换词检测(RTD)。实验结果表明,CodeBERT在下游的自然语言代码检索和代码文档生成任务上都取得了SOTA效果。为了进一步研究CodeBERT学到了哪些类型的知识,我们构造了第一个NL-PL的probing数据集,然后固定预训练好的 参数 来对模型进行检测。实验结果显示,CodeBERT比其它预训练模型在NL-PL的probing上表现更好。目前CodeBERT已开源:https://github.com/microsoft/CodeBERT。

09

题目:Revisiting Pre-Trained Models for Chinese Natural Language Processing

作者:崔一鸣,车万翔,刘挺,秦兵,王士进,胡国平

录用类别:Findings of EMNLP 子刊

简介:BERT及其相关变种预训练 语言模型 在众多自然语言处理任务中获得显著性能提升。在本文中,我们探究了这些模型在中文场景下的效果变现,并将相关模型进行开源。同时,我们也提出了一个简单有效的预训练 语言模型 MacBERT,并提出了MLM as correction (Mac) 预训练任务。我们在多个中文自然语言处理任务中评测了这些模型的效果,并且实验结果表明MacBERT在多个任务中达到了state-of-the-art效果。

本期责任编辑:丁 效

本期编辑:赖勇魁

哈工大SCIR
哈工大SCIR

哈尔滨工业大学社会计算与信息检索研究中心

入门 EMNLP 2020