基于表示学习的信息抽取方法浅析

2016-11-15 16:51:00
刘大牛
转自文章
230

1 引言

信息抽取(Information Extraction)是自然语言处理任务中的一个重要研究方向,其目的是从自然语言文本中抽取实体,关系和事件等事实信息,并形成结构化的数据输出 [1]。例如从人物自传中抽取出其姓名,年龄,出生地,工作单位,亲属以及去过哪里担任过哪些职务。该任务起始于二十世纪八十年代,在Message Understanding Conference (MUC) [3]、Automatic Content Extraction (ACE) [4] 以及Text Analysis Conference (TAC) [8] 等评测会议的大力推动下,文本信息抽取技术的研究得到蓬勃发展。在这些评测中,语言学专家往往都已将这些事实信息预先定义为不同的类别,人们只需要识别这些事实信息并将其分类即可,例如实体可分为:人名、地名和机构名。

从2010年开始,深度学习席卷整个人工智能领域,在机器学习,自然语言处理,图像识别和语音合成等多个重大领域的研究均有重大突破,在信息抽取领域亦是如此,科学家们将信息抽取任务转化为序列标注任务,通过不同的神经网络结构学习出词汇的表示和句子的表示,并在此基础上进行事实信息的识别和分类,与传统机器学习方法相比,这些表示信息不需要人工进行特征选择,也不需要依赖于现有的自然语言处理工具,因此不但节省人工也能避免pipeline系统中所产生的误差积累。根据最新统计,在2016年nlp顶会ACL (Annual Meeting of the Association for Computational Linguistics)的IE session中,仅有两篇论文未使用基于表示学习的方法。

为了追赶时下最新的研究浪潮,本文以基于表示学习的信息抽取方法为主题,重点介绍文本实体抽取、关系抽取和事件抽取的任务描述和研究方法,并且每个任务将给出一篇相关论文做具体讲解.(本文中将会用到LSTM [7],CNN [11]  和Softmax [6]  三种基本的神经网络结构,其具体描述可见公众号之前分享的深度学习教程,这里不进行详细描述)

2 基于表示学习的命名实体抽取

2.1 任务定义



命名实体识别任务旨在识别出待处理文本中三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体,也有一些研究针对一些特定领域的特定类型的命名实体(例如:产品名称、基因名称等)进行研究。在实体识别任务中,为了更好的划定实体的边界,研究者们设计了一套基于IOBES的表示方法,其中B代表某一实体的开始单词,I代表该单词属于实体的一部分但并非最开始和最后一个,E代表某一实体的结束单词,S代表某一单词单独即为实体,O代表不属于实体的单词;例如一句英文描述Mark Watney visited Mars’,Mark’标注为B-Per’代表一个人名的开始,Watney’ 是 E-Per’ 代表一个人名的结尾,Mars’是`S-Loc’表示`Mars’本身即是一个地点实体。

2.2 方法



接下来我们详细介绍Lample等人在NAACL2016发表的一篇论文《Neural Architectures for Named Entity Recognition》 [10],其主要特点有二:第一点是设计并实现了一个 基于表示学习的CRF layer [9] , 该层有效捕获了标签间的依存信息,例如(e.g., I-PER 标签不能跟在 B-LOC 标签后)。二是用一个Character-based lstm去学习单词的字符级表示,该表示可以很好的解决语料中未登录词的问题。

图1  基于双向LSTM和CRF的神经网络框图

图1是该论文给出一个神经网络结构图,其系统的输入是一句文本 ,其中每一个单词都被表示成一个向量; 之后将每一个词的向量输入到一个双向lstm网络当中,之后每一个词能够获得一个基于前向信息的表示 和一个基于后向信息的表示 ,再将这两种表示串联到一起 作为该单词在本句话中的一个潜在表示。之后作者实现了一个crf layer来学习label之间的潜在依存关系,公式如下:

其中P是双向lstm输出的向量矩阵,P的大小是 ,n是句子单词的个数,k是分类标签的个数,表示一句话中第i个词是label j的概率。A表示转移矩阵。 表示从 的转移权重。最终所得到的概率表示输入到一个softmax函数进行分类。

接下来我们将简要介绍该论文是如何用character信息去学习word的向量表示。其具体实现如图2所示,将之前的句子替换成单词,将原先的单词替换成每一个字符,采用相同的结构来学习不同字符组合的表示,因此不论单词是否出现在训练语料或者之前pre-train的word embedding里,其都能根据字符给每个单词生成一种表示,该方法可以避免未登录词现象。

图2 基于双向LSTM的字符级word embedding表示方法框图

2.3 实验分析

该论文最终在四种语言上验证了其方法的有效性(英语、德语、荷兰语和西班牙语,CoNLL-2002 and CoNLL- 2003),详细参数可参考原文,具体结果如图3所示,从实验效果可以看到,该方法在四中语言中均取得了较好效果,并且说明对于命名实体识别任务character是一种非常有效的特征。

(a) 英语

(b) 德语

(c) 荷兰语

(d) 西班牙语

图3  命名实体识别实验结果



3 基于表示学习的实体关系抽取

3.1 任务定义



实体关系识别是一项自顶向下的信息抽取任务,需要预先定义好关系类型体系,然后根据两个实体的上、下文预测这两个实体之间的语义关系属于哪一种关系类别,其目的在于将实体间的抽象语义关系用确定的关系类型进行描述。我们一般只对同一句话中的两个实体进行关系识别,因此这个任务可以描述为:给定一个句子 s 以及 s 中的两个实体 Entity1 和 Entity2,预测 Entity1 和 Entity2 在句子 s 中的关系类型 rel,rel 的候选集合是预先定义好关系类型体系 R。例如(英国,卡梅伦)在句子“卡梅伦当选英国首相”中是“雇佣”关 系,而在句子“卡梅伦出生于英国”中是“籍贯-出生地”关系.

3.2 方法



我们简单介绍一下zeng发表于coling 2014的一篇文章《Relation Classification via Convolutional Deep Neural Network》[12] ,该论文获得了当年的best paper。

其主要思想是将实体对的表示分为两类不同特征表示,一类是词典特征,一类是句子全局特征。其结构图如下图所示:

图4  面向关系抽取任务的神经网络表示框图

该系统输入是一个带有实体对标注的句子,句子中的每一个词都会经过一个look up层从之前pre-trai的word embedding中找到对应的向量表示,之后用这些向量表示来学习词典特征和句子特征,最终将这两种特征串联起来通过一个softmax layer进行分类。

图5  字典特征

其词典特征主要包含实体对的实体词,实体对两个词相邻词,以及实体对的上位词,最终将这些词的向量表示串联起来,输入给最终决策层。如图5所示。

其句子表示主要由两部分组成,一部分是单词特征,即word embedding本身,还有一部分是位置特征,即句子中单词距离实体对的相对距离,例如一句话`[People] have been moving back into [downtown]‘,其实体对是people和downtown,而moving相对于实体对的距离则是3和-3,该论文将这些位置信息自动表示成向量,与word embedding连接起来作为词表示输入到一个卷机神经网络里并通过一个max-pooling层得到该句子的向量表示,输入决策层,其表示学习过程如图6所示。

图6  基于卷积神经网络的句子表示学习框架图



3.3 实验分析

该论文最终在SemEval-2010 Task 8上进行了测试,和baseline相比其实验效果最优,并且图8说明该论文中抽取的不同特征表示均存在积极作用。

图7  关系抽取实验结果

图8  加入不同特征的实验结果 Andreevskaia2006



4 基于表示学习的事件抽取

4.1 任务定义



事件抽取是信息抽取领域的一个重要研究方向。事件抽取主要把人们用自然语言表达的事件,以结构化的形式表现出来。根据定义,事件由事件触发词(Trigger)和描述事件结构的元素(Argument)构成。图1结合ACE的事件标注标准详细的表述了一个事件的构成。其中,“出生”是该事件的触发词,所触发的事件类别(Type)为Life,子类别(Subtype)为Be-Born。事件的三个组成元素“毛泽东”、“1893年”、“湖南湘潭”,分别对应着该类(Life/Be-Born)事件模板中的三个元素标签,即:Person、Time以及Place。(本文主要介绍事件触发词的抽取和识别)

图9  ‘出生’事件的基本组成要素

4.2 方法

这里我们介绍下我发表在acl2016上的一篇论文《A Language-Independent Neural Network for Event Detection》[5] .

事件触发词识别是一项非常具有挑战性的任务,因为一个词在不同的上下文可以触发不同的事件,例如release在下图中所示。

图10  ‘release‘所触发的事件类型和句法分析结果

我们希望能够根据语言间的相似性构造一个通用事件触发词系统,通过观察发现序列和短语是一种语言独立的结构信息,不论哪一种语言,人在阅读时都是逐字进行的,并且这种序列信息相比于传统的依存信息不会损失重要信息,例如在预测图中第二个句子时,我们知道court是一个线索词,然而在句法遗存中court和release没有直接联系,因此难以预测,然而前向序列可以将court的信息传递给release;此外我们认为任何一种语言实体短语都是连续的成块出现,在预测图中第一个句子时,如果我们知道这是一个关于机构和金钱的话题,我们就很容易来判断release是一个`Transfer-Money‘ 事件,而不是`Release-Parole‘。

得益于深度学习技术的发展,我们分别选择lstm模型和cnn模型来模拟序列信息和局部短语信息。其结构如下图所示:

图11  触发词为 “release”时的事件抽取结构框架图.



图12  卷积神经网络框图

最终我们将这两个网络的输出进行串联并经过一个非线性层输入到softmax layer进行类别识别

4.3 实验分析



下表为我们在英文ace2005语料上的对比结果,我们的模型显著优于传统的事件触发词识别系统和其他深度学习模型。

图13  英文事件触发词识别实验结果

此外,我们在西班牙语和中文上也进行了实验,取得了较好的实验效果。



图14 西班牙语和中文的事件触发词识别实验结果



5 总结与展望

本文简要介绍了信息抽取的相关概念,包括命名实体识别、关系识别和事件识别,并在此基础上针对每一任务重点介绍一篇基于表示学习方法的文章,希望这些信息能够更好的帮助读者进行理解并掌握一定的前沿知识。在本文最后,我们基于大量的调研和近几年的研究经验提出一些值得进一步发掘的研究点:

1. 信息抽取包含多个子任务,这些相关任务之间往往存在着一定的约束和限制,命名实体识别的准确与否是影响关系抽取和事件元素识别的一个重要因素,如果可以对这些子任务的内在机理和特征进行融合,必然会使信息抽取技术的性能得到全面的提高。因此,如何将这些隐含约束加入到现有神经网络模型之中是广大研究人员进一步研究的重点。

2. 目前来看,基于表示学习的信息抽取技术的抽取策略都要依赖于一定的类别体系,这些类别往往都是由语言学专家预先设定,然而无论体系多么丰富,都会在新语料中遇到新的实体、关系或事件类型,超出之前的设定。因此,如何通过表示学习实现一个开放式的信息抽取系统是未来的一个重要研究方向。

3. 关系抽取技术的研究在国外已经有近三十年左右的发展史,积累了相关语料和研究成果,然而,国内针对中文的关系抽取研究起步较晚,并且缺少相关评测支持。因此,对于我们这些中文处理领域的研究者来讲,如何结合中文的特点(中文偏旁部首、汉语拼音),将一些成熟的技术(中文分词)和资源 (Hownet,同义词词林)应用到中文信息取领域是一个值得国内学者积极探索的任务。



作者:哈工大SCIR博士生 冯骁骋

6 参考文献

[1] 赵军, 刘康,周光有, and 蔡黎. 2011. 开放式文本信息抽取. 中文信息学报, 25(6):98–111.

[2] A. Andreevskaia and S. Bergler. 2006. Mining wordnet for fuzzy sentiment: Sentiment tag extraction from wordnet glosses. In Proceedings of EACL, volume 6, pages 209–216.

[3] Nancy Chinchor and Patricia Robinson. 1997. Muc-7 named entity task definition. In Proceedings of the 7th Conference on Message Understanding, page 29.

[4] George R Doddington, Alexis Mitchell, Mark A Przybocki, Lance A Ramshaw, Stephanie Strassel, and Ralph M Weischedel. 2004. The automatic content extraction (ace) program-tasks, data, and evaluation. In LREC, volume 2, page 1.

[5] Xiaocheng Feng, Lifu Huang, Duyu Tang, Bing Qin, Heng Ji, and Ting Liu. 2016. A language-independent neural network for event detection. In The 54th Annual Meeting of the Association for Computational Linguistics, page 66.

[6] Geoffrey E Hinton and Ruslan R Salakhutdinov. 2009. Replicated softmax: an undirected topic model. InAdvances in neural information processing systems, pages 1607–1614.

[7] Sepp Hochreiter and J¨urgen Schmidhuber. 1997. Long short-term memory. Neural computation, 9(8):1735–1780.

[8] Heng Ji, Ralph Grishman, Hoa Trang Dang, Kira Griffitt, and Joe Ellis. 2010. Overview of the tac 2010 knowledge base population track. In Third Text Analysis Conference (TAC 2010), volume 3, pages 3–3.

[9] John Lafferty, Andrew McCallum, and Fernando Pereira. 2001. Conditional random fields: Probabilistic models for segmenting and labeling sequence data. In Proceedings of the eighteenth international conference on machine learning, ICML, volume 1, pages 282–289.

[10] Guillaume Lample, Miguel Ballesteros, Sandeep Subramanian, Kazuya Kawakami, and Chris Dyer. 2016. Neural architectures for named entity recognition. arXiv preprint arXiv:1603.01360.

[11] Yann LeCun, Yoshua Bengio, and et al. 1995. Convolutional networks for images, speech, and time series. The handbook of brain theory and neural networks, 3361(10).

[12] Daojian Zeng, Kang Liu, Siwei Lai, Guangyou Zhou, Jun Zhao, et al. 2014. Relation classification via convolutional deep neural network. In COLING, pages 2335–2344.



本文来源于哈工大SCIR

原文链接点击即可跳转

哈工大SCIR
哈工大SCIR

哈尔滨工业大学社会计算与信息检索研究中心

入门 入门 NLP 深度学习 信息提取 表征学习
2
发表评论
评论通过审核后显示。
文章分类
联系我们
联系人: 透明七彩巨人
Email: weok168@gmail.com