【技术白皮书】第三章:文本信息抽取模型介绍——实体抽取方法:NER模型(下)
- 2023-04-06 13:48:00
- 刘大牛 转自文章
- 230
3 .1.4 常用的实体抽取模型
Lattice LSTM
新加坡科技设计大学的研究者 2 018 年在论文《 Chinese NER Using Lattice LSTM 》中提出了 新型中文命名实体 地 识别方法 Lattice LSTM 。
作为信息抽取的一项基本任务,命名实体识别(NER)近年来一直受到研究人员的关注。该任务一直被作为序列标注问题来解决,其中实体边界和类别标签被联合预测。英文 NER 目前的最高水准是使用 LSTM-CRF 模型实现的,其中字符信息被整合到词表征中。
中文 NER 与分词相关。命名实体边界也是词边界。执行中文 NER 的一种直观方式是先执行分词,然后再应用词序列标注。然而,分割 → NER 流程可能会遇到误差传播的潜在问题,因为 NE 是分割中 OOV 的重要来源,并且分割错误的实体边界会导致 NER 错误。这个问题在开放领域可能会很严重,因为跨领域分词仍然是一个未解决的难题。已有研究表明,中文 NER 中,基于字符的方法表现要优于基于词的方法。
lattice LSTM算法原理:
基于字符的 NER 的一个缺陷在于无法充分利用显性的词和词序信息,而它们是很有用的。为了解决这一问题,研究者利用 lattice LSTM 来表征句子中的 lexicon word,从而将潜在词信息整合到基于字符的 LSTM-CRF 中。如图 1 所示,研究者使用一个大型自动获取的词典来匹配句子,进而构建基于词的 lattice。因此,词序如「长江大桥」、「长江」和「大桥」之类的单词序列来消除上下文中潜在相关命名实体的歧义,如人名「江大桥」。
由于在网格中存在指数级数量的词-字符路径,因此研究者利用 lattice LSTM 结构自动控制从句子开头到结尾的信息流。如图 2 所示,门控单元用于将来自不同路径的信息动态传送到每个字符。在 NER 数据上训练后,lattice LSTM 能够学会从语境中自动找到更有用的词,以取得更好的 NER 性能。与基于字符和基于词的 NER 方法相比,lattice LSTM提出的模型的优势是具有利用显式单词信息进行字符序列标记的优势,而且不会出现分词错误。
结果表明,lattice LSTM模型显著优于基于字符的序列标注模型和使用 LSTM - CRF 的基于词的序列标注模型,在不同领域的多个中文 NER 数据集上均获得最优结果。
算法模型:
研究者遵循最好的英文 NER 模型,使用 LSTM-CRF 作为主要网络结构。形式上,指定输入句子为 s = c 1 ,c 2 , … , c m ,其中 c j 指第 j 个字符。s 还可以作为词序列 s = w 1 ,w 2 , … ,w n ,其中 w i 指句子中的第 i 个词,使用中文分词器获得。研究者使用 t(i, k) 来指句子第 i 个词中第 k 个字符的索引 j。以图 1 中的句子为例。如果分词是「南京市 长江大桥」,索引从 1 开始,则 t(2, 1) = 4 (长),t(1, 3) = 3 (市)。研究者使用 BIOES 标记规则进行基于词和基于字符的 NER 标记。
C haracter -Based Model :
在基于 字符 的模型中,使用LSTM-CRF对子序列c 1 , C 2 , … , c m 建模,每个c j 的表示为下 :
e c 表示字嵌入的查找表,即xc j ;表示查找到的第j个字符的向量
双向的LSTM使用x 1 , x 2 ,·.·, x m 得到双向的隐藏状态 , 每个字的隐藏状态向量表示为 :
标准 CRF模型会使用 hc 1 ,hc 2 ,;...,hc m 进行序列标注,得到对应的实体信息 。
Word-Based Model :
基 于词汇的模型 如图(b)所示。它采用单词嵌入 e w (w I )表示每个单词w I :
其中e w 表示单词嵌入查找表。
双向 LSTM(等式11)用于获得单词w1 , w2 , … , wn的从左到右的隐藏状态序列和从右到左的隐藏状态序列。最后,对于每个单词,将其连接为其表示形式 。将 w i 中的字符表示为xc i 通过将e w (w i )和xc i 串联得到新的单词表示 :
Lattice model :
word-character lattice 模型的总体结构如图2所示 。它可以看作是基于字符模型的扩展,集成了基于字符的单元和用于控制信息流的附加门。
如图 (c)所示,模型的输入是字符序列c 1 , c 2 , … , c m ,以及匹配词典D中单词的所有字符子序列。如 前文 所示, 模型 使用自动分割的大型原始文本构建D。使用wd b,e 表示以字符索引b开始,以字符索引e结束的子序列,即wd 1,2 为“ 南京(Nanjing) ”和wd 7,8 是“ 大桥 (B ridge )”。
该模型涉及四种类型的向量,即输入向量、输出隐藏向量、单元向量和门向量。作为基本组件,字符输入向量用于表示基于字符的模型中的每个字符 c j :
与基于字符的模型不同, cc j 的计算现在考虑了词典子序列句子中的wd b,e 。特别地,每个子序列w d b,e 表示为 :
此外,从句首开始加入word cell cw b,e 用于表示xw b,e 的循环状态 。带有cw b,e , 信息流入每个cc j 有更多的循环路径。例如,在图2中,cc 7 的输入源包括xc 7 (桥 B ridge )、cw 6,7 ( 大 桥 B ridge )和cw 4,7 (长江大桥 Yangtze River Bridge) 。最终隐藏向量 hc j 仍按 基本 recurrent LSTM函数计算。
解码:
解码部分 使用的是标准的C RF 层。使用一阶 Viterbi 算法在基于单词或基于字符的输入序列上找到得分最高的标签序列。
实验结果:
在Lattice LSTM论文中,总共选取了四个数据集作为实验数据。分别是:Onto Notes 4 、 MSRA 、 Weibo NER 以及研究者自行标注的中文数据集。
得到了如下 4 个表所示的实验结果。
OntoNotes测试结果如表5所示。通过 黄金比例 分割, Lattice LSTM 基于单词的方法在双语数据集上 得到了与 最先进的 方法 (Che et al.,2013 《 Named entity recognition with bilingual constraints. 》 ;Wang et al.,2013 《 Effective bilingual constraints for semi-supervised learning of named entity recognizers. 》) 有竞争力的结果。这表明,与其他语言一样,LSTM-CRF是基于单词的中文NER的竞争选择。此外,结果表明, Lattice LSTM 基于word的模型可以作为具有高度竞争力的基线。在自动切分的情况下,word+char+bichar LSTM的F1得分从75.77%下降到71.70%,显示了切分对NER的影响。与开发集上的观察结果一致,添加 Lattice信息会达到 88.81%!F1成绩比character baseline 从 88.81%提高 到 93.18%!添加bichar+softword, 会提高到 91.87%。 Lattice LSTM 模型在自动分割方面 也得到 了最好的F1 -score 。
MSRA数据集的结果如表6所示。对于这个基准测试,测试集上没有可用的goldstandard分段。 Lattice LSTM 选择的分割器在5倍交叉验证训练集上的准确率为95.93%。数据集上的最佳统计模型利用了丰富的手工特征和字符嵌入特征(Lu et al.,2016 《 Multi - prototype Chinese character embedding. 》 )。Dong等人( 《 Character - based LSTM-CRF with radical-level features for Chinese named entity recognition. 》 )开发了具有激进特征的神经LSTM-CRF。与现有的方法相比, Lattice LSTM 的基于单词和基于字符的LSTM-CRF模型具有较高的精度。lattice模型显著优于基于字符和基于单词的最佳模型(p<0:01),在这个标准基准上取得了最好的结果
微博 NER数据集的结果如表7所示,其中NE、NM和OVERALL分别表示命名实体、标称实体(不包括命名实体)和两者的F1分数。此数据集没有黄金标准分段。现有最先进的 方法 包括Peng和Dredze( 《 Improving named entity recognition for Chinese social media with word segmentation representation learning. 》 )以及He和Sun( 《 A unified model for cross-domain and semi-supervised named entity recognition in Chinese social media. 》 ),他们探索了丰富的嵌入特征、跨域和半监督数据 。
中文标注数据集 NER测试数据的结果如表8所示。与OntoNotes和MSRA上的观察结果一致,lattice模型在微博和简历上的表现明显优于基于单词的模式和基于字符的模式(p<0:01),提供了最先进的结果。
结论:
总的来说,这篇论文是在中文NER领域引入词汇信息,改善了之前仅利用字符来做NER的情况,这也是中文本身的特点,仅仅按字符来划分丢失了太多语境。作为中文NER领域引入词汇信息的开山之作,其对后续研究工作有较深的影响。
CAN-NER
2019 年论文《 CAN-NER: Convolutional Attention Network for Chinese Named Entity Recognition 》 提出了用基于注意力机制的卷积神经网络架构 。
采用一种卷积注意网络 CAN,它由具有局部attention的基于字符的CNN和具有全局attention的GRU组成,用于获取从局部的相邻字符和全局的句子上下文中信息 ,增强了模型隐式捕捉字符序列间局部上下文关系的能力 。首先模型输入的是字符,卷积注意力层用来编码输入的字符序列并隐式地对局部语义相关的字符进行分组。对输入进行向量嵌入,包含字向量、分词向量和位置向量,得到输入向量后,采用局部 local attention来捕捉窗口范围内中心词和周围词的依赖,局部 attention 的输出被送到 CNN 中,最后采用加和池化方案。得到局部特征后,进入到BiGRU-CRF 中,而后采用全局的 attention来进一步捕捉句子级别的全局信息。后面接 CRF,得到分类结果。self-attention 可以捕捉广义的上下文信息,减少无用中间词的干扰。
C AN-NER 算法原理:
C AN-NER 模型使用 BiGRU-CRF作为基本模型结构 ,其完整模型结构为:Embedding+ Convolution Attention + GRU + Global Attention + CRF
Convolution Attention层:卷积注意层的目的是对输入字符序列进行编码,并在本地上下文中隐式分组与意义相关的字符。
Global Attention:捕获长序列句子级别的关系
首先模型输入的是字符,卷积注意力层用来编码输入的字符序列并隐式地对局部语义相关的字符进行分组。输入用x=[x ch ; x seg ]表示,其中 x ch 代表word2vec的词向量, x seg 表示分词信息。
对输入进行向量嵌入,包含字向量、分词向量和位置向量,d e =d ch +d pos +d seg 得到输入向量后,在窗口内应用局部 attention来捕获中心字符和每个上下文标记之间的关系,然后加上带有加和池化层的 CNN。将隐藏维度设置为d h 。
在通过卷积注意层提取局部上下文特征后,将其输入到基于 BiGRU-CRF的模型中,以预测每个字符的最终标签。该层对顺序句子信息进行建模 。而后采用全局的 attention来进一步捕捉句子级别的全局信息。最后,在 BiGRU和 global attention 层输出的串联顶部使用标准CRF层 。在解码时,模型使用 Viterbi 算法来获得预测的标签序列。
实验结果:
实验中使用了四个数据集。对于新闻领域,C AN-NER 在 OntoNotes 和SIGHAN Bakeoff 2006 的MSRA NER数据集上进行了实验。对于社交媒体领域, C AN-NER采用了与 P ENG和Dredze (2015)的注释微博语料库,该语料库摘自新浪微博。为了让测试领域更加多样化, C AN-NER还使用了从新浪财经收集的中文 注释 数据集。
下表是各数据集的统计情况:
下表是C AN-NER 在 W eibo NER 数据集上的实验结果。在这里,实验将C AN-NER 的模型与微博数据集上的最新模型进行比较。 表2显示了命名实体(NE)、标称实体(NM,不包括命名实体)和两者(总体)的F1分数。 可以 观察到, 实验 提出的模型达到了最先进的性能。
先进的方法包括 Peng and Dredze (2016 《 Improving named entity recognition for chinese social media with word segmentation representation learning. 》) 、He and Sun (2017b 《 A unified model for cross-domain and semi-supervised named entity recognition in Chinese social media. 》) 、Cao et al. (2018 《 Adversarial transfer learning for Chinese named entity recognition with self-attention mechanism. 》) 以及Zhang and Yang (2018 《 Chinese ner using lattice lstm 》) ,它们利用了丰富的外部数据,如跨域数据、半监督数据和词典,或联合训练NER和中文分词(CWS)。在表2的第一部分, 实验 报告了最新模型的性能。Peng and Dredze (2015 《 Named entity recognition for chinese social media with jointly trained embeddings. 》) 提出了一种与NER联合训练嵌入的模型,该模型的总体性能F1得分为56.05%。联合训练NER和CWS的模型(Peng和Dredze,2016)F1得分达到58.99%。He和Sun(2017b) 提出了一种利用跨域和半监督数据的统一模型,与 He和Sun(2017a)提出的模型相比,F1得分从54.82%提高到58.23%。Cao等人(2018年)使用对抗性迁移学习框架整合CWS中的任务共享单词边界信息,F1得分为58.70%。Zhang和Yang(2018)利用晶格结构将词典信息集成到他们的模型中,F1得分为58.79%。
在表 2的第二部分中, 实验 给出了 Baseline 和CAN-NER模型的结果。虽然BiGRU+CRF基线只获得了53.80%的F1分数,但添加一个正常的CNN层作为特征化器将分数提高到55.91%。用CAN-NER的卷积注意层取代CNN,F1得分大大提高到59.31%,优于其他模型。改进证明了CAN-NER的模型的有效性。
中文标注数据集测试结果如表 3所示。 Zhang 和 Yang (2018)发布了中文 标注 数据集,他们的F1得分为94.46%。可以看出, 实验 提出的 Baseline (CNN+BiGRU+CRF)优于 Zhang 和 Yang (2018),F1得分为94.60%。添加CAN-NER的卷积注意力会导致进一步的改进,并达到最先进的F1分数94.94%,这进一步证明了CAN-NER的模型的有效性。
表 4显示了 在 OntoNotes 4数据集的比较。表中的第一块列出了 中文 NER以前方法的性能。Yang et al.(2016 《 Combining discrete and neural features for sequence labeling 》 )提出了一种神经和离散特征相结合的模型,例如词性标注特征、CWS特征和正交特征,将F1得分从68.57%提高到76.40%。利用双语数据,Che et al.(2013 《 Named entity recognition with bilingual constraints. 》)和 Wang et al. ( 2013 《 Effective bilingual constraints for semi-supervised learning of named entity recognizers. 》) 的F1成绩分别为74.32%和73.88%。Zhang and Yang(2018)是一个新的模型,它使用了基于角色的模型,并使用了bichar和softword。
表 4的第二部分显示了 Baseline 和CAN-NER模型的结果。与微博和 中文标注 数据集上的观察结果一致, CAN-NER卷积注意力层导致F1分数大幅增加。CAN-NER的模型在不使用外部数据的情况下,在基于字符的模型中,F1得分达到73.64%(例如,Zhang和Yang(2018))。
表 5显示了MSRA 2006数据集的实验结果。Chen et al.(2006)、Zhang et al.(2006)和Zhou et al.(2013)利用丰富的手工特征,Lu et al.(2016)利用多原型嵌入特征。Dong等人(2016)将字根特征引入LSTM-CRF。Cao等人(2018年)利用对抗性迁移学习和 global self- attention来提高模型性能。Yang等人(2018a)提出了一种基于字符的CNN BiLSTM CRF模型,以结合笔划嵌入并生成n-gram特征。Zhang和Yang(2018)引入了一种 晶格结构,将词典信息纳入神经网络,神经网络实际上包含单词嵌入信息。虽然该模型达到了最先进的 F1分数93.18%,但它利用了外部词典数据,因此结果取决于词典的质量。在表格的底部,可以看到 Baseline +CNN已经优于以前的大多数方法。与Zhang和Yang(2018)相比,CAN-NER的基于字符的方法在没有任何额外的词典数据和单词嵌入信息的情况下获得了92.97%的F1分数。此外,CAN-NER模型在基于角色的模型中取得了最先进的结果。
实验结果分析:
C AN-NER 的模型优于之前在 W eibo和自行标注的数据集上的研究,在不使用任何外部资源的情况下,在 MSRA和OntoNotes 4数据集上都取得了有竞争力的结果。实验结果证明了 C AN-NER的有效性,尤其是在基于字符的模型中。添加卷积注意层和全局注意层后的性能改进验证了 C AN-NER能够捕捉角色与其局部上下文之间的关系,以及单词与全局上下文之间的关系。然而,尽管 C AN-NER可以获得与不使用外部资源的其他模型相当或更好的结果,但 实验 发现 C AN-NER在OntoNotes 4数据集上的模型性能仍有改进的余地(与利用额外数据的最佳模型相比,F1分 数差距为 2.76%)。这可能是因为特定的离散特征和外部资源(例如,其他标记数据或词汇)对该特定数据集具有更积极的影响,而CAN-NER无法仅从训练集中学习足够的信息。 但研究员 无法根据可用的相应资源确定造成差距的确切原因。
结论:
C AN-NER 提出了一种卷积注意网络模型 ,以提高中文NER的性能,避免单词嵌入和额外的词汇依赖;从而使模型更加高效和健壮。在 C AN-NER中, 模型 实现了具有global self-attention结构的local-attention CNN和Bi-GRU,用字符级特征捕获单词级特征和上下文信息。大量实验表明,在不同领域的数据集上, C AN-NER优于最先进的系统。
参考文献:
Jing Li, Aixin Sun, Jianglei Han, and Chenliang Li , “ A Survey on Deep Learning for Named Entity Recognition, ” IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING, 2020
Yuying Zhu , Guoxin Wang ,“ CAN-NER: Convolutional Attention Network for Chinese Named Entity Recognition ”, Proceedings of NAACL-HLT 2019, pages 3384–3393
Yue Zhang , Jie Yang , “ Chinese ner using lattice lstm ” In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics, volume 1, pages 1554–1564.
合合信息是一家人工智能及大数据科技企业,基于自主研发的领先的智能文字识别及商业大数据核心技术,为全球C端用户和多元行业B端客户提供数字化、智能化的产品及服务。
联系人: | 透明七彩巨人 |
---|---|
Email: | weok168@gmail.com |