最新知识图谱论文清单,就算看不懂也会忍不住收藏
- 2018-11-15 10:56:00
- 刘大牛 转自文章
- 229
EMNLP 2018
■ 论文解读 | 张良,东南大学博士,研究方向为 知识图谱 、 自然语言处理
本文主要关注 KG embedding 中三元组成立的时间有效性问题,比如三元组(Cristiano Ronaldo, playsFor, Manchester United),其成立的有效时间段是 2003 年到 2009 年,这个使三元组有效成立的时间段被称为 temporal scopes。
这些 temporal scopes 随着时间的推移对许多数据集会产生影响(比如 YAGO,Wikidata), 现有的 KG embedding 方法很少考虑到时间这一维度,因为它们假设所有的三元组总是永远正确的,可是现实中很多情况下不是这样。
本文提出了 HyTE 模型, HyTE 不仅能够利用时间导向进行知识图谱 图推理,还能够为那些缺失时间注释的事实预测 temporal scopes。实验结果表明该模型与传统模型或者同类模型相比都有着突出的表现。
研究背景
知识图谱 嵌入( Knowledge graph embedding)方法是将 知识图谱 中的实体和关系表示成连续稠密低维实值向量,从而可以通过向量来高效计算实体与关系的语义联系。从 2013 年 TransE 的提出,到后来一系列的衍生模型,比如 TransH,TransD,TransR,DKRL, TKRL, RESCAL, HOLE 等等,都是对 TransE 模型的扩展。
这些模型都没有考虑时间维度,一直将知识图谱 当做静态来处理,这显然不符合事实。数据的暴涨与更新表明 知识图谱 本来就是动态的,所以后来有工作将时间信息考虑进去,但只是将时间序列作为 KG embedding 过程中的约束,没有明显地体现时间的特性。为此, 本文提出的 HyTE 模型直接在学习的过程中结合时间信息。
论文模型
本文认为不仅是知识图谱 中的实体可能会随着时间改变,实体间的关系也是如此。由于 TransE 模型不能处理多关系的情形,而 TransH 模型能够使实体在不同的关系下拥有不同的表示,所以 本文受 TransH 的启发提出了一个基于超平面的时间感知 知识图谱 嵌入模型。
考虑一个四元组 ( h,r,t,[ τ s, τ e]),这里的 τ s 和 τ e 分别定义了三元组成立时间段的起始与截止。TransE 模型将实体和关系考虑到相同的语义空间,但是在不同的时间段,实体与关系组成的(h,r)可能会对应到不同的尾实体 t。
所以在本文的模型中,希望实体能够随不同的时间点有着不同的表示。为了达到这一目的,文中将时间表示成超平面(hyperplane),模型示意图如下:
e h ,e t,e r,分别表示三元组中头实体,尾实体以及关系所对应的向量表示, τ 1 和 τ 2 分别表示此三元组有效成立时间段的起始时间与截止时间。e h( τ 1), e r( τ 1) 以及表示各向量在时间超平面 τ 1 上的投影,最终,模型通过最小化翻译距离来完成结合时间的实体与关系 embedding 学习过程。
实验
当实验数据包含两部分:YAGO11k 和 Wikidata12k,这两个数据集抽取了 YAGO 以及 Wikidata 中带有时间注释(time annotations)的部分。通过 Link prediction 以及 Temporal scoping 两个实验任务与其它模型比较,实验结果如下:
实体预测结果
关系预测结果
Temporal Scoping预测结果(越小越好)
实验结果表明,HyTE 模型在相关任务上与其它模型相比有较为显著的提升。
EMNLP 2018
■ 论文解读 | 王梁,浙江大学硕士,研究方向为 知识图谱 、 自然语言处理
研究背景
机器阅读任务按照答案类型的不同,可以大致分为:
分类问题 :从所有候选实体选择一个;
Answer Span:答案是输入文本的一个片段;
生成式问题:模型生成一句话回答问题。
不同的数据集文档的差异也较大。如 SQuAD,CNN/DM 数据集来源于百科,新闻等文本,问题类型多为事实型,因而回答问题不需要综合全文多处进行综合推理,只需要包含答案的句子即可。而本文实验所用的数据集如 NarrativeQA 则来源于小说等,回答问题需要综合全文多处不相连片段进行推理,因此难度更大。
本文提出在 NarrativeQA 等需要多跳推理的文本进行生成式问题回答的模型。人工抽样数据集样本分析发现,许多样本答案的推理单凭文本包含的信息是无法完成推理并回答的,需要引入外部 知识库 中的常识信息。本文提出在常规的机器阅读模型中引入 ConceptNet 中的常识信息。
Baseline模型
按照机器阅读模型的一般性结构,Baseline 模型可以分为 4 层:
1. Embedding Layer:问题和文档里的每个词用预训练的词向量和 ELMo 向量表示;
2. Reasoning Layer:重复执行 K 次推理单元,推理单元的内部结构是 BiDAF 模型的 attention 层;
3. Model Layer:最后再对文档的表示做 self-attention 和 Bi- LSTM ;
4. Answer Layer:pointer-generator decoder,即 RNN 的每一步同时对词表和输入计算输出概率,每个词在当前位置被输出的概率为其在词表中被选中的概率和其在输入中被 copy 的概率之和。
改进模型:引入外部常识
常识挑选
对每一个样本,需要中外部 KG 中选择与之相关的多跳路径,做法如下:
1. 在 KG 中找出多跳路径,其中包含的实体出现在样本的问题或文档中;
2. 对这些路径中的实体节点按照出现次数或 PMI 打分;
3. 类似 beam search,从所有路径生成的输出中挑选出得分最高的一些路径,这些路径是对该样本可能有帮助的外部常识信息。
模型引入常识
引入外部常识通过修改 Reasoning Layer 中的基本单元。具体做法是,每条路径的 embedding 表示为其每个节点的文本 embedding 的简单拼接,修改后的 Reasoning Cell 在经过 BiDAF 的 attention 结构后,再对该样本的所有外部常识三元组路径做 attention 计算,该 attention 计算再次更改文档和问题中每个词的表示。
实验结果
对比 Baseline 模型和引入外部常识的模型可见,引入外部常识能是模型在 BLEU 和 Rouge 等指标上取得不错的提升。
对模型做 ablation test,可以发现推理层的推理次数如果为 1,模型效果下降很多,这表明模型确实在利用多跳的路径信息。另外,ELMo embedding,以及经过 Reasoning 层后的 self-attention,都对模型的效果提升较大。
ISWC 2018
■ 论文解读 | 丁基伟,南京大学博士生,研究方向为 知识图谱 、 知识库 问答
研究背景
面向知识库 的语义问答是指将用户的自然语言问句转换为可以在知识库 上执行的形式化查询 并获取答案,其面临的挑战主要有以下几点:1)实体的识别和链接;2)关系的识别和链接;3) 查询 意图识别;4)形式化 查询 生成。
其中实体链接和关系链接是指将自然语言问句中的词汇(或短语)链接到 知识库 中对应的实体或关系。大多数现有 问答系统 依次或并行执行实体链接和关系链接步骤,而本工作将这两个步骤合并,提出了 基于广义旅行商问题和 基于连接密度相关特征进行机器学习 的两种联合链接方法。
下表展示了不同种类的链接方法的优缺点:
框架及方法
上图展示了本文提出的联合的实体关系链接框架(EARL,Entity and Relation Linking),主要包括如下两个步骤:
预处理步骤(左侧红框) ,包括如下三个子过程:
1. 利用 SENNA 系统从输入的自然语言问句中抽取出若干关键词短语。对于图中输入的问句,这里抽取到的关键词短语是<founder,Tesla, SpaceX, born>。
2. 对于每个关键词,使用基于字符嵌入(character embedding)的 LSTM 网络判断它是 知识库 中的关系还是实体。对于上个过程中的关键词短语,这一步将“founder”和“born”识别为关系, 将“Tesla”和“SpaceX”识别为实体。
3. 为每个关键词短语生成候选实体或关系列表。对于问句中的实体名,利用预先收集的 URI-label 词典,以及 Wikidata 中的实体别名、sameas 关系等进行生成。对于关系词,利用 Oxford Dictionary API 和 fastText 扩展 知识库 上的关系名后进行关联。
联合消歧步骤(右侧黄框) ,主要包括本文提出的两个核心方法:
1. 基于广义旅行商问题(GTSP)的消歧方法。如下图所示,该方法将每个关键词的候选 URI 放入同一个簇。边的 权重 被设置为两个 URI 在 知识库 上的距离(hop 数),而联合消歧过程被建模为在该图上寻找一条遍历每个簇的边权总和最小的路(头尾结点可以不同)。
对于 GTSP 问题的求解,本工作先将其转换为 TSP 问题,后使用 Lin-Kernighan-Helsgaun 近似算法进行求解。图中加粗的边表示该示例的求解结果。
2. 基于连接密度相关特征进行 机器学习 的消歧方法。对于每个关键词的所有候选 URI,分别抽取特征 Ri(候选列表中的排序位置),C(2 步以内可达的其他关键词的候选 URI 的数量),H(到其他关键词的候选 URI 的平均步数)三个特征,采用 XGBoost 分类器筛选最合适的候选。
下表总结了上述两个消歧方法的差异:
3. 额外的,本文提出了一种自适应实体/属性预测方法。如果消歧后某个实体/关系和它最终链接到的 URI 的置信度低于阈值,则可能预处理步骤的第二个子过程(实体/关系预测)有错误。在这种情况下,该工作会更改该关键词的实体/关系标签,重新执行候选生成和消歧步骤,从而获得整体精度的提升。
实验
本文选用了 LC-QuAD 问答数据集进行实验,包含 5000 个问句。其标准答案(实体/关系对应的 URI)采用人工标注的方法进行生成。除此以外本文还选用了现有的 QALD-7 问句集进行测试。
实验结果如下表所示,和对比方法相比,EARL 在 MRR 值上有较大提升。
实体链接结果:
关系链接结果:
IJCAI 2018
■ 解读 | 谭亦鸣,东南大学博士,研究方向为 知识图谱 问答、 自然语言处理
论文动机
近年来,随着多语言 知识图谱 嵌入(Multilingual KG Embedding)的研究,实体的潜在语义表示以及跨语言知识推理等任务均取得一定成效,因此也推动了许多知识驱动的跨语言工作。然而, 受限于各语言知识图谱 之间较低的实体对齐(Entity Alignment)程度,跨语言推理的准确性往往不够令人满意。
考虑到多语言知识图谱 中具有对实体的文字性描述, 文章提出一种基于嵌入(Embedding)的策略:通过利用图谱中实体的文字描述,对仅包含弱对齐(KG 中的 inter-language links,ILLs)的多语图谱做半监督的跨语言知识推理。
为了有效利用图谱知识以及实体的文字描述, 文章提出通过协同训练(Co-train)两个模块从而构建模型 KDCoE:多语言知识嵌入模块和多语言实体描述嵌入模块。
文章贡献如下:
1. 提出了一种 半监督学习 方法 KDCoE,协同训练了多语 知识图谱 嵌入和多语实体描述嵌入用于跨语言知识对齐;
2. 证明 KDCoE 在 Zero-shot 实体对齐以及跨语言 知识图谱 补全(Cross-lingual KG Completion)任务上的有效性;
论文方法
多语言知识图谱 嵌入(KGEM)
由 知识模型(Knowledge Model)和 对齐模型(Alignment Model)两个部分构成,分别从不同角度学习结构化知识。
知识模型:用于保留各语言知识嵌入空间中的实体和关系。文章采用了传统的 TransE 方法构建知识模型,并认为这种方法有利于在跨语言任务重中保持实体表示的统一性,且不会受到不同关系上下文带来的影响。其对应的目标 损失函数 如下:
其中,L 表示某种语言,(Li,Lj) 表示一组语言对,G L 表示语言 L 对应的 知识图谱 , 反映的是图谱中三元组 (h,r,t) 之间的相异度,r 是一个 positive margin,[x]+ 则表示取 x 的正值部分, 表示一组伯努利负采样三元组,用于替换图谱三元组中的 h 和 t。
对齐模型:用于在不同语言的嵌入空间中获取跨语言关联。为了将不同语言间的知识关联起来,文章参照 MTransE 中的线性转换策略,其 目标函数 如下:
其中 (e, e) 是一组已知的对齐实体,当知识嵌入向量的维度为 k 1 时,M ij 是一个 的线性转换矩阵,用于将 L i 语言的实体向量转换为 L j 语言。这里与 MTransE 方法不同的是,文章仅计算了跨语言实体嵌入而非三元组整体嵌入。
KGEM 的目标函数 :
其中,α 是一个正 超参数 。
多语言实体描述嵌入(DEM)
DEM 过程包含两个部分:编码和跨语言嵌入。
编码:文章使用 Attentive Gated Recurrent Unit encoder, AGRU 对多语言实体描述进行编码,可以理解为带有 self-attention 的 GRU 循环网络编码器。
文章希望利用 self-attention 机制使得编码器能够凸显实体描述句子中的关键信息,AGRU 中的 self-attention 可以定义为以下公式:
其中,u t 是由 GRU 中 s t 产生的隐藏表示,attention 权值 a t 则是由一个 softmax 函数计算得到,反映的是单词 x t 对于序列 X 的重要性,而后依据此 权重 与隐藏表示可以得到 self-attention 的输出 v t,|X|(输入序列的长度)用于防止 v t 失去原有的规模。
在这个部分,作者也尝试了其他的编码框架,包括单层网络,CNN,A LSTM 等等,但 AGRU 取得了最好的性能。
跨语言嵌入部分:为了更好的反映出多语言实体描述的词级别语义信息,文章使用跨语言 词嵌入 方法用于衡量和找出不同语言间的相似词汇。大致流程可描述如下:
首先,使用跨语言平行语料 Europarl V7 以及 Wikipedia 中的单语语料,对 cross-lingualBilbowa [Gouws et al., 2015] word embeddings 进行预训练。而后使用上述 embeddings 将实体描述文本转换为向量序列,再输入进编码器中。
DEM 学习目标:文章建立的编码器由两个 堆叠 的 AGRU 层构成,用于建模两种语言的实体描述。该编码器将实体描述序列作为输入,而后由第二层输出生成的 embedding。而后,文章引入了一个 affine 层,将上述各种语言的 embedding 结果投影到一个通用空间中,其投影过程由以下公式描述:
DEM 的目标是最大化各个实体描述 embedding 与对应的其他语言版本之间的 log 相似度,故可以将 目标函数 描述如下:
迭代Co-training的KDCoE模型
文章利用 KG 中存在的少量 ILLs 通过迭代的协同过程训练 KGEM 和 DEM 两个模块,过程大致描述如下:
每次迭代中,各模块都进行一系列“训练-生成”的过程:
1)首先利用已有的 ILLs 对模型进行训练;2)之后利用训练得到的模型从 KG 中预测得到以前未出现过的新 ILLs;3)而后将这些结果整合到已有 ILLs 中,作为下一轮迭代的训练数据;4)判断是否满足终止条件:本轮迭代中各模块不再生成新的 ILLs。
其算法细节描述如下图:
实验
实验相关细节
实验数据说明:文章实验数据来自 DBPedia 中抽取的子集 WK3160k,由英法德三语构成,其中每种语言数据中包含了 54k-65k 规模的实体。具体统计信息如下表:
文章分别在跨语言实体对齐,Zero-shot 对齐以及跨语言 知识图谱 补全等三个任务上进行实验。
其中,跨语言实体对齐选用的基线系统包括:LM,CCA,OT,ITransE 以及 MTransE 的三种策略;Zero-shot 对齐的基线系统为:Single-layer 网络,CNN,GRU,AGRU 的两种策略; 知识图谱 补全的基线系统为 TransE。
实验结果
跨语言实体对齐:如下图所示,文章设置了三组评价指标,分别为:accuracy Hit@1;proportion of ranks no larger than 10 Hit@10;mean reciprocal rank MRR。
从结果上看,KDCoE 模型的性能远优于其他系统,且随着 Co-train 的迭代次数增加,系统的性能也都有较为明显的提升。
Zero-shot 对齐:Zero-shot 采用的评价指标与跨语言实体对齐相同,下图反映了 KDCoE 在 Zero-shot 对齐任务中的实验结果。
从实验结果上看,KDCoE 的效果依然是随着迭代次数的增加而上升,但从第一次迭代的结果可以发现,其优势的来源基础是 AGRU。这也反映出 AGRU 在编码上相对其他网络模型体现出了更优性能。
跨语言知识补全:在跨语言知识补全任务中,文章采用 proportion of ranks no larger than 10 Hit@10;mean reciprocal rank MRR 等两个评价指标。
根据 KDCoE-mono 的表现,可以推断,该模型成功继承了 TranE 保持结构化知识中实体和关系的稳定性。而 KDCoE-corss 则反映引入跨语言信息确实对知识补全的效果起到了明显提升。
总结
本文提出了一种基于 embedding 技术的跨语言知识对齐方法,通过引入 Co-train 机制,将 KG 中的关系上下文与实体描述信息有效的利用起来,以现有 KG 中的小规模 ILLs 为基础建立半监督机制,在跨语言实体对齐,知识补全上都起到了明显的效果。
IJCAI 2018
关键字 :emnlp 2018, coling 2018, iswc 2018, ijcai 2018, 知识图谱, 论文, 知识库, 问答系统, 机器学习, lstm, 注意力机制, encoder-decoder, seq2seq
联系人: | 透明七彩巨人 |
---|---|
Email: | weok168@gmail.com |