清华大学李涓子教授 : THUKC世界知识图谱——XLORE

2019-01-29 16:26:00

刘大牛

转自文章

801

2019年1月21日，清华大学人工智能研究院在清华大学FIT楼举行了知识智能研究中心成立仪式暨知识计算平台发布会，清华大学副校长、清华大学人工智能研究院管委会主任尤政院士，人工智能研究院院长张钹院士、常务副院长孙茂松教授出席了仪式并致辞。

在此次发布会上，我国知识计算领域专家李涓子做了学术报告，介绍XLORE多语言知识图谱。

文末附PPT及演讲视频

XLORE简介

XLORE是融合中英文维基、法语维基和百度百科，对百科知识进行结构化和跨语言链接构建的多语言知识图谱，是中英文知识规模较平衡的大规模多语言知识图谱。知识图谱以结构化的形式描述客观世界中概念、实例、属性以及它们之间丰富的语义关系。XLORE中的分类体系基于群体智能建立的维基百科的Category系统。XLORE包含16,284,901个的实例，2,466,956个概念，446,236个属性以及丰富的语义关系。

Xlore三大特点：

（1）聚力了两大中文百科中英文平衡的图谱。

（2）具有更丰富的语义关系，基于isA关系验证。

（3）拥有多种查询接口，助力第三方使用。

发展情况：

团队介绍：

团队成员主要包括：

• 李涓子

清华大学知识工程实验室负责人，清华大学计算机系教授，中国中文信息学会语言与知识计算专委会主任、中国计算机学会术语委员会执行委员。

知识图谱，新闻与社会网络挖掘

• 张鹏：系统设计

• 侯磊：新闻挖掘，知识图谱

• 金海龙：表示学习，实体分类

• 吕鑫：表示学习，知识推理

应用案例：

实体链接系统 Entity Linking System

XLink是基于跨语言知识库 XLORE的实体链接系统，用户输入一篇文本文档（如新闻、博客等），XLink识别出文档中的实体并链接到XLORE相对应的实体上。实体链接将文本信息和知识库桥接起来，为文本理解提供了外部知识，同时，帮助读者理解有歧义的、生僻的实体，提高文本理解能力。

新闻事件分析挖掘和搜索系统实体链接系统 NewsMiner

使用最前沿的自然语言处理、机器学习和深度学习方法从语义层面分析新闻数据，同时处理中英文新闻数据，并实现语义级跨语言内容聚合对齐。全新的事件-话题-实体新闻表示模型摆脱传统新闻平面式展示和阅读体验。千万级百科知识库（XLORE）为基础读者提供更为丰富的背景知识。

应用服务：

XLORE API

XLORE API是为xlore.org设计开发的在线跨语言知识图谱数据服务API。

包括词条检索、关键字检索、概念检索、实例检索、先关机构人物检索、实体关系检测。

词条检索

使用URI作为参数从XLORE中获取URI指定的词条信息：包括名称（Label），上级概念（Super Class），相关概念（Related Class），Infobox（Property），摘要（Abstract），类型（Type）。

关键字检索

使用关键词作为条件模糊查询 XLORE，获取可能的概念（Class）或者实例（Instance）。

概念检索

使用关键词为条件查询 XLORE中的概念（Class），并获得概念的简要信息，包括概念的名称（Label），URI 上级概念（Super Class）、下级概念（Sub Class）和实例（Instance）。当结果多余10个时，仅返回前10条。

实例检索

使用关键词为条件查询 XLORE中的实例（Instance），并获得实例的简要信息：包括实例的名称（Label）， URI和类型（Type），相关概念（Class）和相关实例（Instance)。当结果多于10个时，仅返回前10条。

相关机构人物检索

使用URI为条件查询 XLORE中的概念（Class）、实例（Instance）的相关机构和人物实例，并获得实例的简要信息：包括实例的名称（Label）， URI和类型。当结果多于10个时，仅返回前10条。

实体关系预测

近一年API调用174余万次，覆盖了58个国家或地区，国内129个城市。

XLINK

XLink是基于跨语言知识库 XLORE的实体链接系统。
XLink能够识别出用户输入的文本文档（如新闻、博客等）中的实体，并链接到XLORE相对应的实体（概念、实例）上。
XLink将文本信息和知识图谱桥接起来，为文本理解提供了外部知识。同时，XLink帮助读者理解有歧义的、生僻的实体，提高文本理解能力。

相关比较

与国际著名知识图谱数据比较：

DBpedia—最早的维基类知识图谱
Freebase—Google知识图谱的核心
YAGO和BabelNet—2017年IJCAI卓越论文奖

PPT具体内容：

演讲视频

清华大学知识智能研究中心发布会（上）

清华大学知识智能研究中心发布会（下）

AMiner学术头条

AMiner平台由清华大学计算机系研发，拥有我国完全自主知识产权。系统2006年上线，吸引了全球220个国家/地区800多万独立IP访问，数据下载量230万次，年度访问量1000万，成为学术搜索和社会网络挖掘研究的重要数据和实验平台。

https://www.aminer.cn/

专栏二维码

理论清华大学李涓子知识图谱 XLORE

发表评论

文章分类

联系我们

联系人：	透明七彩巨人
Email：	weok168@gmail.com