清华大学李涓子教授 : THUKC世界知识图谱——XLORE
- 2019-01-29 16:26:00
- 刘大牛 转自文章
- 228
2019年1月21日,清华大学 人工智能 研究院在清华大学FIT楼举行了知识智能研究中心成立仪式暨知识计算平台发布会,清华大学副校长、清华大学 人工智能 研究院管委会主任尤政院士, 人工智能 研究院院长张钹院士、常务副院长孙茂松教授出席了仪式并致辞。
在此次发布会上,我国知识计算领域专家李涓子做了学术报告,介绍XLORE多语言 知识图谱 。
文末附PPT及演讲视频
XLORE简介
XLORE是融合中英文维基、法语维基和 百度 百科,对百科知识进行结构化和跨语言链接构建的多语言 知识图谱 ,是中英文知识规模较平衡的大规模多语言 知识图谱 。 知识图谱 以结构化的形式描述客观世界中概念、实例、属性以及它们之间丰富的语义关系。XLORE中的分类体系基于群体智能建立的维基百科的Category系统。XLORE包含16,284,901个的实例,2,466,956个概念,446,236个属性以及丰富的语义关系。
Xlore三大特点:
(1)聚力了两大中文百科中英文平衡的图谱。
(2)具有更丰富的语义关系,基于isA关系验证。
(3)拥有多种 查询 接口,助力第三方使用。
发展情况:
团队介绍:
团队成员主要包括:
• 李涓子
清华大学知识工程实验室负责人,清华大学计算机系教授,中国中文信息学会语言与知识计算专委会主任、中国计算机学会术语委员会执行委员。
知识图谱 ,新闻与社会网络挖掘
• 张鹏:系统设计
• 侯磊:新闻挖掘, 知识图谱
• 金海龙:表示学习,实体分类
• 吕鑫:表示学习,知识推理
应用案例:
实体链接系统 Entity Linking System
XLink是基于跨语言 知识库 XLORE的实体链接系统,用户输入一篇文本文档(如新闻、博客等),XLink识别出文档中的实体并链接到XLORE相对应的实体上。实体链接将文本信息和 知识库 桥接起来,为文本理解提供了外部知识,同时,帮助读者理解有歧义的、生僻的实体,提高文本理解能力。
新闻事件分析挖掘和搜索系统实体链接系统 NewsMiner
使用最前沿的 自然语言处理 、 机器学习 和 深度学习 方法从语义层面分析新闻数据,同时处理中英文新闻数据,并实现语义级跨语言内容聚合对齐。全新的事件-话题-实体新闻表示模型摆脱传统新闻平面式展示和阅读体验。千万级百科 知识库 (XLORE)为基础读者提供更为丰富的背景知识。
应用服务:
XLORE API
XLORE API是为xlore.org设计开发的在线跨语言 知识图谱 数据服务API。
包括词条检索、关键字检索、概念检索、实例检索、先关机构人物检索、实体关系检测。
词条检索
使用URI作为 参数 从XLORE中获取URI指定的词条信息:包括名称(Label),上级概念(Super Class), 相关概念(Related Class),Infobox(Property),摘要(Abstract),类型(Type)。
关键字检索
使用关键词作为条件模糊 查询 XLORE,获取可能的概念(Class)或者实例(Instance)。
概念检索
使用关键词为条件 查询 XLORE中的概念(Class),并获得概念的简要信息,包括概念的名称(Label),URI 上级概念(Super Class)、下级概念(Sub Class)和实例(Instance)。当结果多余10个时,仅返回前10条。
实例检索
使用关键词为条件 查询 XLORE中的实例(Instance),并获得实例的简要信息:包括实例的名称(Label), URI和类型(Type),相关概念(Class)和相关实例(Instance)。当结果多于10个时,仅返回前10条。
相关机构人物检索
使用URI为条件 查询 XLORE中的概念(Class)、实例(Instance)的相关机构和人物实例,并获得实例的简要信息:包括实例的名称(Label), URI和类型。当结果多于10个时,仅返回前10条。
实体关系预测
近一年API调用174余万次,覆盖了58个国家或地区,国内129个城市。
XLINK
XLink是基于跨语言知识库 XLORE的实体链接系统。
XLink能够识别出用户输入的文本文档(如新闻、博客等)中的实体,并链接到XLORE相对应的实体(概念、实例)上。
XLink将文本信息和知识图谱 桥接起来,为文本理解提供了外部知识。同时,XLink帮助读者理解有歧义的、生僻的实体,提高文本理解能力。
相关比较
与国际著名 知识图谱 数据比较:
DBpedia—最早的维基类知识图谱
Freebase—Google知识图谱 的核心
YAGO和BabelNet—2017年IJCAI卓越论文奖
PPT具体内容:
演讲视频
清华大学知识智能研究中心发布会(上)
清华大学知识智能研究中心发布会(下)
AMiner平台由清华大学计算机系研发,拥有我国完全自主知识产权。系统2006年上线,吸引了全球220个国家/地区800多万独立IP访问,数据下载量230万次,年度访问量1000万,成为学术搜索和社会网络挖掘研究的重要数据和实验平台。
https://www.aminer.cn/联系人: | 透明七彩巨人 |
---|---|
Email: | weok168@gmail.com |