知识图谱构建的研究已走入下半场,但大规模落地应用仍需时间
- 2020-11-04 12:16:00
- 刘大牛 转自文章
- 232
知识图谱 是近年来 人工智能 技术蓬勃发展的核心驱动力之一,已广泛应用在金融、电商、医疗、政务等众多领域,经过短短几年的发展,热度依旧不减,未来, 知识图谱 又将解决哪些其他技术无法解决的问题呢?它又面临着哪些新的挑战?
知识图谱 的发展脉络
作为 人工智能 的一个重要研究领域,其研究和发展可以追溯到第一个 人工智能 浪潮。1968 年图灵奖获得者 Edward Feigenbaum 研发出世界首个 专家系统 DENDRAL ,并随后在第五届国际 人工智能 会议上正式提出知识工程的概念,目标是将知识融入计算机系统用以解决只有领域专家才能解决的复杂问题。1999 年互联网发明人、图灵奖获得者 Tim Berners-Lee 爵士提出 语义网 的概念,核心理念是用知识表示互联网,建立常识知识,但一直苦于规模小、应用场景不清楚而发展缓慢,因此,2012 年以前,学术界和工业界普遍认为 知识图谱 技术处于初级发展阶段。
直到 2012 年,这一状况才有了改变。这一年,谷歌发布了 570 亿实体的大规模 知识图谱 ,其宣传语是“Things, not Strings”给出了 知识图谱 的精髓,即,不要无意义的字符串,而是获取字符串背后隐含的对象或事物,多组研究者也曾独立地提出过相似的理论。“Things, not Strings”理论脱胎于众多著名认知心理学家提出的 Semantic Networks 理论,最为著名的有 Sowa 等人在 1984 年提出的 ConceptNet。在符号主义的思潮中,许多早期 知识图谱 将关系局限为几种特殊的基本关系,如“拥有属性”、“导致”、“属于”等,并定义一系列在图谱上推理的规则,期望通过 逻辑 推理实现智能。
然而,早期 知识图谱 的思路遇到了许多实际的困难,比如结构化知识信息的大量缺失,推理规则的无法穷举问题等。当然,这些问题也并非来自 知识图谱 ,而是符号主义本身的特性。 知识图谱 的缺点本质上都是“二元一阶谓词 逻辑 ”作为知识表示的本身缺陷带来的。知识表示是长久以来研究者孜孜不倦追寻探索的话题,完全依靠(头实体、关系、尾实体)这样的命题,尽管能表示大部分简单事件或实体属性,对于复杂知识却束手无策。
2012 年发布的谷歌 知识图谱 将常识 知识图谱 构建应用于实际系统(Freebase 是谷歌 知识图谱 的前身,它整合了包括许多私人维基在内的大量网络资源,后来被谷歌收购)。自谷歌第一版 知识图谱 推出以来,它在学术界和工业界掀起了一股热潮,随之而来的是各类 知识图谱 如雨后春笋般涌现。
- DBpedia,它从维基百科中抽取结构化知识在进行本体 的构建,通过结构化,用户可以使用 SPARQL 语言进行查询 ;
- YAGO 也是开源知识图谱 ,被应用于 IBM Waston 问答系统 ;
- NELL 则是卡耐基梅隆大学 Tom Mitchell 教授带领开展的知识自动学习—NELL 项目开启了一个机器学习 实现知识图谱 构建的浪潮,目标是持续不断地从网络上获取资源并进行事实发现、规则总结等,里面涉及到命名实体识 别、同名消岐、规则归纳等关键技术;
- ArnetMiner 是面向清华大学 知识工程实验室构建的面向科技领域的知识图谱 ,项目实现了高精度学者画像、同名消歧、智能推荐、趋势分析等关键技术。该工作获得了 ACM SIGKDD 的 Test-of-Time Award(时间检验论文奖),这也是华人团队首次在该领域获得此国际奖项。
知识图谱 的下一步是认知图谱
深度学习 时代的 知识图谱 拥有大量的实体和关系,然而大量不同的关系上很难定义 逻辑 规则,在 知识图谱 上“推理”也转入黑盒模型预测的范式。Bordes 等人的 知识库 结构嵌入和 Socher 等人的 Neural Tensor Network(NTN)率先将 神经网络 引入 知识图谱 的研究,特别是后者将 知识图谱 中实体和关系的单 词嵌入 的平均作为该节点的表示,训练 神经网络 判断(头实体、关系、尾实体)的三元组是否为真,在 知识图谱 补全(推理)任务中取得了很好的效果。
知识图谱 的一个重要特点就是可解释性和发现新知识的能力,这是目前 深度学习 方法很难做到的。 知识图谱 把领域知识或常识整理成结构化的形式,然后在此基础上进行推理,类似于人脑的功能。比如评审专家的推荐,使用 深度学习 的方法进行训练,专家的查找过程是个黑盒操作,无法追溯推荐的理由。使用 知识图谱 建立的高精度的专家画像,及专家关系网络能够为专家推荐提供可解释性,比如评审专家的学科相似度、评审人和专家的关系等等。
但 知识图谱 同样存在不足。 知识图谱 的缺点本质上都是“二元一阶谓词 逻辑 ”作为知识表示的本身缺陷带来的。知识表示长久以来研究者孜孜不倦追寻探索的话题,完全依靠(头实体、关系、尾实体)这样的命题,尽管能表示大部分简单事件或实体属性,对于复杂知识却束手无策。
近年得益于 自然语言处理 的极大进步,BERT 等预训练模型带来的文本理解和检索能力使得我们可以在原始文本上进行理解和推理,例如 Chen 等人的 DrQA 就是使用 神经网络 直接从文本中抽取问题答案,掀起开放领域问题的新热潮。另一方面,我们必须保持 知识图谱 的图结构带来的可解释性和精准稳定的推理能力。例如, 知识图谱 很难构建百分百正确的、超大规模的 知识图谱 ,因此,针对这些不足,认知图谱应运而生。
本质上,认知图谱的改进思路是减少图谱构建时的信息损失,将信息处理压力转移给检索和 自然语言理解 算法,同时保留图结构进行可解释关系推理。认知图谱主要有三方面创新,分别对应人类认知智能的三个方面:
1.(长期记忆)直接存储带索引的文本数据,使用 信息检索 算法代替 知识图谱 的显式边来访问相关知识;
2.(系统一推理)图谱依据 查询 动态、多步构建,实体节点通过相关实体识别模型产生;
3.(系统二推理)图中节点产生的同时拥有上下文信息的隐表示,可通过图 神经网络 等模型进行可解释的关系推理。
事实上,认知图谱正是由人类认知过程所启发,“快速将注意力定位到相关实体”和“分析句子语意进行推断”是两种不同的思维过程。在认知学里,著名的“双过程理论(dual process theory)”认为,人的认知分为两个系统,系统一(System 1)是基于直觉的、无知觉的思考系统,其运作依赖于经验和关联;而系统二(System 2)则是人类特有的 逻辑 推理能力,此系统利用工作记忆(working memory)中的知识进行慢速但是可靠的 逻辑 推理,系统二是显式的,需要意识控制的,是人类高级智能的体现。
认知图谱首先由 清华大学 和 阿里巴巴 在 2018 年的中国计算机大会上提出,后来 Ding 等人将其应用于多跳开领域阅读理解问答中。传统方法中,开领域问答往往依靠大规模的 知识图谱 ,而阅读理解问答一般面向单段,此时阅读理解的 NLP 模型,例如 BERT,可以直接处理。然而,这样的方法在多跳(推理)问答中存在“短视检索”的问题,即在几跳(几步推理)的文本和问题回答中,真正的答案可能和问题相关性较低,很难被直接检索到,这导致了效果不佳。认知图谱问答提出一种新颖的 迭代 框架:算法使用两个系统来维护一张认知图谱,系统一在文本中抽取与问题相关的实体名称并扩展节点和汇总语义向量,系统二利用图 神经网络 在认知图谱上进行推理计算。
基于认知图谱技术,北京智谱华章科技有限公司(以下简称:智谱·AI)还研发了支持知识推理的科技情报挖掘系统。团队将认知图谱技术作为 知识图谱 的补齐任务,针对由现实世界中的实体和关系组成的 知识图谱 ,提出了 CogKR 框架,基于认知科学中的双过程理论,通过构建认知图来完成在已知头实体和关系类型情况下推理尾实体的任务。比起基于嵌入的方法,该方法多跳推理的能力更强,并且具有更好的可解释性。比起过去的基于路径的多跳推理方法,该方法能够利用更加复杂的子图结构进行推理,而不会局限在单条路径,因此有更好的准确性。
数据和算法在知识图谱 中扮演的角色?
在 知识图谱 中,数据扮演着底部基石的作用。据智谱·AI 的创始人 唐杰 教授介绍, 知识图谱 是源于数据的,是从数据中抽取结构化信息,数据的好坏直接关系到 知识图谱 构建的效率和质量。比如从结构化的数据中构建 知识图谱 会比从非结构化的数据中构建效率和 准确率 要高,数据越复杂, 噪音 越大,构建成本也就越高。智谱·AI 的“智慧人才”项目包含了大量科研人才、政府工作数据集,这些数据通过多个渠道来获取,包括通过和相关机构合作或购买版权的形式获取的内部数据,如 Digital Science、中国工程院等等;其次是通过爬虫的形式获取网络中的开放数据,比如国家和地方政府的网站,学者个人主页等等;此外智谱·AI 还使用了 信息抽取 的方法从论文、专利等科研文献中抽取相关的内容。这些不同数据源的异构数据在获取以后会通过 数据融合 算法进行融合与关联,为 知识图谱 构建提供基础。
知识图谱 拥有大量的实体和关系,然而大量不同的关系上很难定义 逻辑 规则,因此算法,尤其是 深度学习 算法在 知识图谱 中占据着举足轻重的地位。例如,Bordes 等人的 知识库 结构嵌入和 Socher 等人的 Neural Tensor Network(NTN)率先将 神经网络 引入 知识图谱 的研究,特别是后者将 知识图谱 中实体和关系的单 词嵌入 的平均作为该节点的表示,训练 神经网络 判断(头实体,关系,尾实体)的三元组是否为真,在 知识图谱 补全(推理)任务中取得了很好的效果。然而,简单用词向量表示实体本身,忽略了他们的独特的符号特征:例如美国网红“James Charles”和 20 世纪著名时尚设计师“Charles James”的词向量平均结果相同,可是其 知识图谱 上的相关属性必然有很大差别。后来更多的目光转向大型 知识图谱 自身的嵌入训练,其中最为优雅有效的开创性工作是 Bordes 等人的 TransE。算法的目的是为 知识图谱 中每个关系或实体学习一个 d 维向量表示,对于 知识图谱 中任意的三元组事实 (h,r,t),算法要求它们的向量表示满足 h+r≈t。
针对知识建模,智谱·AI 也提出了一整套 知识图谱 构建的流程和算法:首先,是提出多维关系依赖的概率图标注模型,可以描述实例间的序列依赖关系,以及实例间层次依赖和二维依赖关系,将语义标注错误率降低 40-56%;针对开放互联网数据 噪音 大、冗余的特点,提出一阶 逻辑 概率因子图模型,提高了标注 准确率 ,这个模型也获得了 ICDM 的竞赛冠军。其次,是提出多策略动态选择的语义 集成方法 RiMOM,根据不同集成任务动态选择集成策略,实现全局集成风险最小化;提出基于随机场的概率实体排歧模型,根据对象表示的语义聚集性及其之间的拓扑关系提升了排歧性能。6 年获得国际语义集成 OAEI 评测的第一名。
值得一提的是, 唐杰 教授的团队还从理论上证明已有的多种网络表示学习方法(DeepWalk、LINE 等)都可以归一化到 矩阵分解 理论框架下,提出了网络表示学习的新思路。基于该理论,提出一种全新的基于 矩阵分解 的知识网络表示学习算法 NetMF,在多个公开数据集上,算法明显优于已有方法。此外,智谱·AI 也将该方法应用异构知识融合,利用链接相似度对跨语言 知识图谱 进行统一建模。
工业级知识图谱 的技术难点
和未来应用场景
目前, 知识图谱 在工业界的应用已经非常广泛,半自动化的 知识图谱 构建方法目前也已经基本达到了实际应用的水平。工业级的 知识图谱 要能够满足具体的业务需求,那么,在具体的落地应用中,又面临着哪些技术难点?
对此问题, 唐杰 教授表示,工业级 知识图谱 的应用,难点首先是知识的精准抽取与融合,多源异构数据的融合在实际应用场景中要复杂得多,而且数据质量也很难保证。可以根据各应用领域的特征有针对性的建立抽取及融合模型,也可以结合一些预训练模型进行分析。
其次是需要一个更加高效和友好的交互系统,辅助 知识图谱 的构建和校验,比如结合 主动学习 、对抗学习及 小样本学习 等方法,尽量减少人工的干预;利用日常工作中使用的系统,隐式的收集标注知识等等。在应用方面,目前知识推理的研究还是一个重要的难点,为此,智谱·AI 也探索了使用双系统理论进行认知推理,此外结合图 神经网络 及认知符号的推理方法也是一个很好的研究思路。
唐杰 教授认为,目前 知识图谱 的应用主要还是集中在 文本分析 方面,将文本数据扩展到图像、语音等不同模态,多模态 知识图谱 的表示、获取和推理是目前值得关注的方向,学术界和工业界也都有了一些探索性的研究。尽管存在诸多技术难点,但随着 深度学习 的发展和算法的不断迭代, 知识图谱 已普遍应用在了知识融合、语义搜索和推荐、问答和 对话系统 中,未来将会在决策推理、深度关联挖掘等场景中发挥重要作用。
智谱·AI 首席顾问兼战略 规划 院名誉院长张钹院士,曾经指出 知识图谱 与公司的未来发展的关系:公司要办好的前提首先是发展方向正确,要将知识驱动与模型驱动相结合,走第三代 人工智能 之路。其次,要找到知识真正的应用场景。知识就是力量,我们要做知识的生产者, 知识图谱 与 知识库 就是财富的转换源泉。因为智谱·AI 是依托 清华大学 计算机系在 知识图谱 和智能计算方面的长期积累,是通过学校技术成果转化、在知识智能方向创立的第一家公司。张钹院士曾表示,在科技成果转化出来的公司中,最看重智谱·AI,也寄语智谱·AI:技术成果转化具有重要意义。但作为公司,还有很长的路要走,希望智谱·AI 能够像在学校里面做研究一样专注把每件事做好,创造真正的价值。
知识图谱 的构建已走到下半场
从 知识图谱 的构建技术看,它经历了由人工构建到群体智慧构建到自动获取、构建的过程。人工构建是早期 知识图谱 构建的主要方法,手工构建的优点首先是 准确率 较高,其次是人类便于理解,缺点是效率低、成本高,构建出的图谱规模有限。
自动或半自动的构建方法,可以不同程度的提高构建效率,降低成本,目前很多方法已经能够实现亿级 知识图谱 的构建,这也得益于结构化和半结构化数据的积累。半自动化的 知识图谱 构建方法在将来一段时间内仍然会是主流,尤其对医疗、安全和金融等领域,数据质量要求较高,需要通过人工审核保证准确性。
在 唐杰 教授看来,认为 知识图谱 的构建研究已经走到下半场, 知识图谱 的应用还没有走到下半场,比如知识推理。目前已经有相当规模的工业级 知识图谱 已经落地,尤其是在金融、电商、医疗、社交、文娱、教育等领域。比如 企查查 、天眼查等企业 知识图谱 、Facebook、 腾讯 等社交 知识图谱 、 美团 的美食 知识图谱 等。
智谱·AI 也在科技情报领域构建了亿级科技 知识图谱 ,包括技术、学者、论文、机构等实体、关系及属性信息,通过网络挖掘算法实现专家人才发现、技术洞察与趋势分析等应用。此外,公司还和阿里合作构建了千亿级的电商 知识图谱 ,目前也已经应用于手机淘宝的推荐,将 知识图谱 自动构建 准确率 从 55% 提升到 88%,全面支撑手机淘宝搜索和推荐。
嘉宾介绍:
唐杰 , 清华大学 计算机系教授、副系主任。研究兴趣领域包括: 人工智能 、 数据挖掘 、 知识图谱 和社交网络。
AMiner平台由清华大学计算机系研发,拥有我国完全自主知识产权。系统2006年上线,吸引了全球220个国家/地区800多万独立IP访问,数据下载量230万次,年度访问量1000万,成为学术搜索和社会网络挖掘研究的重要数据和实验平台。
https://www.aminer.cn/联系人: | 透明七彩巨人 |
---|---|
Email: | weok168@gmail.com |