「新智元」史上最全《知识图谱》2020综述论文,18位作者,130页pdf


「新智元」史上最全《知识图谱》2020综述论文,18位作者,130页pdf
本文插图
新智元报道
来源:专知
编辑:元子
「新智元」史上最全《知识图谱》2020综述论文,18位作者,130页pdf
本文插图
【「新智元」史上最全《知识图谱》2020综述论文,18位作者,130页pdf】
地址:
https://arxiv.org/abs/2003.02320
在本文中 , 我们对知识图谱进行了全面的介绍 , 在需要开发多样化、动态、大规模数据收集的场景中 , 知识图谱最近引起了工业界和学术界的极大关注 。 在大致介绍之后 , 我们对用于知识图谱的各种基于图的数据模型和查询语言进行了归纳和对比 。 我们将讨论schema, identity, 和 context 在知识图谱中的作用 。 我们解释如何使用演绎和归纳技术的组合来表示和提取知识 。 我们总结了知识图谱的创建、丰富、质量评估、细化和发布的方法 。 我们将概述著名的开放知识图谱和企业知识图谱及其应用 , 以及它们如何使用上述技术 。 最后 , 我们总结了未来高层次的知识图谱研究方向 。
知识图谱的优势
尽管“知识图谱”一词至少从1972年就开始出现在文献中了[440] , 但它的现代形式起源于2012年发布的谷歌知识图谱[459] , 随后Airbnb[83]、亚马逊[280]、eBay[392]、Facebook[365]、IBM[123]、LinkedIn[214]、微软[457]、优步[205]等公司相继发布了开发知识图谱的公告 。 事实证明 , 学术界难以忽视这一概念的日益普及: 越来越多的科学文献发表关于知识图谱的主题 , 其中包括书籍(如[400]) , 以及概述定义(如[136])的论文 , 新技术(如[298,399,521]) , 以及对知识图谱具体方面的调查(如[375,519]) 。
所有这些发展的核心思想是使用图形来表示数据 , 通常通过某种方式显式地表示知识来增强这种思想[365] 。 结果最常用于涉及大规模集成、管理和从不同数据源提取价值的应用场景[365] 。 在这种情况下 , 与关系模型或NoSQL替代方案相比 , 使用基于图的知识抽象有很多好处 。 图为各种领域提供了简洁而直观的抽象 , 其中边捕获了社会数据、生物交互、书目引用和合作作者、交通网络等[15]中固有实体之间的(潜在的循环)关系 。 图允许维护者推迟模式的定义 , 允许数据(及其范围)以比关系设置中通常可能的更灵活的方式发展 , 特别是对于获取不完整的知识[2] 。 与(其他)NoSQL模型不同 , 专门的图形查询语言不仅支持标准的关系运算符(连接、联合、投影等) , 而且还支持递归查找通过任意长度路径[14]连接的实体的导航运算符 。 标准的知识表示形式主义——如本体论[66,228,344]和规则[242,270]——可以用来定义和推理用于标记和描述图中的节点和边的术语的语义 。 可伸缩的图形分析框架[314,478,529]可用于计算中心性、集群、摘要等 , 以获得对所描述领域的洞察 。 各种表示形式也被开发出来 , 支持直接在图上应用机器学习技术[519,527] 。
总之 , 构建和使用知识图谱的决策为集成和从不同数据源提取价值提供了一系列技术 。 但是 , 我们还没有看到一个通用的统一总结 , 它描述了如何使用知识图谱 , 使用了哪些技术 , 以及它们如何与现有的数据管理主题相关 。
教程目标:全面介绍知识图谱
本教程的目标是全面介绍知识图谱: 描述它们的基本数据模型以及如何查询它们;讨论与schema, identity, 和 context相关的表征;讨论演绎和归纳的方式使知识明确;介绍可用于创建和充实图形结构数据的各种技术;描述如何识别知识图谱的质量以及如何改进知识图谱;讨论发布知识图谱的标准和最佳实践;并提供在实践中发现的现有知识图谱的概述 。 我们的目标受众包括对知识图谱不熟悉的研究人员和实践者 。 因此 , 我们并不假设读者对知识图谱有特定的专业知识 。


推荐阅读