「AI科技评论」S. Yu 团队发布权威综述,六大开放问题函待解决,Philip( 二 )


二、相关定义和符号
研究人员做了大量工作 , 通过描述通用语义表征或本质特征来为知识图谱给出定义 。 然而 , 知识图谱至今仍没有被广为接受的正式定义 。 Paulheim定义了4种知识图谱的标准 。 Ehrlinger和Wo??分析了一些现有的定义 , 并提出了如下所示的定义1 , 它强调了知识图谱的推理引擎 。 Wang等人在定义2中提出了一个多关系图的定义 。
受到之前这些工作的启发 , 我们将一个知识图谱定义为G={E,R,F} , 其中E、R、F分别是实体、关系和事实的集合 。 事实可以被表示为一个三元组(h,r,t)∈F 。
定义1(Ehrlinger和Wo??):知识图谱会获取信息并将其集成到一个本体中 , 使用一个推理器产生新的知识 。
定义2(Wang等人):知识图谱是由实体和关系构成的多关系图 , 实体被视为节点而关系被视为各种不同类型的边 。
「AI科技评论」S. Yu 团队发布权威综述,六大开放问题函待解决,Philip
文章图片
表1:知识图谱相关符号和定义
三、知识图谱研究分类
1、知识表征学习(KRL)
知识表征学习是知识图谱领域的关键研究问题 , 它为许多知识获取任务和下游应用打下了基础 。 我们将KRL分为4个层面:表征空间、打分函数、编码模型和辅助信息 。 本文还给出了明确的研发KRL模型的工作流程 。 详细内容如下:
1)表征空间
「AI科技评论」S. Yu 团队发布权威综述,六大开放问题函待解决,Philip
文章图片
图3:不同空间中的知识表征示意图
学习实体和关系的低维分布嵌入是表征学习的关键问题 。 现有的工作主要使用的是向量、矩阵、张量空间等实值点空间(如图3a所示) , 同时也会使用复杂向量空间(如图3b所示)、高斯空间(如图3c所示)以及流形(如图3d所示)等其它类型的空间 。
2)打分函数
「AI科技评论」S. Yu 团队发布权威综述,六大开放问题函待解决,Philip
文章图片
图4:基于距离和基于相似度匹配的打分函数示意图 , 分别以TransE和DistMult为例 。
打分函数被用来衡量事实的合理性 , 它在基于能量的学习框架中也被称为能量函数 。 基于能量的学习旨在学习输入为x、参数为θ的能量函数E_θ(x) , 它将确保正样本比负样本有更高的得分 。 在本文中 , 统一将其称为「打分函数」 。
典型的用于衡量事实合理性的打分函数分为两类:即基于距离的打分函数(如图4a所示)和基于相似度的打分函数(如图4b) 。 基于距离的打分函数通过计算实体之间的距离衡量事实的合理性 , 通过实体间关系实现h+r≈t这种加法变换的思想被广泛使用 。 基于语义相似度的打分函数通过语义匹配衡量事实的合理性 , 它通常采用
这样的乘法公式在表征空间中将头实体变换得与尾实体相近 。
3)编码模型
编码模型通过特定的模型架构(如线性/双线性模型、因子分解模型、神经网络)编码实体和关系之间的相互作用 。
线性模型通过将头实体投影到接近尾实体的表征空间中 , 将关系表示为一个线性/双线性映射 。 因子分解旨在将关系型数据分解到低秩矩阵中 , 从而进行表征学习 。 神经网络则通过非线性神经激活映射和更加复杂的网络结构对关系型数据进行编码 。 一些常见的神经网络模型如图5所示 。
「AI科技评论」S. Yu 团队发布权威综述,六大开放问题函待解决,Philip
文章图片
图5:神经编码模型示意图 。 (a)多层感知机 , 和(b)卷积神经网络将三元组输入到全连接层中 , 并且进行卷积
4)辅助信息
为了促进更有效的知识表征 , 多模态嵌入将诸如文本描述、类型约束、关系路径以及视觉信息等外部信息与知识图谱本身融合在了一起 。
在知识图谱研究社区中 , 知识表征学习是非常重要的 。 总的来说 , 想要研发一个新的知识表征学习模型需要回答以下4个问题:(1)选择怎样的表征空间;(2)如何度量特定空间中的三元组合理性;(3)用怎样的编码模型编码关系的相互作用;(4)是否要利用辅助信息 。


推荐阅读