一味宠爱 知识图谱:一种从文本中挖掘信息的强大数据科学技术( 二 )
要从文本构建知识图谱 , 重要的是使我们的机器能够理解自然语言 。 这可以通过使用NLP技术来完成 , 例如句子分段 , 依存关系分析 , 词性标记和实体识别 。 让我们更详细地讨论这些 。
句子分割构建知识图谱的第一步是将文本文档或文章拆分为句子 。 然后 , 我们将仅列出那些恰好具有1个主语和1个宾语的句子 。 让我们看下面的示例文本:
“IndiantennisplayerSumitNagalmovedupsixplacesfrom135toacareer-best129inthelatestmen’ssinglesranking.The22-year-oldrecentlywontheATPChallengertournament.HemadehisGrandSlamdebutagainstFedererinthe2019USOpen.Nagalwonthefirstset.”
让我们将以上段落拆分为句子:
IndiantennisplayerSumitNagalmovedupsixplacesfrom135toacareer-best129inthelatestmen’ssinglesrankingThe22-year-oldrecentlywontheATPChallengertournamentHemadehisGrandSlamdebutagainstFedererinthe2019USOpenNagalwonthefirstset在这四个句子中 , 我们将选择第二个和第四个句子 , 因为它们每个包含1个主语和1个宾语 。 在第二句中 , 主语为“22-year-old” , 宾语为“ATPChallengertournament” 。 在第四句中 , 主语是“Nagal” , “firstset”是宾语:
但是 , 当一个实体跨越多个单词时 , 仅靠POS标签是不够的 。 我们需要解析句子的依存关系树 。
你可以在以下文章中阅读有关依赖项解析的更多信息[^1] 。
让我们获取所选择的一句句子的依赖项标签 。 我将使用流行的spaCy库执行此任务:
Output:
根据依赖性分析器 , 此句子中的主语(nsubj)为“old” 。 那不是想要的实体 。 我们想提取“22-year-old” 。
“22-year”的依赖项标签是amod , 这意味着它是“old”的修饰语 。 因此 , 我们应该定义一个规则来提取这些实体 。
规则可以是这样的:提取主语/宾语及其修饰符 , 还提取它们之间的标点符号 。
但是 , 然后看看句子中的宾语(dobj) 。 这只是“tournament” , 而不是“ATPChallengertournament” 。 在这里 , 我们没有修饰词 , 但有复合词 。
复合词是那些共同构成一个具有不同含义的新术语的词 。 因此 , 我们可以将上述规则更新为?-提取主语/宾语及其修饰词 , 复合词 , 并提取它们之间的标点符号 。
简而言之 , 我们将使用依赖性解析来提取实体 。
提取关系实体提取是完成工作的一半 。 要构建知识图谱 , 我们需要边缘将节点(实体)彼此连接 。 这些边缘是一对节点之间的关系 。
让我们回到上一节中的示例 。 我们选择了几个句子来构建知识图谱:
Output:
要提取该关系 , 我们必须找到句子的根(也是句子的动词) 。 因此 , 从该句子中提取的关系将是“won” 。 最后 , 来自这两个句子的知识图谱将如下所示:
推荐阅读
- 一味宠爱|最全盘点卡中国脖子的35项技术,折射中国工业水平的真实现状
- 金在中|4岁遭抛弃,被养父家8个姐姐宠爱,红遍亚洲后亲生父母上门认亲
- 体育知识科普|穿书自救指南:前三集预报已出,宣传还要粉丝催,背景有点粗拙?
- 知识百科|具荷拉财产分割审判推迟 哥哥与父母将三方会面
- 汽车知识|7月销量都很高,内饰设计也别出心裁,探岳/途观L各有各的优势
- 小飞人|这25个与大自然相关的冷知识 你或许都没有听说过
- 汽车知识|奔驰全新S级的内饰好看吗?不得不说优秀全靠同行衬托
- T恤|集万千宠爱于一身的T恤,不仅百搭还时髦,难怪这么受欢迎
- 德国天然宠粮Real Nature浩瀚母公司Fressnapf(宠爱碗)最全剖析
- 一味宠爱|上海:打造“四全”在线教育的“上海模式”
