一味宠爱 知识图谱:一种从文本中挖掘信息的强大数据科学技术( 四 )
关系/谓词提取这将是本文的一个非常有趣的方面 。 我们的假设是谓词实际上是句子中的主要动词 。
例如 , 在句子“SixtyHollywoodmusicalswerereleasedin1929”中 , 动词是“releasedin” , 这就是我们将要用作该句子所产生的三元组的谓词 。 下面的函数能够从句子中捕获此类谓语 。 在这里 , 我使用过spaCy基于规则的匹配:
函数中定义的模式试图在句子中找到根词或主要动词 。 识别出根后 , 该模式将检查是否紧跟着介词(“prep”)或代理词 。 如果是 , 则将其添加到ROOT词中 。
让我向你展示一下此功能:
Output:
同样 , 让我们??从所有Wikipedia句子中获取关系:
让我们看一下我们刚刚提取的最常见的关系或谓词:
Output:
让我们创建一个实体和谓词的dataframe:
接下来 , 我们将使用networkx库从此dataframe创建网络 。 节点将代表实体 , 节点之间的边或连接将代表节点之间的关系 。
这将是有向图 。 换句话说 , 任何连接的节点对之间的关??系不是双向的 , 它只是从一个节点到另一个节点 。 例如 , “Johneatspasta”:
绘制这个网络:
Output:
因此 , 建议仅使用一些重要的关系来可视化图形 。 我每次只建立一种关系 。 让我们从“composedby”的关系开始:
Output:
由于写作在任何电影中都扮演着重要的角色 , 因此我想形象化“writtenby”关系的图表:
Output:
Output:
但是 , 我们限制自己使用仅包含2个实体的句子 。 即便如此 , 我们仍然能够构建内容丰富的知识图谱 。
推荐阅读
- 一味宠爱|最全盘点卡中国脖子的35项技术,折射中国工业水平的真实现状
- 金在中|4岁遭抛弃,被养父家8个姐姐宠爱,红遍亚洲后亲生父母上门认亲
- 体育知识科普|穿书自救指南:前三集预报已出,宣传还要粉丝催,背景有点粗拙?
- 知识百科|具荷拉财产分割审判推迟 哥哥与父母将三方会面
- 汽车知识|7月销量都很高,内饰设计也别出心裁,探岳/途观L各有各的优势
- 小飞人|这25个与大自然相关的冷知识 你或许都没有听说过
- 汽车知识|奔驰全新S级的内饰好看吗?不得不说优秀全靠同行衬托
- T恤|集万千宠爱于一身的T恤,不仅百搭还时髦,难怪这么受欢迎
- 德国天然宠粮Real Nature浩瀚母公司Fressnapf(宠爱碗)最全剖析
- 一味宠爱|上海:打造“四全”在线教育的“上海模式”
