落叶知秋|自然语言处理技术研究方向之知识抽取

事件抽取含有多项子任务:在之前的文章中 , 收集了一些前辈们整理的有关NLP的主要研究方向 , 主要是科普下NLP的研究和应用落地方向 , 帮助各位NLPer有个初步的整体映像 。
最近项目中正好在做一些有关实体名词抽取 , 关系抽取 比如人名 , 地域特征 机构特征等等的提取 , 再从自然语言处理里面的知识抽取这块 , 简要的概述下有哪些研究方向
知识抽取:首先 知识抽取的一些典型任务, 大致有实体识别、关系抽取、事件抽取等等 。
知识抽取(Knowledge Extraction, KE)是从结构化(例如关系数据库、XML)和非结构化(例如文本、文档、图像)源中创建知识 。 产生的知识需要采用机器可读和机器可解释的格式(例如图) , 并且必须以便于推理的方式表示知识 。 下面的图是个知识抽取的例子 , 从一段文本中抽取出人与人之间的关系
落叶知秋|自然语言处理技术研究方向之知识抽取
上面已经提到知识抽取是从结构化和非结构化数据中进行抽取 , 并列举了个例 。 然而再细分来看 , 可分为结构化数据、半结构化数据和无结构化数据 。 其中我们所熟知的维基百科和百度百科就属于半结构化文本 , 而纯文本就属于无结构化文本 。
目前来看 , 如何从无结构化数据中进行知识抽取是当前知识图谱构建的技术瓶颈 , 是研究的热点、难点 。 而从无结构化数据中进行知识抽取需要用到一些关键的技术 , 例如实体识别、关系抽取以及事件抽取等 , 下面我们将逐一介绍这些技术目前的主要方法 。
知识抽取的之实体识别:实体识别(NER)的目的是抽取文本中的原子信息 , 包括人名、组织机构名、位置、时间、金钱等 。 下面是例子 。
落叶知秋|自然语言处理技术研究方向之知识抽取目前工业中实体识别的一些主要方法:

  1. 基于规则和词典匹配的方法:很早之前的方法 , 现在基本被替代了 。
  2. 基于机器学习的方法:这里的一些主要方法包括隐马尔科夫模型( Hidden Markov Model, HMM)、最大熵马尔科夫模型( Maximum Entropy Markov Model, MEMM )、条件随机场(Conditional Random Fields, CRF)、支持向量机(Support Vector Machine, SVM) 。
  3. 基于深度学习的方法:深度学习的方法已经在实体识别上面研究的很广 , 包括CNN、LSTM+CRF等 , 有大量的论文和开源代码 。
  4. 基于半监督/迁移学习的方法:利用一部分未标注数据 , 或者是其他领域、其他语言的数据来增强当前的模型 。
  5. 基于预训练模型的方法:从BERT模型对NLP下游任务取得了惊人的效果 , 其中包括NER , 近些的研究趋势基本都会多多少少采用预训练的方法 , 无论是学术界还是工业界
知识抽取之关系抽取:关系抽取是做什么 , 简单来说 , 是抽取到的实体与实体之间的关系进行抽取 。 例如两个实体都是人物的话 , 那么人物之间的关系可能是父子关系、狐朋狗友的关系、亲密恋人的关系等等 。 如果一个实体是人、一个实体是公司或者组织 , 那么两者之间的关系可能是雇佣关系或者是隶属关系 。
落叶知秋|自然语言处理技术研究方向之知识抽取关系抽取方法有几种呢?基于模板的方法:一种是基于触发词/字符串、一种是基于依存句法 。
模板的方法一般都是在小规模数据集上容易实现且构建简单 , 缺点为难以维护、可移植性差、模板有可能需要专家构建 。
基于监督学习的方法:监督学习下面主要是深度学习比较普遍 , 当然也有传统的机器学习 , 在这里 , 我们只关注下深度学习方法 。


推荐阅读