落叶知秋|自然语言处理技术研究方向之知识抽取
事件抽取含有多项子任务:在之前的文章中 , 收集了一些前辈们整理的有关NLP的主要研究方向 , 主要是科普下NLP的研究和应用落地方向 , 帮助各位NLPer有个初步的整体映像 。
最近项目中正好在做一些有关实体名词抽取 , 关系抽取 比如人名 , 地域特征 机构特征等等的提取 , 再从自然语言处理里面的知识抽取这块 , 简要的概述下有哪些研究方向
知识抽取:首先 知识抽取的一些典型任务, 大致有实体识别、关系抽取、事件抽取等等 。
知识抽取(Knowledge Extraction, KE)是从结构化(例如关系数据库、XML)和非结构化(例如文本、文档、图像)源中创建知识 。 产生的知识需要采用机器可读和机器可解释的格式(例如图) , 并且必须以便于推理的方式表示知识 。 下面的图是个知识抽取的例子 , 从一段文本中抽取出人与人之间的关系
上面已经提到知识抽取是从结构化和非结构化数据中进行抽取 , 并列举了个例 。 然而再细分来看 , 可分为结构化数据、半结构化数据和无结构化数据 。 其中我们所熟知的维基百科和百度百科就属于半结构化文本 , 而纯文本就属于无结构化文本 。
目前来看 , 如何从无结构化数据中进行知识抽取是当前知识图谱构建的技术瓶颈 , 是研究的热点、难点 。 而从无结构化数据中进行知识抽取需要用到一些关键的技术 , 例如实体识别、关系抽取以及事件抽取等 , 下面我们将逐一介绍这些技术目前的主要方法 。
知识抽取的之实体识别:实体识别(NER)的目的是抽取文本中的原子信息 , 包括人名、组织机构名、位置、时间、金钱等 。 下面是例子 。
目前工业中实体识别的一些主要方法:
- 基于规则和词典匹配的方法:很早之前的方法 , 现在基本被替代了 。
- 基于机器学习的方法:这里的一些主要方法包括隐马尔科夫模型( Hidden Markov Model, HMM)、最大熵马尔科夫模型( Maximum Entropy Markov Model, MEMM )、条件随机场(Conditional Random Fields, CRF)、支持向量机(Support Vector Machine, SVM) 。
- 基于深度学习的方法:深度学习的方法已经在实体识别上面研究的很广 , 包括CNN、LSTM+CRF等 , 有大量的论文和开源代码 。
- 基于半监督/迁移学习的方法:利用一部分未标注数据 , 或者是其他领域、其他语言的数据来增强当前的模型 。
- 基于预训练模型的方法:从BERT模型对NLP下游任务取得了惊人的效果 , 其中包括NER , 近些的研究趋势基本都会多多少少采用预训练的方法 , 无论是学术界还是工业界
模板的方法一般都是在小规模数据集上容易实现且构建简单 , 缺点为难以维护、可移植性差、模板有可能需要专家构建 。
基于监督学习的方法:监督学习下面主要是深度学习比较普遍 , 当然也有传统的机器学习 , 在这里 , 我们只关注下深度学习方法 。
推荐阅读
- 扬子晚报网|两车同属违停处理却相异,市民投诉交警要“说法”
- 落叶知秋|中芯国际将被美国拉黑,鸿蒙系统已有进展,未来科技方向在何方?
- 扬子晚报|两车同属违停处理却相异,市民投诉交警要“说法”
- 铁剑帮帮主|抄底麒麟处理器?
- 落叶知秋|解析无源RFID与有源RFID在仓库管理各大优势
- 华为|最坑的三款华为千元机,搭载最弱的5G处理器,价格却高达1700元!
- 华光环能|好消息!华光环能:子公司中标污水处理总承包项目
- 蓝色星晨|继续打磨14nm!英特尔下一代桌面处理器明年Q1发布
- 显卡|装完就后悔系列②,10600K可能真的不是我想要的i5处理器
- 挖贝网|全国股转公司8月处理102宗违规:万源生态、朱老六未及时披露提交精选层辅导材料被警示
