浪子归家|「自然语言处理」使用自然语言处理的智能文档分析

什么是智能文档分析?智能文档分析(IDA)是指使用自然语言处理(NLP)和机器学习从非结构化数据(文本文档、社交媒体帖子、邮件、图像等)中获得洞察 。 由于80%的企业数据是非结构化的 , 因此IDA可以跨行业和业务功能提供切实的好处 , 例如改善遵从性和风险管理、提高内部运营效率和增强业务流程 。
在本博客中 , 我将描述IDA中使用的主要NLP技术 , 并提供各种业务用例的示例 。 我还将讨论启动第一个IDA项目时的一些关键考虑事项 。
浪子归家|「自然语言处理」使用自然语言处理的智能文档分析智能文档分析技术
以下是7种常见的IDA技术 。 将提供示例用例来解释每种技术 。
1. 命名实体识别命名实体识别识别文本中提到的命名实体 , 并将它们分类到预定义的类别中 , 如人名、组织、位置、时间表达式、货币值等 。 有一系列的方法来执行命名实体识别:

  • 开箱即用的实体识别——大多数NLP包或服务都包括用于识别实体的预先训练好的机器学习模型 。 这使得识别关键实体类型(如人名、组织和位置)变得非常容易 , 只需一个简单的API调用 , 而不需要训练机器学习模型 。
  • 机器学习的实体识别——开箱即用的实体很方便 , 但通常是通用的 , 在许多情况下 , 需要识别其他的实体类型 。 例如 , 在招聘环境中处理文档时 , 我们想要识别工作头衔和技能 。 在零售环境中 , 我们希望识别产品名称 。
  • 确定性实体识别——如果你想要识别的实体是有限的并且是预定义的 , 那么确定性方法将比训练一个机器学习模型更容易更准确 。 在这种方法中 , 提供了实体的字典;然后 , 实体识别器将在文本中识别字典条目的任何实例 。 例如 , 字典可以包含公司所有产品的列表 。 将字典方法与机器学习相结合也是可能的 。 字典用于为机器学习模型注释训练数据 , 然后机器学习模型学习识别不在字典中的实体实例 。 确定性实体识别通常不支持开箱即用的NLP包或服务 。 一些支持这种确定性方法的NLP包使用本体而不是字典 。 本体为实体定义关系和相关术语 , 这使实体识别器能够使用文档的上下文来消除模糊实体之间的歧义 。
  • 基于模式的实体识别——如果实体类型可以由正则表达式定义 , 那么可以使用正则表达式匹配来识别它们 。 例如 , 可以使用正则表达式标识产品代码或引用引用 。 英国国家保险号码的简化正则表达式为[A- z]{2}[0-9]{6}[A- z](2个大写字母 , 后面跟着6个数字 , 后面跟着1个大写字母) 。
命名实体识别是本博客中讨论的许多其他rda技术的关键预处理技术 。 其他命名为实体识别用例的例子包括:
  • 在财务说明书中指明公司和基金的名称 。 在这个例子中 , 公司名称可以使用开箱即用的模型来识别 , 而基金名称可以使用机器学习模型、确定性方法或两者的结合来识别 。
  • 标识语料库中文档之间的引用 。 在本例中 , 可以使用正则表达式(一种基于模式的实体识别方法)标识引用 。
2. 情绪分析情绪分析识别和分类文本中表达的意见 , 如新闻报道 , 社交媒体内容 , 评论等 。 在最简单的形式下 , 它可以将情绪分为积极和消极两类;但它也可以量化情绪(如-1到+1) , 或将其分类在一个更细粒度的水平(如非常负面、负面、中性、积极、非常积极) 。
情感分析 , 像许多NLP技术一样 , 需要能够处理语言的复杂性 。 例如: