浪子归家|「自然语言处理」使用自然语言处理的智能文档分析什么是智能文档分析?智能文档分析(IDA)

什么是智能文档分析?智能文档分析(IDA)是指使用自然语言处理(NLP)和机器学习从非结构化数据(文本文档、社交媒体帖子、邮件、图像等)中获得洞察。由于80%的企业数据是非结构化的，因此IDA可以跨行业和业务功能提供切实的好处，例如改善遵从性和风险管理、提高内部运营效率和增强业务流程。
在本博客中，我将描述IDA中使用的主要NLP技术，并提供各种业务用例的示例。我还将讨论启动第一个IDA项目时的一些关键考虑事项。
智能文档分析技术
以下是7种常见的IDA技术。将提供示例用例来解释每种技术。
1. 命名实体识别命名实体识别识别文本中提到的命名实体，并将它们分类到预定义的类别中，如人名、组织、位置、时间表达式、货币值等。有一系列的方法来执行命名实体识别:

开箱即用的实体识别——大多数NLP包或服务都包括用于识别实体的预先训练好的机器学习模型。这使得识别关键实体类型(如人名、组织和位置)变得非常容易，只需一个简单的API调用，而不需要训练机器学习模型。
机器学习的实体识别——开箱即用的实体很方便，但通常是通用的，在许多情况下，需要识别其他的实体类型。例如，在招聘环境中处理文档时，我们想要识别工作头衔和技能。在零售环境中，我们希望识别产品名称。
确定性实体识别——如果你想要识别的实体是有限的并且是预定义的，那么确定性方法将比训练一个机器学习模型更容易更准确。在这种方法中，提供了实体的字典;然后，实体识别器将在文本中识别字典条目的任何实例。例如，字典可以包含公司所有产品的列表。将字典方法与机器学习相结合也是可能的。字典用于为机器学习模型注释训练数据，然后机器学习模型学习识别不在字典中的实体实例。确定性实体识别通常不支持开箱即用的NLP包或服务。一些支持这种确定性方法的NLP包使用本体而不是字典。本体为实体定义关系和相关术语，这使实体识别器能够使用文档的上下文来消除模糊实体之间的歧义。
基于模式的实体识别——如果实体类型可以由正则表达式定义，那么可以使用正则表达式匹配来识别它们。例如，可以使用正则表达式标识产品代码或引用引用。英国国家保险号码的简化正则表达式为[A- z]{2}[0-9]{6}[A- z](2个大写字母，后面跟着6个数字，后面跟着1个大写字母) 。

命名实体识别是本博客中讨论的许多其他rda技术的关键预处理技术。其他命名为实体识别用例的例子包括:

在财务说明书中指明公司和基金的名称。在这个例子中，公司名称可以使用开箱即用的模型来识别，而基金名称可以使用机器学习模型、确定性方法或两者的结合来识别。
标识语料库中文档之间的引用。在本例中，可以使用正则表达式(一种基于模式的实体识别方法)标识引用。

2. 情绪分析情绪分析识别和分类文本中表达的意见，如新闻报道，社交媒体内容，评论等。在最简单的形式下，它可以将情绪分为积极和消极两类;但它也可以量化情绪(如-1到+1) ，或将其分类在一个更细粒度的水平(如非常负面、负面、中性、积极、非常积极) 。
情感分析，像许多NLP技术一样，需要能够处理语言的复杂性。例如: