浪子归家|「自然语言处理」使用自然语言处理的智能文档分析
什么是智能文档分析?智能文档分析(IDA)是指使用自然语言处理(NLP)和机器学习从非结构化数据(文本文档、社交媒体帖子、邮件、图像等)中获得洞察 。 由于80%的企业数据是非结构化的 , 因此IDA可以跨行业和业务功能提供切实的好处 , 例如改善遵从性和风险管理、提高内部运营效率和增强业务流程 。
在本博客中 , 我将描述IDA中使用的主要NLP技术 , 并提供各种业务用例的示例 。 我还将讨论启动第一个IDA项目时的一些关键考虑事项 。
智能文档分析技术
以下是7种常见的IDA技术 。 将提供示例用例来解释每种技术 。
1. 命名实体识别命名实体识别识别文本中提到的命名实体 , 并将它们分类到预定义的类别中 , 如人名、组织、位置、时间表达式、货币值等 。 有一系列的方法来执行命名实体识别:
- 开箱即用的实体识别——大多数NLP包或服务都包括用于识别实体的预先训练好的机器学习模型 。 这使得识别关键实体类型(如人名、组织和位置)变得非常容易 , 只需一个简单的API调用 , 而不需要训练机器学习模型 。
- 机器学习的实体识别——开箱即用的实体很方便 , 但通常是通用的 , 在许多情况下 , 需要识别其他的实体类型 。 例如 , 在招聘环境中处理文档时 , 我们想要识别工作头衔和技能 。 在零售环境中 , 我们希望识别产品名称 。
- 确定性实体识别——如果你想要识别的实体是有限的并且是预定义的 , 那么确定性方法将比训练一个机器学习模型更容易更准确 。 在这种方法中 , 提供了实体的字典;然后 , 实体识别器将在文本中识别字典条目的任何实例 。 例如 , 字典可以包含公司所有产品的列表 。 将字典方法与机器学习相结合也是可能的 。 字典用于为机器学习模型注释训练数据 , 然后机器学习模型学习识别不在字典中的实体实例 。 确定性实体识别通常不支持开箱即用的NLP包或服务 。 一些支持这种确定性方法的NLP包使用本体而不是字典 。 本体为实体定义关系和相关术语 , 这使实体识别器能够使用文档的上下文来消除模糊实体之间的歧义 。
- 基于模式的实体识别——如果实体类型可以由正则表达式定义 , 那么可以使用正则表达式匹配来识别它们 。 例如 , 可以使用正则表达式标识产品代码或引用引用 。 英国国家保险号码的简化正则表达式为[A- z]{2}[0-9]{6}[A- z](2个大写字母 , 后面跟着6个数字 , 后面跟着1个大写字母) 。
- 在财务说明书中指明公司和基金的名称 。 在这个例子中 , 公司名称可以使用开箱即用的模型来识别 , 而基金名称可以使用机器学习模型、确定性方法或两者的结合来识别 。
- 标识语料库中文档之间的引用 。 在本例中 , 可以使用正则表达式(一种基于模式的实体识别方法)标识引用 。
情感分析 , 像许多NLP技术一样 , 需要能够处理语言的复杂性 。 例如:
- 否定——像“不”和“决不”这样的词会改变所使用的词的感情 。 例如 , “这部电影没有扣人心弦的情节 , 也没有可爱的角色 。 ”
- 层次情感可以在不同程度上表达出来 。 例如 , 在“我喜欢它”、“我爱它”和“我绝对喜欢它”中 , 正能量在不断增加 , 但是“我真的很喜欢它”在这一进程中处于什么位置呢?
推荐阅读
- 爆笑社|要不然不会这么潇洒!,搞笑gif-大哥以前一定做过浪子
- 晚安sky浪子|铁轨旁摆摊售卖,火车直接从人群中穿过!,世界最“危险”菜市场
- 浪子归家|小米新型“武器”出世!格力美的都得靠边站,雷军这步又走对了
- 浪子归家|美国瞄准中芯国际?华为余承东:这是教训,台积电之后
- 浪子归家|日本"妻子"机器人遭疯抢,10万一个,和真人一模一样?
- 浪子归家|台积电之后,美国瞄准中芯国际?华为余承东:这是教训
- 浪子归家|余承东的鸿蒙系统突破谷歌安卓限制
- 浪子归家|风格迥然不同的荣耀20i手机壳,看看哪款适合你
- 浪子归家|倒计时4天丨凭什么必须要逛科明展厅?科明说:凭的就是实力
- 科技浪子|甚至可变透明探索版,手机后盖迎来大变革!这款手机后盖可变色
