浪子归家|「自然语言处理」使用自然语言处理的智能文档分析( 三 )


6. 关系抽取关系提取提取两个或多个实体之间的语义关系 。 与信息抽取类似 , 关系抽取依赖于命名实体识别 , 但区别在于它特别关注实体之间的关系类型 。 关系提取可用于执行信息提取 。
一些NLP包和服务提供了开箱即用的模型来提取关系 , 比如“雇员的”、“结婚的”和“出生的地点” 。 与命名实体识别一样 , 自定义关系类型可以通过训练特定的机器学习模型来提取 。
关系提取可用于处理非结构化文档 , 以确定具体的关系 , 然后将这些关系用于填充知识图 。
例如 , 该技术可以通过处理非结构化医学文档来提取疾病、症状、药物等之间的关系 。
7. 综述摘要缩短了文本 , 以创建一个连贯的主要观点的摘要 。 文本摘要有两种不同的方法:

  • 基于提取的摘要在不修改原文的情况下提取句子或短语 。 这种方法生成由文档中最重要的N个句子组成的摘要 。
  • 基于摘要的摘要使用自然语言生成来改写和压缩文档 。 与基于提取的方法相比 , 这种方法更加复杂和实验性 。
文本摘要可用于使人们能够快速地消化大量文档的内容 , 而不需要完全阅读它们 。 这方面的一个例子是新闻feed或科学出版物 , 它们经常生成大量的文档 。
智能文档分析任务的复杂性机器学习在非结构化文本上要比在结构化数据上复杂得多 , 因此在分析文本文档方面要达到或超过人类水平的性能要困难得多 。
1. 语言的复杂性由于语言所包含的变化、歧义、语境和关系 , 人类要花很多年才能理解语言 。 我们可以通过许多方法来表达相同的思想 。 我们根据作者和读者的不同使用不同的风格 , 并选择使用同义词来增加兴趣和避免重复 。 rda技术必须能够理解不同的样式、歧义和单词关系 , 从而获得准确的洞察 。
IDA需要理解通用语言和特定领域的术语 。 处理特定领域术语的一种方法是使用自定义字典或构建用于实体提取、关系提取等的自定义机器学习模型 。
解决将通用语言和特定领域术语结合在一起的问题的另一种方法是迁移学习 。 这需要一个已经训练了大量通用文本的现有神经网络 , 然后添加额外的层 , 并使用针对特定问题的少量内容来训练组合的模型 。 现有的神经网络类似于人类在学校发展的年代 。 额外的层次类似于当一个人离开学校并开始工作时发生的领域或特定任务学习 。
2. 精度rda技术的准确性取决于所使用的语言的多样性、风格和复杂性 。 它还可以取决于:
  • 训练数据——机器学习模型的质量取决于训练数据的数量和质量 。
  • 类的数量——诸如文本分类、情感分析、实体提取和关系提取等技术的准确性将取决于类的数量和实体/关系的类型以及它们之间的重叠 。
  • 文档大小——对于某些技术 , 比如文本分类和相似性 , 大型文档很有帮助 , 因为它们提供了更多的上下文 。 情绪分析和总结等其他技术对大型文档的处理难度更大 。
NLP-progress是一个网站 , 它追踪最常见的NLP任务上最先进的模型的准确性 。 这为可能达到的精确度水平提供了有用的指导 。 不过 , 要判断IDA是否会产生准确的结果 , 最好的指南是问问自己“人类做这件事有多容易?”“如果一个人可以在不经过多年培训的情况下学会准确地完成这项任务 , 那么IDA就有可能通过加快过程、保持一致性或减少体力劳动来带来好处 。 ”
如何处理智能文档分析项目?IDA项目可以通过以下两种方式之一集成到企业中:
  • 自动化——rda用于自动化现有或新流程 , 无需任何人工干预
  • 人在回路中——IDA用于在人做决策时提供支持 , 但人负有最终的责任 。
所使用的方法应该取决于IDA所达到的准确性和做出错误决策的成本 。 如果错误决策的成本很高 , 那么考虑从人工循环开始 , 直到准确度足够高为止 。
IDA项目最好以迭代的方式处理——从概念验证开始 , 以确定该方法是否可行 , 如果可行 , 所达到的精度是否表明使用了自动化或人在循环 。 然后迭代地增加复杂性 , 直到估计的工作量不能证明预期的收益 。


推荐阅读