浪子归家|「自然语言处理」使用自然语言处理的智能文档分析( 三 )
6. 关系抽取关系提取提取两个或多个实体之间的语义关系 。 与信息抽取类似 , 关系抽取依赖于命名实体识别 , 但区别在于它特别关注实体之间的关系类型 。 关系提取可用于执行信息提取 。
一些NLP包和服务提供了开箱即用的模型来提取关系 , 比如“雇员的”、“结婚的”和“出生的地点” 。 与命名实体识别一样 , 自定义关系类型可以通过训练特定的机器学习模型来提取 。
关系提取可用于处理非结构化文档 , 以确定具体的关系 , 然后将这些关系用于填充知识图 。
例如 , 该技术可以通过处理非结构化医学文档来提取疾病、症状、药物等之间的关系 。
7. 综述摘要缩短了文本 , 以创建一个连贯的主要观点的摘要 。 文本摘要有两种不同的方法:
- 基于提取的摘要在不修改原文的情况下提取句子或短语 。 这种方法生成由文档中最重要的N个句子组成的摘要 。
- 基于摘要的摘要使用自然语言生成来改写和压缩文档 。 与基于提取的方法相比 , 这种方法更加复杂和实验性 。
智能文档分析任务的复杂性机器学习在非结构化文本上要比在结构化数据上复杂得多 , 因此在分析文本文档方面要达到或超过人类水平的性能要困难得多 。
1. 语言的复杂性由于语言所包含的变化、歧义、语境和关系 , 人类要花很多年才能理解语言 。 我们可以通过许多方法来表达相同的思想 。 我们根据作者和读者的不同使用不同的风格 , 并选择使用同义词来增加兴趣和避免重复 。 rda技术必须能够理解不同的样式、歧义和单词关系 , 从而获得准确的洞察 。
IDA需要理解通用语言和特定领域的术语 。 处理特定领域术语的一种方法是使用自定义字典或构建用于实体提取、关系提取等的自定义机器学习模型 。
解决将通用语言和特定领域术语结合在一起的问题的另一种方法是迁移学习 。 这需要一个已经训练了大量通用文本的现有神经网络 , 然后添加额外的层 , 并使用针对特定问题的少量内容来训练组合的模型 。 现有的神经网络类似于人类在学校发展的年代 。 额外的层次类似于当一个人离开学校并开始工作时发生的领域或特定任务学习 。
2. 精度rda技术的准确性取决于所使用的语言的多样性、风格和复杂性 。 它还可以取决于:
- 训练数据——机器学习模型的质量取决于训练数据的数量和质量 。
- 类的数量——诸如文本分类、情感分析、实体提取和关系提取等技术的准确性将取决于类的数量和实体/关系的类型以及它们之间的重叠 。
- 文档大小——对于某些技术 , 比如文本分类和相似性 , 大型文档很有帮助 , 因为它们提供了更多的上下文 。 情绪分析和总结等其他技术对大型文档的处理难度更大 。
如何处理智能文档分析项目?IDA项目可以通过以下两种方式之一集成到企业中:
- 自动化——rda用于自动化现有或新流程 , 无需任何人工干预
- 人在回路中——IDA用于在人做决策时提供支持 , 但人负有最终的责任 。
IDA项目最好以迭代的方式处理——从概念验证开始 , 以确定该方法是否可行 , 如果可行 , 所达到的精度是否表明使用了自动化或人在循环 。 然后迭代地增加复杂性 , 直到估计的工作量不能证明预期的收益 。
推荐阅读
- 爆笑社|要不然不会这么潇洒!,搞笑gif-大哥以前一定做过浪子
- 晚安sky浪子|铁轨旁摆摊售卖,火车直接从人群中穿过!,世界最“危险”菜市场
- 浪子归家|小米新型“武器”出世!格力美的都得靠边站,雷军这步又走对了
- 浪子归家|美国瞄准中芯国际?华为余承东:这是教训,台积电之后
- 浪子归家|日本"妻子"机器人遭疯抢,10万一个,和真人一模一样?
- 浪子归家|台积电之后,美国瞄准中芯国际?华为余承东:这是教训
- 浪子归家|余承东的鸿蒙系统突破谷歌安卓限制
- 浪子归家|风格迥然不同的荣耀20i手机壳,看看哪款适合你
- 浪子归家|倒计时4天丨凭什么必须要逛科明展厅?科明说:凭的就是实力
- 科技浪子|甚至可变透明探索版,手机后盖迎来大变革!这款手机后盖可变色
