浪子归家|「自然语言处理」使用自然语言处理的智能文档分析( 二 )
- 跟踪一段时间内的情绪趋势
- 分析事件的影响(例如产品发布或重新设计)
- 识别关键影响者
- 提供危机的早期预警
为了计算两个条目之间的相似度 , 必须首先将文本转换为表示文本的n维向量 。 这个向量可能包含文档中的关键字和实体 , 或者内容中表示的主题的表示 。 向量和文档之间的相似性可以通过余弦相似度等技术来测量 。
【浪子归家|「自然语言处理」使用自然语言处理的智能文档分析】文本相似性可用于检测文档或文档部分中的重复项和近似重复项 。 这里有两个例子:
- 通过比较论文内容的相似性来检查学术论文是否抄袭 。
- 匹配求职者和工作 , 反之亦然 。 但在这种情况下 , 它关注的是关键特征(职位、技能等)之间的相似性 , 而不是严格的近似重复检测 。 对于这种类型的用例 , 语义相似性是有用的 , 因为考虑两种技能(如人工智能和机器学习)或职位(如数据科学家和数据架构师)可能是相关的 , 即使它们不完全相同 , 这是很重要的 。
- 分类的数量——最简单的分类形式是二值分类 , 即只有两种可能的类别可以将一个项分类到其中 。 这方面的一个例子是垃圾邮件过滤 , 其中电子邮件分类为垃圾邮件或非垃圾邮件 。 多类或多项分类有两个以上的类 , 其中一个项可被分类到其中 。
- 标签数量-单标签分类将一个项目精确地分类为一个类别 , 而多标签分类可以将一个项目分类为多个类别 。 将新闻文章分类到多个主题区域就是多标签分类的一个例子 。
文本分类将使用文档中的单词、实体和短语来预测类 。 它还可以考虑其他特性 , 比如文档中包含的任何标题、元数据或图像 。
文本分类的一个示例用例是文档(如邮件或电子邮件)的自动路由 。 文本分类用于确定文档应该发送到的队列 , 以便由适当的专家团队处理 , 从而节省时间和资源(例如 , 法律、市场营销、金融等) 。
文本分类也可应用于文件的各部分(例如句子或段落) , 例如 , 用以确定信件的哪些部分提出了投诉 , 以及投诉的类型 。
5. 信息提取信息抽取从非结构化文本中提取结构化信息 。
一个示例用例是标识信件的发送者 。 识别的主要手段是发送人的参考资料、身份证明或会员编号 。 如果没有找到 , 那么回退可能是发件人的姓名、邮政编码和出生日期 。 每一条信息都可以通过命名实体识别来识别 , 但是这本身是不够的 , 因为可能会找到多个实例 。 信息提取依赖于实体识别 。 对实体上下文的理解有助于确定哪个是正确的答案 。 例如 , 信件可能包含多个日期和邮政编码 , 因此有必要确定哪个是发件人的出生日期 , 哪个是发件人的邮政编码 。
推荐阅读
- 爆笑社|要不然不会这么潇洒!,搞笑gif-大哥以前一定做过浪子
- 晚安sky浪子|铁轨旁摆摊售卖,火车直接从人群中穿过!,世界最“危险”菜市场
- 浪子归家|小米新型“武器”出世!格力美的都得靠边站,雷军这步又走对了
- 浪子归家|美国瞄准中芯国际?华为余承东:这是教训,台积电之后
- 浪子归家|日本"妻子"机器人遭疯抢,10万一个,和真人一模一样?
- 浪子归家|台积电之后,美国瞄准中芯国际?华为余承东:这是教训
- 浪子归家|余承东的鸿蒙系统突破谷歌安卓限制
- 浪子归家|风格迥然不同的荣耀20i手机壳,看看哪款适合你
- 浪子归家|倒计时4天丨凭什么必须要逛科明展厅?科明说:凭的就是实力
- 科技浪子|甚至可变透明探索版,手机后盖迎来大变革!这款手机后盖可变色
