浪子归家|「自然语言处理」使用自然语言处理的智能文档分析( 二 )

  • 冲突-文本可能包括积极和消极的情绪 。 例如 , “他们的第一张专辑很棒 , 但他们的第二张专辑是垃圾”应该被认为是积极的 , 消极的 , 或中性的?
  • 含蓄——在句子“如果交货晚了 , 我会生气的”中 , 负面情绪是建立在一些没有发生 , 也可能不会发生的事情上的 。 在“They used to be good”这句话中 , 表达的是对过去的肯定情绪 , 但可能隐含的是对现在的否定情绪 。
  • 俚语——俚语的意思通常与传统意义相反 。 例如 , “sick”这个词会有非常不同的含义 , 这取决于它使用的语境(“这家餐厅的食物让我恶心”vs.“那个新推出的视频游戏真恶心!”)或者作者的人口结构 。
  • 实体级——实体级情感分析通过在实体级而不是在文档或语句级考虑情感 , 提供了对情感更细粒度的理解 。 这将解决在“冲突”场景中看到的模糊性(“他们的第一张专辑很棒 , 但他们的第二张专辑是垃圾 。 ”) 。 它通过给第一个专辑(第一个实体)分配积极的情绪 , 而给第二个专辑(第二个实体)分配消极的情绪来做到这一点 。
  • 情绪分析经常被用来分析与公司或其竞争对手有关的社交媒体帖子 。 它可以是一种强有力的工具:
    • 跟踪一段时间内的情绪趋势
    • 分析事件的影响(例如产品发布或重新设计)
    • 识别关键影响者
    • 提供危机的早期预警
    3.文本相似度文本相似性计算句子、段落和文档之间的相似性 。
    为了计算两个条目之间的相似度 , 必须首先将文本转换为表示文本的n维向量 。 这个向量可能包含文档中的关键字和实体 , 或者内容中表示的主题的表示 。 向量和文档之间的相似性可以通过余弦相似度等技术来测量 。
    【浪子归家|「自然语言处理」使用自然语言处理的智能文档分析】文本相似性可用于检测文档或文档部分中的重复项和近似重复项 。 这里有两个例子:
    • 通过比较论文内容的相似性来检查学术论文是否抄袭 。
    • 匹配求职者和工作 , 反之亦然 。 但在这种情况下 , 它关注的是关键特征(职位、技能等)之间的相似性 , 而不是严格的近似重复检测 。 对于这种类型的用例 , 语义相似性是有用的 , 因为考虑两种技能(如人工智能和机器学习)或职位(如数据科学家和数据架构师)可能是相关的 , 即使它们不完全相同 , 这是很重要的 。
    4. 文本分类文本分类用于根据文本的内容将文本项分配给一个或多个类别 。 它有两个维度:
    • 分类的数量——最简单的分类形式是二值分类 , 即只有两种可能的类别可以将一个项分类到其中 。 这方面的一个例子是垃圾邮件过滤 , 其中电子邮件分类为垃圾邮件或非垃圾邮件 。 多类或多项分类有两个以上的类 , 其中一个项可被分类到其中 。
    • 标签数量-单标签分类将一个项目精确地分类为一个类别 , 而多标签分类可以将一个项目分类为多个类别 。 将新闻文章分类到多个主题区域就是多标签分类的一个例子 。
    一般来说 , 类和标签的数量越少 , 预期的准确性就越高 。
    文本分类将使用文档中的单词、实体和短语来预测类 。 它还可以考虑其他特性 , 比如文档中包含的任何标题、元数据或图像 。
    文本分类的一个示例用例是文档(如邮件或电子邮件)的自动路由 。 文本分类用于确定文档应该发送到的队列 , 以便由适当的专家团队处理 , 从而节省时间和资源(例如 , 法律、市场营销、金融等) 。
    文本分类也可应用于文件的各部分(例如句子或段落) , 例如 , 用以确定信件的哪些部分提出了投诉 , 以及投诉的类型 。
    5. 信息提取信息抽取从非结构化文本中提取结构化信息 。
    一个示例用例是标识信件的发送者 。 识别的主要手段是发送人的参考资料、身份证明或会员编号 。 如果没有找到 , 那么回退可能是发件人的姓名、邮政编码和出生日期 。 每一条信息都可以通过命名实体识别来识别 , 但是这本身是不够的 , 因为可能会找到多个实例 。 信息提取依赖于实体识别 。 对实体上下文的理解有助于确定哪个是正确的答案 。 例如 , 信件可能包含多个日期和邮政编码 , 因此有必要确定哪个是发件人的出生日期 , 哪个是发件人的邮政编码 。


    推荐阅读