#文本分析#一文讲述常见的文本相似度计算方法( 二 )


本文插图
distance = 1 / similarity
思想非常简单 , 两个集合共有的元素越多 , 二者越相似 。

  • 汉明距离
两个字码中不同位值的数目称为汉明距离 。
  1. Hamming distance = 0 (ai = bi)
  2. Hamming distance = 1 (ai != bi)
最后统计相加 。
  • 最小编辑距离
最小编辑距离是一种经典的距离计算方法 , 用来度量字符串之间的差异 。 它认为 , 将字符串A不断修改(增删改)、直至成为字符串B , 所需要的修改次数代表了字符串A和B的差异大小 。 当然了 , 将A修改为B的方案非常多 , 选哪一种呢?我们可以用动态规划找到修改次数最小的方案 , 然后用对应的次数来表示A和B的距离 。
本文来源 CSDN 博客 , 作者「LU_ZHAO」 , 原文https://blog.csdn.net/LU_ZHAO/article/details/104860830
【end】
有奖征文
#文本分析#一文讲述常见的文本相似度计算方法
本文插图
  • 如何用Jupyter Notebook制作新冠病毒疫情追踪器?
  • 万人马拉松赛事 , 人脸识别系统如何快速、准确完成校验?
  • 突破性能极限 , 阿里云神龙最新ASPLOS论文解读
  • DevOps 转型时如何安全融入?对企业产出有何影响?2019年 DevOps 最新现状研究报告解读
  • 百万人学AI:CSDN重磅共建人工智能技术新生态
  • 漫画:如何给女朋友解释什么是熔断?
【#文本分析#一文讲述常见的文本相似度计算方法】你点的每个“在看” , 我都认真当成了AI


推荐阅读