#文本分析#一文讲述常见的文本相似度计算方法( 二 ) |人工智能|DevOps|推荐技术|

本文插图
distance = 1 / similarity
思想非常简单，两个集合共有的元素越多，二者越相似。

汉明距离

两个字码中不同位值的数目称为汉明距离。

Hamming distance = 0 （ai = bi)
Hamming distance = 1 （ai != bi)

最后统计相加。

最小编辑距离

最小编辑距离是一种经典的距离计算方法，用来度量字符串之间的差异。它认为，将字符串A不断修改(增删改)、直至成为字符串B ，所需要的修改次数代表了字符串A和B的差异大小。当然了，将A修改为B的方案非常多，选哪一种呢？我们可以用动态规划找到修改次数最小的方案，然后用对应的次数来表示A和B的距离。
本文来源 CSDN 博客，作者「LU_ZHAO」，原文https://blog.csdn.net/LU_ZHAO/article/details/104860830
【end】
有奖征文