參考鄒博的PPT對5種常見的相似度的衡量方法進(jìn)行一下匯總。
1、 Minkowski distance:

Minkowski距離是對歐氏距離和曼哈頓距離的一般化,當(dāng)p = 1時為曼哈頓距離,當(dāng)p = 2時為歐氏距離。
2、 Jaccard distance:

Jaccard距離描述的是兩個樣本集合的差異性, 與Jaccard index正好互補(bǔ)。Jaccard distance與simple matching coefficient非常相似,但也存在著很重要的區(qū)別,如在兩個都是0、1的集合A、B中,Jaccard distance不考慮A、B中都是0的情況,而simple matching coefficient則會考慮,這也導(dǎo)致了兩者在應(yīng)用上的一些差異。具體案例見wikipedia。

余弦相似性主要是通過計(jì)算空間中兩個向量的夾角來衡量其相似性。夾角越小,其相似性越大,反之越小。

4、 pearson correlation coefficient:

關(guān)于歐式距離、余弦相似度和pearson系數(shù)的關(guān)系可以查看知乎上的討論??偨Y(jié)的說:
a、 在數(shù)據(jù)標(biāo)準(zhǔn)化后,Pearson相關(guān)性系數(shù)、余弦相似度、歐式距離的平方可認(rèn)為是等價(jià)的。
b、 pearson相關(guān)系數(shù)是余弦相似度在維度值缺失情況下的一種改進(jìn)。
5、 Kullback-Leibler divergence(相對熵、KL散度)

P、 Q是兩個不同的分布,假設(shè)P是數(shù)據(jù)真實(shí)的分布,Q是用模型擬合的分布。
D(P||Q)表示Q到P的散度。在機(jī)器學(xué)習(xí)語意下,其表示用分布Q代替P時所得到的信息增量,為了讓Q更接近P,在模型訓(xùn)練時我們應(yīng)該取KL散度的極小值。
a、 KL散度是不對稱的,即P到Q的距離不等于Q到P的距離;
b、 KL散度不滿足三角距離公式,兩邊之和大于第三邊,兩邊之差小于第三邊。
參考文獻(xiàn):
1、 https://en.wikipedia.org/wiki/Minkowski_distance
2、 https://en.wikipedia.org/wiki/Simple_matching_coefficient
3、 https://en.wikipedia.org/wiki/Jaccard_index
4、 https://en.wikipedia.org/wiki/Cosine_similarity
5、 https://en.wikipedia.org/wiki/Pearson_correlation_coefficient
6、 https://en.wikipedia.org/wiki/Kullback%E2%80%93Leibler_divergence
7、 https://blog.csdn.net/u012885320/article/details/81059915
8、 https://blog.csdn.net/zb1165048017/article/details/48937135
9、 https://www.zhihu.com/question/19734616
10、 https://www.zhihu.com/question/41252833