常見相似度衡量方法

參考鄒博的PPT對5種常見的相似度的衡量方法進(jìn)行一下匯總。
1、 Minkowski distance:

Minkowski distance

Minkowski距離是對歐氏距離和曼哈頓距離的一般化,當(dāng)p = 1時為曼哈頓距離,當(dāng)p = 2時為歐氏距離。

2、 Jaccard distance:

Jaccard index

Jaccard距離描述的是兩個樣本集合的差異性, 與Jaccard index正好互補(bǔ)。Jaccard distance與simple matching coefficient非常相似,但也存在著很重要的區(qū)別,如在兩個都是0、1的集合A、B中,Jaccard distance不考慮A、B中都是0的情況,而simple matching coefficient則會考慮,這也導(dǎo)致了兩者在應(yīng)用上的一些差異。具體案例見wikipedia。

3、 cosine similarity:

Cosine similarity

余弦相似性主要是通過計(jì)算空間中兩個向量的夾角來衡量其相似性。夾角越小,其相似性越大,反之越小。

4、 pearson correlation coefficient:

Pearson correlation coefficient

關(guān)于歐式距離、余弦相似度和pearson系數(shù)的關(guān)系可以查看知乎上的討論??偨Y(jié)的說:
a、 在數(shù)據(jù)標(biāo)準(zhǔn)化后,Pearson相關(guān)性系數(shù)、余弦相似度、歐式距離的平方可認(rèn)為是等價(jià)的。
b、 pearson相關(guān)系數(shù)是余弦相似度在維度值缺失情況下的一種改進(jìn)。

5、 Kullback-Leibler divergence(相對熵、KL散度)

Kullback–Leibler divergence

P、 Q是兩個不同的分布,假設(shè)P是數(shù)據(jù)真實(shí)的分布,Q是用模型擬合的分布。
D(P||Q)表示Q到P的散度。在機(jī)器學(xué)習(xí)語意下,其表示用分布Q代替P時所得到的信息增量,為了讓Q更接近P,在模型訓(xùn)練時我們應(yīng)該取KL散度的極小值。

a、 KL散度是不對稱的,即P到Q的距離不等于Q到P的距離;
b、 KL散度不滿足三角距離公式,兩邊之和大于第三邊,兩邊之差小于第三邊。

參考文獻(xiàn):
1、 https://en.wikipedia.org/wiki/Minkowski_distance
2、 https://en.wikipedia.org/wiki/Simple_matching_coefficient
3、 https://en.wikipedia.org/wiki/Jaccard_index
4、 https://en.wikipedia.org/wiki/Cosine_similarity
5、 https://en.wikipedia.org/wiki/Pearson_correlation_coefficient
6、 https://en.wikipedia.org/wiki/Kullback%E2%80%93Leibler_divergence
7、 https://blog.csdn.net/u012885320/article/details/81059915
8、 https://blog.csdn.net/zb1165048017/article/details/48937135
9、 https://www.zhihu.com/question/19734616
10、 https://www.zhihu.com/question/41252833

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 原文:http://blog.csdn.net/nishiwodeangel/article/details/12...
    mogu醬閱讀 1,289評論 0 7
  • 轉(zhuǎn)自:http://www.cnblogs.com/heaad/archive/2011/03/08/197773...
    羅田閱讀 1,546評論 0 4
  • 一、說明 相似性度量用以描述兩個向量之間的相似性,是一個值域?yàn)橐痪S的二元函數(shù)。一般情況,相似性度量本質(zhì)上指距離度量...
    城市中迷途小書童閱讀 4,184評論 0 1
  • 姓名:舒微媛 日期:2018年10月9日 名稱:寧波萬尚 六項(xiàng)精進(jìn)364期努力一組(學(xué)委)403期426期志工 寧...
    夏曉薇閱讀 192評論 0 1
  • 這周,好友群里分享了一篇文章,其中一句是“父母是孩子的起跑線”,對這句話印象深刻。 捫心自問,在孩子的成長過程中,...
    MAXWELLL閱讀 309評論 1 1

友情鏈接更多精彩內(nèi)容