推薦系統(tǒng)法寶-相似度計算

在一些最臨近算法中我們??匆娨恍┚嚯x

歐氏距離

我們最常見也最常用的距離,它能夠最直觀的描述兩個點的距離關系。
在N維的情況下有公式(x1k,代表第k個特征值)


標準化歐式距離

為什么引入標準歐式距離?如果兩個點特征值不在一個數(shù)量級時,大的特征值會覆蓋掉小的。如y1(10000,1),y2(20000,2)。如果進行歐式距離計算,完全可以忽略第二個特征值。
假設樣本集X的均值(mean)為m,標準差(standarddeviation)為s,那么X的“標準化變量”表示為:?

而且標準化變量的數(shù)學期望為0,方差為1。
被標準化后各個特征值屬于統(tǒng)一量級。
由此標準化歐式距離也出來了:


圖片.png

s是根號下方差,u是平均數(shù)


圖片.png

弦相似性

余弦相似性通過測量兩個向量的夾角的余弦值來度量它們之間的相似性。0度角的余弦值是1,而其他任何角度的余弦值都不大于1;并且其最小值是-1。從而兩個向量之間的角度的余弦值確定兩個向量是否大致指向相同的方向。兩個向量有相同的指向時,余弦相似度的值為1;兩個向量夾角為90°時,余弦相似度的值為0;兩個向量指向完全相反的方向時,余弦相似度的值為-1。這結果是與向量的長度無關的,僅僅與向量的指向方向相關。余弦相似度通常用于正空間,因此給出的值為0到1之間。

圖片.png

這里的Ai,Bi分別代表向量A和B的各分量。

理解:余弦相似常常用于比較兩事物的相似度,它與距離無關只有關角度。
歐氏距離能夠體現(xiàn)個體數(shù)值特征的絕對差異,所以更多的用于需要從維度的數(shù)值大小中體現(xiàn)差異的分析,如使用用戶行為指標分析用戶價值的相似度或差異;而余弦相似度更多的是從方向上區(qū)分差異,而對絕對的數(shù)值不敏感,更多的用于使用用戶對內容評分來區(qū)分用戶興趣的相似度和差異,同時修正了用戶間可能存在的度量標準不統(tǒng)一的問題(因為余弦相似度對絕對數(shù)值不敏感)。
修正數(shù)值不敏感的方法就是將該值減去均值。
相似度應用:
1.應用于文本相似度
2.應用于推薦系統(tǒng)評分

調整余弦相似度

舉個小例子,用戶 A 對兩部電影評分分別是 1 分和 2 分,用戶 B 對同樣這兩部電影評分是 4 分和 5 分。用余弦相似度計算出來,兩個用戶的相似度達到 0.98。這和實際直覺不符,用戶 A 明顯不喜歡這兩部電影。

針對這個問題,對余弦相似度有個改進,改進的算法叫做調整的余弦相似度(Adjusted Cosine Similarity)。調整的方法很簡單,就是先計算向量每個維度上的均值,然后每個向量在各個維度上都減去均值后,再計算余弦相似度。

前面這個小例子,用調整的余弦相似度計算得到的相似度是 -0.1,呈現(xiàn)出兩個用戶口味相反,和直覺相符。

-值得注意的是,它和下面的皮爾遜系數(shù)不一樣,皮爾遜系數(shù)是減去行平均(減去行平均可以更好看到列屬性的變化趨勢,從而也忽略了數(shù)值)。而這個改進公式減去的是列的平均,列平均表示大眾對該商品的一個喜愛程度,如果甲小于該值,減去該平均后就為負數(shù),如果乙大于該值,減去后為正。與甲相乘后數(shù)值為負,也表示兩者負相關了。

皮爾遜相關度

皮爾遜相關度,實際上也是一種余弦相似度,不過先對向量做了中心化,向量 p 和 q 各自減去向量的均值后,再計算余弦相似度。

皮爾遜相關度計算結果范圍在 -1 到 1。-1 表示負相關,1 比表示正相關。皮爾遜相關度其實度量的是兩個隨機變量是不是在同增同減。

如果同時對兩個隨機變量采樣,當其中一個得到較大的值另一也較大,其中一個較小時另一個也較小時,這就是正相關,計算出來的相關度
圖片發(fā)自簡書App

就接近 1,這種情況屬于沆瀣一氣,反之就接近 -1。

由于皮爾遜相關度度量的時兩個變量的變化趨勢是否一致,所以不適合用作計算布爾值向量之間相關度,因為兩個布爾向量也就是對應兩個 0-1 分布的隨機變量,這樣的隨機變量變化只有有限的兩個取值,根本沒有“變化趨勢,高低起伏”這一說。

杰卡德(Jaccard)相似度

杰卡德相似度,是兩個集合的交集元素個數(shù)在并集中所占的比例。由于集合非常適用于布爾向量表示,所以杰卡德相似度簡直就是為布爾值向量私人定做的。對應的計算方式是:

分子是兩個布爾向量做點積計算,得到的就是交集元素個數(shù);
分母是兩個布爾向量做或運算,再求元素和。


圖片發(fā)自簡書App
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

友情鏈接更多精彩內容