為什么用余弦相似度,而不是歐式距離?

一、為什么用余弦相似度,而不是歐式距離?

余弦相似度:取值范圍[-1,1]
余弦距離=1-余弦相似度:取值范圍[0,2]

  • 余弦相似度在高維的情況下依然保持“相同時為1,正交時為0,相反時為-1”的性質(zhì)。
  • 歐式距離的數(shù)值受維度的影響,范圍不固定,并且含義也比較模糊。
  • 歐式距離體現(xiàn)數(shù)值上的絕對差異,而余弦距離體現(xiàn)方向上的相對差異。
二、余弦距離是否是一個嚴(yán)格定義的距離?

首先我們要知道距離的定義是什么:滿足三條距離公理(正定性、對稱性、三角不等式)。
(1)正定性:書中給的證明是證明余弦距離≥0,不太確定正定性是不是這個含義。
dist(A,B) = 1- cosθ = \frac{||A||_2||B||_2-AB}{||A||_2||B||_2}
因?yàn)?img class="math-inline" src="https://math.jianshu.com/math?formula=%7C%7CA%7C%7C_2%7C%7CB%7C%7C_2-AB" alt="||A||_2||B||_2-AB" mathimg="1">≥0,所以dist(A,B)≥0恒成立,滿足正定性。
(2)對稱性:
dist(A,B) = \frac{||A||_2||B||_2-AB}{||A||_2||B||_2} = \frac{||B||_2||A||_2-BA}{||B||_2||A||_2} =dist(B,A)
滿足對稱性。
(3)三角不等式:
余弦距離不滿足三角不等式,下面給出反例:A=(1,0) B = (1,1) C = (0,1)
dist(A,B) = dist(B,C) =1- \frac{\sqrt{2}}{2}
dist(B,C) = 1
從而有
dist(A,B)+dist(B,C) = 2- \sqrt{2} ≤ 1=dist(A,C)
不滿足三角不等式。
整理自:《百面機(jī)器學(xué)習(xí)》

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容