一、為什么用余弦相似度,而不是歐式距離?
余弦相似度:取值范圍[-1,1]
余弦距離=1-余弦相似度:取值范圍[0,2]
- 余弦相似度在高維的情況下依然保持“相同時為1,正交時為0,相反時為-1”的性質(zhì)。
- 歐式距離的數(shù)值受維度的影響,范圍不固定,并且含義也比較模糊。
- 歐式距離體現(xiàn)數(shù)值上的絕對差異,而余弦距離體現(xiàn)方向上的相對差異。
二、余弦距離是否是一個嚴(yán)格定義的距離?
首先我們要知道距離的定義是什么:滿足三條距離公理(正定性、對稱性、三角不等式)。
(1)正定性:書中給的證明是證明余弦距離≥0,不太確定正定性是不是這個含義。
因?yàn)?img class="math-inline" src="https://math.jianshu.com/math?formula=%7C%7CA%7C%7C_2%7C%7CB%7C%7C_2-AB" alt="||A||_2||B||_2-AB" mathimg="1">≥0,所以dist(A,B)≥0恒成立,滿足正定性。
(2)對稱性:
滿足對稱性。
(3)三角不等式:
余弦距離不滿足三角不等式,下面給出反例:A=(1,0) B = (1,1) C = (0,1)
從而有
dist(A,B)+dist(B,C) = 2- ≤ 1=dist(A,C)
不滿足三角不等式。
整理自:《百面機(jī)器學(xué)習(xí)》