樣本相似性度量(歐幾里得距離、曼哈頓距離、切比雪夫距離、閔可夫斯基距離、標(biāo)準(zhǔn)化歐氏距離)
簡(jiǎn)書(shū)的 Makedown 語(yǔ)法支持比較差,有些語(yǔ)法支持不好,可以看 CSDN 的 樣本相似性度量(歐幾里得距離、曼哈頓距離、切比雪夫距離、閔可夫斯基距離、標(biāo)準(zhǔn)化歐氏距離)
在分類過(guò)程中,常常需要估算不同樣本直接的 Similarity Measurement (相似性度量)。
此時(shí)常用的方法就是計(jì)算兩個(gè)樣本直接的 Distance(距離)。
常用方法有:
<h2 id="1">
- 歐幾里得距離(Euclidean Distance)
</h2>
歐幾里得距離(Euclidean Distance),簡(jiǎn)稱歐氏距離,又稱歐幾里得度量(euclidean metric)。
指 m 維空間中兩個(gè)點(diǎn)之間的真實(shí)距離,或者向量的自然長(zhǎng)度(即該點(diǎn)到原點(diǎn)的距離)。在二維和三維空間中的歐氏距離就是兩點(diǎn)之間的實(shí)際距離。
在歐幾里得空間中,點(diǎn) 和
之間的歐幾里得距離為:
當(dāng) 點(diǎn)為原點(diǎn)時(shí),即為向量
的自然長(zhǎng)度(該點(diǎn)到原點(diǎn)的距離)。
向量 的自然長(zhǎng)度:
由 維空間的歐幾里得距離公式可以推出:
二維平面上兩點(diǎn) 與
間的歐幾里得距離:
三維空間兩點(diǎn) 與
間的歐幾里得距離:
<h2 id="2">
- 曼哈頓距離(Manhattan Distance)
</h2>
計(jì)程車(chē)幾何 (Taxicab geometry) 或曼哈頓距離 (Manhattan distance or Manhattan length) 或方格線距離是由十九世紀(jì)的赫爾曼 · 閔可夫斯基所創(chuàng)辭匯,為歐幾里得幾何度量空間的幾何學(xué)之用語(yǔ),用以標(biāo)明兩個(gè)點(diǎn)上在標(biāo)準(zhǔn)坐標(biāo)系上的絕對(duì)軸距之總和。
[圖片上傳失敗...(image-eff26f-1548930789717)]
如上圖,從右上角的黑點(diǎn)到左下角的黑點(diǎn)的最小距離是?
是紅色線的歐幾里得距離?
顯然是錯(cuò)誤的。在這樣的空間里,歐幾里得距離計(jì)算最小距離是不合適的。
需要采用新的距離計(jì)算方式 —— 曼哈頓距離
在 N 維空間中,點(diǎn) 和
之間的曼哈頓距離為:
二維平面兩點(diǎn) 與
間的曼哈頓距離:
<h2 id="3">
- 切比雪夫距離(Chebyshev Distance)
</h2>

在 維空間中,點(diǎn)
和
之間的切比雪夫距離為:
二維平面兩點(diǎn) 與
間的切比雪夫距離:
<h2 id="4">
- 閔可夫斯基距離(Minkowski Distance)
</h2>
閔可夫斯基距離(Minkowski Distance),簡(jiǎn)稱閔氏距離。
它是一組距離的定義。
設(shè)定兩點(diǎn):
直接的閔可夫斯基距離為:
那么 的常用取值為
或
。
即為曼哈頓距離:
即為歐幾里得距離:
取無(wú)窮時(shí)極限情況下可以得到切比雪夫距離:
<h2 id="5">
- 標(biāo)準(zhǔn)化歐氏距離(Standardized Euclidean distance)
</h2>
標(biāo)準(zhǔn)歐氏距離的定義:
標(biāo)準(zhǔn)化歐氏距離是針對(duì)簡(jiǎn)單歐氏距離的缺點(diǎn)而作的一種改進(jìn)方案。
標(biāo)準(zhǔn)歐氏距離的思路:既然數(shù)據(jù)各維分量的分布不一樣,好吧!那我先將各個(gè)分量都 “標(biāo)準(zhǔn)化” 到均值、方差相等吧。
均值和方差標(biāo)準(zhǔn)化到多少呢?
假設(shè)樣本集 的均值 (mean) 為
,標(biāo)準(zhǔn)差(standard deviation)為
,那么
的 “標(biāo)準(zhǔn)化變量
” 表示為:
而且標(biāo)準(zhǔn)化變量的數(shù)學(xué)期望為 ,方差為
。因此樣本集的標(biāo)準(zhǔn)化過(guò)程 (standardization) 用公式描述就是:
標(biāo)準(zhǔn)化后的值 = (標(biāo)準(zhǔn)化前的值 - 分量的均值) / 分量的標(biāo)準(zhǔn)差
經(jīng)過(guò)簡(jiǎn)單的推導(dǎo)就可以得到兩個(gè) n 維向量 與
間的標(biāo)準(zhǔn)化歐氏距離的公式:
如果將方差的倒數(shù)看成是一個(gè)權(quán)重,這個(gè)公式可以看成是一種加權(quán)歐氏距離 (Weighted Euclidean distance)。
如果使用長(zhǎng)寬比為 的二維矩形作為單元大小,那么使用標(biāo)準(zhǔn)歐式距離公式為: