樣本相似性度量(歐幾里得距離、曼哈頓距離、切比雪夫距離、閔可夫斯基距離、標(biāo)準(zhǔn)化歐氏距離)

樣本相似性度量(歐幾里得距離、曼哈頓距離、切比雪夫距離、閔可夫斯基距離、標(biāo)準(zhǔn)化歐氏距離)

簡(jiǎn)書(shū)的 Makedown 語(yǔ)法支持比較差,有些語(yǔ)法支持不好,可以看 CSDN 的 樣本相似性度量(歐幾里得距離、曼哈頓距離、切比雪夫距離、閔可夫斯基距離、標(biāo)準(zhǔn)化歐氏距離)

在分類過(guò)程中,常常需要估算不同樣本直接的 Similarity Measurement (相似性度量)。

此時(shí)常用的方法就是計(jì)算兩個(gè)樣本直接的 Distance(距離)。

常用方法有:

<h2 id="1">

  1. 歐幾里得距離(Euclidean Distance)

</h2>

歐幾里得距離(Euclidean Distance),簡(jiǎn)稱歐氏距離,又稱歐幾里得度量(euclidean metric)。

指 m 維空間中兩個(gè)點(diǎn)之間的真實(shí)距離,或者向量的自然長(zhǎng)度(即該點(diǎn)到原點(diǎn)的距離)。在二維和三維空間中的歐氏距離就是兩點(diǎn)之間的實(shí)際距離。

在歐幾里得空間中,點(diǎn) x=\left(x_{1}, \cdots, x_{n}\right)y=\left(y_{1}, \cdots, y_{n}\right) 之間的歐幾里得距離為:

d(x, y) :=\sqrt{\left(x_{1}-y_{1}\right)^{2}+\left(x_{2}-y_{2}\right)^{2}+\cdots+\left(x_{n}-y_{n}\right)^{2}}=\sqrt{\sum_{i=1}^{n}\left(x_{i}-y_{i}\right)^{2}}

當(dāng) y 點(diǎn)為原點(diǎn)時(shí),即為向量 \vec{x} 的自然長(zhǎng)度(該點(diǎn)到原點(diǎn)的距離)。

向量 \vec{x} 的自然長(zhǎng)度:

\|\vec{x}\|_{2}=\sqrt{\left|x_{1}\right|^{2}+\cdots+\left|x_{n}\right|^{2}}

n 維空間的歐幾里得距離公式可以推出:

二維平面上兩點(diǎn) a\left(x_{1},y_{1}\right)b\left(x_{2},y_{2}\right) 間的歐幾里得距離:

d_{12}=\sqrt{\left(x_{1}-x_{2}\right)^{2}+\left(y_{1}-y_{2}\right)^{2}}

三維空間兩點(diǎn) a\left(x_{1}, y_{1}, z_{1}\right)b\left(x_{2},y_{2}, z_{2}\right) 間的歐幾里得距離:

d_{12}=\sqrt{\left(x_{1}-x_{2}\right)^{2}+\left(y_{1}-y_{2}\right)^{2}+\left(z_{1}-z_{2}\right)^{2}}

<h2 id="2">

  1. 曼哈頓距離(Manhattan Distance)

</h2>

計(jì)程車(chē)幾何 (Taxicab geometry) 或曼哈頓距離 (Manhattan distance or Manhattan length) 或方格線距離是由十九世紀(jì)的赫爾曼 · 閔可夫斯基所創(chuàng)辭匯,為歐幾里得幾何度量空間的幾何學(xué)之用語(yǔ),用以標(biāo)明兩個(gè)點(diǎn)上在標(biāo)準(zhǔn)坐標(biāo)系上的絕對(duì)軸距之總和。

[圖片上傳失敗...(image-eff26f-1548930789717)]

如上圖,從右上角的黑點(diǎn)到左下角的黑點(diǎn)的最小距離是?

是紅色線的歐幾里得距離?

顯然是錯(cuò)誤的。在這樣的空間里,歐幾里得距離計(jì)算最小距離是不合適的。

需要采用新的距離計(jì)算方式 —— 曼哈頓距離

在 N 維空間中,點(diǎn) x=\left(x_{1}, \cdots, x_{n}\right)y=\left(y_{1}, \cdots, y_{n}\right) 之間的曼哈頓距離為:

d(x, y) :=\left|x_{1}-y_{1}\right|+\left|x_{2}-y_{2}\right|+\cdots+\left|x_{n}-y_{n}\right|=\sum_{i=1}^{n}\left|x_{i}-y_{i}\right|

二維平面兩點(diǎn) a\left(x_{1},y_{1}\right)b\left(x_{2},y_{2}\right) 間的曼哈頓距離:

d_{12} :=\left|x_{1}-y_{1}\right|+\left|x_{2}-y_{2}\right|

<h2 id="3">

  1. 切比雪夫距離(Chebyshev Distance)

</h2>

國(guó)際象棋棋盤(pán)上二個(gè)位置間的切比雪夫距離是指王要從一個(gè)位子移至另一個(gè)位子需要走的步數(shù)。由于王可以往斜前或斜后方向移動(dòng)一格,因此可以較有效率的到達(dá)目的的格子。上圖是棋盤(pán)上所有位置距 f6 位置的切比雪夫距離

n 維空間中,點(diǎn) x=\left(x_{1}, \cdots, x_{n}\right)y=\left(y_{1}, \cdots, y_{n}\right) 之間的切比雪夫距離為:

d(x, y) :=\max_{i}\left(\left|x_{i}-y_{i}\right|\right)

二維平面兩點(diǎn) a\left(x_{1},y_{1}\right)b\left(x_{2},y_{2}\right) 間的切比雪夫距離:

d_{12} :=max\left(\left|x_{1}-y_{1}\right|,\left|x_{2}-y_{2}\right|\right)

<h2 id="4">

  1. 閔可夫斯基距離(Minkowski Distance)

</h2>

閔可夫斯基距離(Minkowski Distance),簡(jiǎn)稱閔氏距離。

它是一組距離的定義。

設(shè)定兩點(diǎn):

P=\left(x_{1}, x_{2}, \ldots, x_{n}\right) \text { and } Q=\left(y_{1}, y_{2}, \ldots, y_{n}\right) \in \mathbb{R}^{n}

直接的閔可夫斯基距離為:

\left(\sum_{i=1}^{n}\left|x_{i}-y_{i}\right|^{p}\right)^{1 / p}

那么 p 的常用取值為 12。

p=1 即為曼哈頓距離:

\left(\sum_{i=1}^{n}\left|x_{i}-y_{i}\right|^{1}\right)^{\frac{1}{1}}=\sum_{i=1}^{n}\left|x_{i}-y_{i}\right|

p=2 即為歐幾里得距離:

\left(\sum_{i=1}^{n}\left|x_{i}-y_{i}\right|^{2}\right)^{\frac{1}{2}}=\sqrt{\sum_{i=1}^{n}\left(x_{i}-y_{i}\right)^{2}}

p\rightarrow \infty 取無(wú)窮時(shí)極限情況下可以得到切比雪夫距離:

\lim _{p \rightarrow \infty}\left(\sum_{i=1}^{n}\left|x_{i}-y_{i}\right|^{p}\right)^{\frac{1}{p}}=\max _{i=1}^{n}\left|x_{i}-y_{i}\right.

<h2 id="5">

  1. 標(biāo)準(zhǔn)化歐氏距離(Standardized Euclidean distance)

</h2>

標(biāo)準(zhǔn)歐氏距離的定義:

標(biāo)準(zhǔn)化歐氏距離是針對(duì)簡(jiǎn)單歐氏距離的缺點(diǎn)而作的一種改進(jìn)方案。

標(biāo)準(zhǔn)歐氏距離的思路:既然數(shù)據(jù)各維分量的分布不一樣,好吧!那我先將各個(gè)分量都 “標(biāo)準(zhǔn)化” 到均值、方差相等吧。
均值和方差標(biāo)準(zhǔn)化到多少呢?
假設(shè)樣本集 X 的均值 (mean) 為 m,標(biāo)準(zhǔn)差(standard deviation)為 s,那么 X 的 “標(biāo)準(zhǔn)化變量X^{*}” 表示為:

而且標(biāo)準(zhǔn)化變量的數(shù)學(xué)期望為 0,方差為 1。因此樣本集的標(biāo)準(zhǔn)化過(guò)程 (standardization) 用公式描述就是:

X^{*}=\frac{X-m}{s}

標(biāo)準(zhǔn)化后的值 = (標(biāo)準(zhǔn)化前的值 - 分量的均值) / 分量的標(biāo)準(zhǔn)差

經(jīng)過(guò)簡(jiǎn)單的推導(dǎo)就可以得到兩個(gè) n 維向量 a\left(x_{11}, x_{12}, \cdots, x_{1n}\right)b\left(x_{21}, x_{22}, \cdots, x_{2n}\right) 間的標(biāo)準(zhǔn)化歐氏距離的公式:

如果將方差的倒數(shù)看成是一個(gè)權(quán)重,這個(gè)公式可以看成是一種加權(quán)歐氏距離 (Weighted Euclidean distance)。

d_{12}=\sqrt{\sum_{k=1}^{n}\left(\frac{x_{1 k}-x_{2 k}}{s_{k}}\right)^{2}}

如果使用長(zhǎng)寬比為 2:1 的二維矩形作為單元大小,那么使用標(biāo)準(zhǔn)歐式距離公式為:

d=\sqrt{ \left(\frac{x_{2}-x_{1}}{2}\right)^{2} + \left(\frac{x_{2}-x_{1}}{1}\right)^{2} }

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容