樣本相似性度量（歐幾里得距離、曼哈頓距離、切比雪夫距離、閔可夫斯基距離、標(biāo)準(zhǔn)化歐氏距離）

簡(jiǎn)書(shū)的 Makedown 語(yǔ)法支持比較差，有些語(yǔ)法支持不好，可以看 CSDN 的樣本相似性度量（歐幾里得距離、曼哈頓距離、切比雪夫距離、閔可夫斯基距離、標(biāo)準(zhǔn)化歐氏距離）

在分類過(guò)程中，常常需要估算不同樣本直接的 Similarity Measurement （相似性度量）。

此時(shí)常用的方法就是計(jì)算兩個(gè)樣本直接的 Distance（距離）。

常用方法有：

1. 歐幾里得距離（Euclidean Distance）
1. 曼哈頓距離（Manhattan Distance）
1. 切比雪夫距離（Chebyshev Distance）
1. 閔可夫斯基距離（Minkowski Distance）
1. 標(biāo)準(zhǔn)化歐氏距離（Standardized Euclidean distance）

歐幾里得距離（Euclidean Distance）

</h2>

歐幾里得距離（Euclidean Distance），簡(jiǎn)稱歐氏距離，又稱歐幾里得度量（euclidean metric）。

指 m 維空間中兩個(gè)點(diǎn)之間的真實(shí)距離，或者向量的自然長(zhǎng)度（即該點(diǎn)到原點(diǎn)的距離）。在二維和三維空間中的歐氏距離就是兩點(diǎn)之間的實(shí)際距離。

在歐幾里得空間中，點(diǎn) $x=\left(x_{1}, \cdots, x_{n}\right)$ 和 $y=\left(y_{1}, \cdots, y_{n}\right)$ 之間的歐幾里得距離為：

$d(x, y) :=\sqrt{\left(x_{1}-y_{1}\right)^{2}+\left(x_{2}-y_{2}\right)^{2}+\cdots+\left(x_{n}-y_{n}\right)^{2}}=\sqrt{\sum_{i=1}^{n}\left(x_{i}-y_{i}\right)^{2}}$

當(dāng) $y$ 點(diǎn)為原點(diǎn)時(shí)，即為向量 $\vec{x}$ 的自然長(zhǎng)度（該點(diǎn)到原點(diǎn)的距離）。

向量 $\vec{x}$ 的自然長(zhǎng)度：

$\|\vec{x}\|_{2}=\sqrt{\left|x_{1}\right|^{2}+\cdots+\left|x_{n}\right|^{2}}$

由 $n$ 維空間的歐幾里得距離公式可以推出：

二維平面上兩點(diǎn) $a\left(x_{1},y_{1}\right)$ 與 $b\left(x_{2},y_{2}\right)$ 間的歐幾里得距離：

$d_{12}=\sqrt{\left(x_{1}-x_{2}\right)^{2}+\left(y_{1}-y_{2}\right)^{2}}$

三維空間兩點(diǎn) $a\left(x_{1}, y_{1}, z_{1}\right)$ 與 $b\left(x_{2},y_{2}, z_{2}\right)$ 間的歐幾里得距離：

$d_{12}=\sqrt{\left(x_{1}-x_{2}\right)^{2}+\left(y_{1}-y_{2}\right)^{2}+\left(z_{1}-z_{2}\right)^{2}}$

曼哈頓距離（Manhattan Distance）

</h2>

計(jì)程車(chē)幾何 (Taxicab geometry) 或曼哈頓距離 (Manhattan distance or Manhattan length) 或方格線距離是由十九世紀(jì)的赫爾曼 · 閔可夫斯基所創(chuàng)辭匯，為歐幾里得幾何度量空間的幾何學(xué)之用語(yǔ)，用以標(biāo)明兩個(gè)點(diǎn)上在標(biāo)準(zhǔn)坐標(biāo)系上的絕對(duì)軸距之總和。

[圖片上傳失敗...(image-eff26f-1548930789717)]

如上圖，從右上角的黑點(diǎn)到左下角的黑點(diǎn)的最小距離是？

是紅色線的歐幾里得距離？

顯然是錯(cuò)誤的。在這樣的空間里，歐幾里得距離計(jì)算最小距離是不合適的。

需要采用新的距離計(jì)算方式 —— 曼哈頓距離

在 N 維空間中，點(diǎn) $x=\left(x_{1}, \cdots, x_{n}\right)$ 和 $y=\left(y_{1}, \cdots, y_{n}\right)$ 之間的曼哈頓距離為：

$d(x, y) :=\left|x_{1}-y_{1}\right|+\left|x_{2}-y_{2}\right|+\cdots+\left|x_{n}-y_{n}\right|=\sum_{i=1}^{n}\left|x_{i}-y_{i}\right|$

二維平面兩點(diǎn) $a\left(x_{1},y_{1}\right)$ 與 $b\left(x_{2},y_{2}\right)$ 間的曼哈頓距離：

$d_{12} :=\left|x_{1}-y_{1}\right|+\left|x_{2}-y_{2}\right|$

切比雪夫距離（Chebyshev Distance）

</h2>

國(guó)際象棋棋盤(pán)上二個(gè)位置間的切比雪夫距離是指王要從一個(gè)位子移至另一個(gè)位子需要走的步數(shù)。由于王可以往斜前或斜后方向移動(dòng)一格，因此可以較有效率的到達(dá)目的的格子。上圖是棋盤(pán)上所有位置距 f6 位置的切比雪夫距離

在 $n$ 維空間中，點(diǎn) $x=\left(x_{1}, \cdots, x_{n}\right)$ 和 $y=\left(y_{1}, \cdots, y_{n}\right)$ 之間的切比雪夫距離為：

$d(x, y) :=\max_{i}\left(\left|x_{i}-y_{i}\right|\right)$

二維平面兩點(diǎn) $a\left(x_{1},y_{1}\right)$ 與 $b\left(x_{2},y_{2}\right)$ 間的切比雪夫距離：

$d_{12} :=max\left(\left|x_{1}-y_{1}\right|,\left|x_{2}-y_{2}\right|\right)$

閔可夫斯基距離（Minkowski Distance）

</h2>

閔可夫斯基距離（Minkowski Distance），簡(jiǎn)稱閔氏距離。

它是一組距離的定義。

設(shè)定兩點(diǎn)：

$P=\left(x_{1}, x_{2}, \ldots, x_{n}\right) \text { and } Q=\left(y_{1}, y_{2}, \ldots, y_{n}\right) \in \mathbb{R}^{n}$

直接的閔可夫斯基距離為：

$\left(\sum_{i=1}^{n}\left|x_{i}-y_{i}\right|^{p}\right)^{1 / p}$

那么 $p$ 的常用取值為 $1$ 或 $2$ 。

$p=1$ 即為曼哈頓距離：

$\left(\sum_{i=1}^{n}\left|x_{i}-y_{i}\right|^{1}\right)^{\frac{1}{1}}=\sum_{i=1}^{n}\left|x_{i}-y_{i}\right|$

$p=2$ 即為歐幾里得距離：

$\left(\sum_{i=1}^{n}\left|x_{i}-y_{i}\right|^{2}\right)^{\frac{1}{2}}=\sqrt{\sum_{i=1}^{n}\left(x_{i}-y_{i}\right)^{2}}$

$p\rightarrow \infty$ 取無(wú)窮時(shí)極限情況下可以得到切比雪夫距離：

$\lim _{p \rightarrow \infty}\left(\sum_{i=1}^{n}\left|x_{i}-y_{i}\right|^{p}\right)^{\frac{1}{p}}=\max _{i=1}^{n}\left|x_{i}-y_{i}\right.$

標(biāo)準(zhǔn)化歐氏距離（Standardized Euclidean distance）

</h2>

標(biāo)準(zhǔn)歐氏距離的定義：

標(biāo)準(zhǔn)化歐氏距離是針對(duì)簡(jiǎn)單歐氏距離的缺點(diǎn)而作的一種改進(jìn)方案。

標(biāo)準(zhǔn)歐氏距離的思路：既然數(shù)據(jù)各維分量的分布不一樣，好吧！那我先將各個(gè)分量都 “標(biāo)準(zhǔn)化” 到均值、方差相等吧。
均值和方差標(biāo)準(zhǔn)化到多少呢？
假設(shè)樣本集 $X$ 的均值 (mean) 為 $m$ ，標(biāo)準(zhǔn)差(standard deviation)為 $s$ ，那么 $X$ 的 “標(biāo)準(zhǔn)化變量 $X^{*}$ ” 表示為：

而且標(biāo)準(zhǔn)化變量的數(shù)學(xué)期望為 $0$ ，方差為 $1$ 。因此樣本集的標(biāo)準(zhǔn)化過(guò)程 (standardization) 用公式描述就是：

$X^{*}=\frac{X-m}{s}$

標(biāo)準(zhǔn)化后的值 = (標(biāo)準(zhǔn)化前的值－分量的均值) / 分量的標(biāo)準(zhǔn)差

經(jīng)過(guò)簡(jiǎn)單的推導(dǎo)就可以得到兩個(gè) n 維向量 $a\left(x_{11}, x_{12}, \cdots, x_{1n}\right)$ 與 $b\left(x_{21}, x_{22}, \cdots, x_{2n}\right)$ 間的標(biāo)準(zhǔn)化歐氏距離的公式：