20210308 未完更新中

前言

為了克服“維數(shù)災(zāi)難”，人們將高維數(shù)據(jù)投影到低維空間上來，并保持必要的特征，這樣，一方面數(shù)據(jù)點(diǎn)變得比較密集一些，另一方面，可以在低維空間上進(jìn)行研究。

Fisher判別分析的基本思想：選取適當(dāng)?shù)耐队胺较?，將樣本?shù)據(jù)進(jìn)行投影，使得投影后各樣本點(diǎn)盡可能分離開來，即：使得投影后各樣本類內(nèi)離差平方和盡可能小，而使各樣本類間的離差平方和盡可能大。

fisher判別方法示意圖

1. 兩個總體的Fisher判別函數(shù)

①設(shè)已知有兩個類 $x^1$ 和 $x^2$ ，在已知的數(shù)據(jù)中， $x^1$ 類有 $N_1$ 個個體， $x^2$ 類有 $N_2$ 個個體，即：
$\{ x_j^1|j=1,2,…,N_1 \} ：x_1^1,x_2^1,…,x_{N_1}^1$
$\{ x_j^2|j=1,2,…,N_2 \} ：x_1^2,x_2^2,…,x_{N_2}^2$

注意：個體 $x_j^i$ 為列向量，列向量的元素為不同特征的具體數(shù)值。如，小明身高180，體重70，可以設(shè)小明這個個體為 $x=[180,70]^T$
②計算兩個類的均值：
$m_1=\frac{1}{N_1} \sum_{j=1}^{N_1}{x^1_j}$ ?? $m_2=\frac{1}{N_2} \sum_{j=1}^{N_2}{x^2_j}$
③計算兩個類的類內(nèi)離差平方和矩陣：
$S_{w1}=\sum_{j=1}^{N_1}{(x_j^1-m_1)(x_j^1-m_1)^T}$ $S_{w2}=\sum_{j=1}^{N_2}{(x_j^2-m_2)(x_j^2-m_2)^T}$
總的離差陣為 $S_w=S_{w1}+S_{w2}$
類間離差陣為 $S_t=(m_1-m_2)(m_1-m_2)^T$
④設(shè)需要找的投影向量為 $u$ ，將所有的個體 $x$ 投影到 $u$ 方向上，則可以得到投影后的結(jié)果為 $y^i_j=u^Tx^i_j$ ，即：
第一類個體在 $u$ 方向上的投影結(jié)果為： $y_1^1,y_2^1,…,y_{N_1}^1$ ；
第二類個體在 $u$ 方向上的投影結(jié)果為： $y_1^2,y_2^2,…,y_{N_2}^2$ ；
⑤計算投影后兩類的均值與類內(nèi)離差平方和矩陣
$\hat{m}_1=\frac{1}{N_1} \sum_{j=1}^{N_1}{y^1_j}=\frac{1}{N_1}u^T \sum_{j=1}^{N_1}{x^1_j}=u^Tm_1$

$\hat{m}_2=\frac{1}{N_2} \sum_{j=1}^{N_2}{y^2_j}=\frac{1}{N_2}u^T \sum_{j=1}^{N_2}{x^2_j}=u^Tm_2$

$\hat{S}_{w1}=\sum_{j=1}^{N_1}({y^1_j}-\hat{m}_1)({y^1_j}-\hat{m}_1)^T=u^TS_{w1}u$

$\hat{S}_{w2}=\sum_{j=1}^{N_2}({y^2_j}-\hat{m}_2)({y^2_j}-\hat{m}_2)^T=u^TS_{w2}u$

總離差：
$\hat{S}_{w}=\hat{S}_{w1}+\hat{S}_{w2}$

類間方差：
$\hat{S}_{t}=(\hat{m}_1-\hat{m}_2)(\hat{m}_1-\hat{m}_2)^T=u^TS_{t}u$

⑥要使得在新的（投影后）數(shù)據(jù)空間中，數(shù)據(jù)的分離性能最好，即要使得兩個類的類內(nèi)距離最小，類間距離最大，建立目標(biāo)函數(shù) $J_f(u)=\frac{u^TS_tu}{u^TS_wu}$ ，希望找到合適的投影向量 $u$ ，使得目標(biāo)函數(shù) $J_f(u)$ 達(dá)到最大。