20210308 未完更新中
前言
為了克服“維數(shù)災(zāi)難”,人們將高維數(shù)據(jù)投影到低維空間上來,并保持必要的特征,這樣,一方面數(shù)據(jù)點(diǎn)變得比較密集一些,另一方面,可以在低維空間上進(jìn)行研究。
Fisher判別分析的基本思想:選取適當(dāng)?shù)耐队胺较?,將樣本?shù)據(jù)進(jìn)行投影,使得投影后各樣本點(diǎn)盡可能分離開來,即:使得投影后各樣本類內(nèi)離差平方和盡可能小,而使各樣本類間的離差平方和盡可能大。

1. 兩個總體的Fisher判別函數(shù)
①設(shè)已知有兩個類和
,在已知的數(shù)據(jù)中,
類有
個個體,
類有
個個體,即:
注意:個體為列向量,列向量的元素為不同特征的具體數(shù)值。如,小明身高180,體重70,可以設(shè)小明這個個體為
②計算兩個類的均值:
??
③計算兩個類的類內(nèi)離差平方和矩陣:
總的離差陣為
類間離差陣為
④設(shè)需要找的投影向量為,將所有的個體
投影到
方向上,則可以得到投影后的結(jié)果為
,即:
第一類個體在方向上的投影結(jié)果為:
;
第二類個體在方向上的投影結(jié)果為:
;
⑤計算投影后兩類的均值與類內(nèi)離差平方和矩陣
總離差:
類間方差:
⑥要使得在新的(投影后)數(shù)據(jù)空間中,數(shù)據(jù)的分離性能最好,即要使得兩個類的類內(nèi)距離最小,類間距離最大,建立目標(biāo)函數(shù),希望找到合適的投影向量
,使得目標(biāo)函數(shù)
達(dá)到最大。
采用Lagrange乘數(shù)法求解。令分母等于非零常數(shù),即:
定義lagrange函數(shù)為
對求偏導(dǎo)得
又矩陣與
是對稱矩陣,因此,上式可化簡為
令,有
記上式得解為,則
繼續(xù)化簡有:
兩邊同時左乘得:
因此,即為矩陣
的最大特征值對應(yīng)的特征向量
又
故
又為一標(biāo)量,因此
記
則
而標(biāo)量并不會影響
的投影方向。
綜上所述,的解為
2. 舉例說明——蠓蟲分類問題
2.1 問題描述
3. Fisher判別法的優(yōu)缺點(diǎn)
- 在一定程度上能夠克服數(shù)據(jù)高維距離度量無效性帶來的困擾,但維度越高,帶來的后續(xù)計算越困難;
- 通過投影一方面使得數(shù)據(jù)更加集中,另一方面,維度的降低更容易進(jìn)行判別;
- 矩陣求逆及特征向量計算使得計算量加大;
- 對于多個類的分類標(biāo)準(zhǔn),需要兩兩抽取分類準(zhǔn)則。