降維-PCA
?
1.A與B的內(nèi)積值等于A向B所在直線投影的表量長度
2.如果基的數(shù)量小于向量本身的維數(shù),就可以達(dá)到降維的目的。
但,如何選擇基?
3.一般而言,希望投影后的投影值盡可能分散(也可以從熵的角度進(jìn)行理解,熵越大所含信息越多) ?#也就是使方差最大,協(xié)方差最小--類似于主成分分析,減少自變量的感覺
問題轉(zhuǎn)變?yōu)椋簩⒁唤MN維向量降為K維,其目標(biāo)是選擇K個(gè)單位正交基,使得原始數(shù)據(jù)變換到這組基上后,各變量兩兩間協(xié)方差為0,而變量方差則盡可能大
?
方法:實(shí)質(zhì)上就是使協(xié)方差矩陣對角化
算法步驟:
設(shè)有m條n維數(shù)據(jù):
1.將原始數(shù)據(jù)按列組成n行m列矩陣X;
2.將X的每一行進(jìn)行零均值化,即減去這一行的均值;
3.求出協(xié)方差矩陣??;
4.求出協(xié)方差矩陣的特征值及對應(yīng)的特征向量;
5.將特征向量按對應(yīng)特征值大小從上到下按行排列成矩陣,取前k行組成矩陣P;
6.Y=PX?即為降維到k維后的數(shù)據(jù)。
優(yōu)點(diǎn)和缺點(diǎn):
1.緩解維度災(zāi)難:舍棄一部分信息降低維數(shù),使樣本的采樣密度增大;
2.降噪:當(dāng)數(shù)據(jù)收到噪聲影響時(shí),最小特征值對應(yīng)的特征向量往往與噪音有關(guān),可將其舍棄;
3.過擬合:可能會舍棄有用的信息
4.特征獨(dú)立:協(xié)方差為0,自相關(guān)性降低。