降維

降維-PCA

?

1.A與B的內(nèi)積值等于A向B所在直線投影的表量長度

2.如果基的數(shù)量小于向量本身的維數(shù),就可以達(dá)到降維的目的。

但,如何選擇基?

3.一般而言,希望投影后的投影值盡可能分散(也可以從熵的角度進(jìn)行理解,熵越大所含信息越多) ?#也就是使方差最大,協(xié)方差最小--類似于主成分分析,減少自變量的感覺

問題轉(zhuǎn)變?yōu)椋簩⒁唤MN維向量降為K維,其目標(biāo)是選擇K個(gè)單位正交基,使得原始數(shù)據(jù)變換到這組基上后,各變量兩兩間協(xié)方差為0,而變量方差則盡可能大

?

方法:實(shí)質(zhì)上就是使協(xié)方差矩陣對角化


算法步驟:

設(shè)有m條n維數(shù)據(jù):

1.將原始數(shù)據(jù)按列組成n行m列矩陣X;

2.將X的每一行進(jìn)行零均值化,即減去這一行的均值;

3.求出協(xié)方差矩陣??;

4.求出協(xié)方差矩陣的特征值及對應(yīng)的特征向量;

5.將特征向量按對應(yīng)特征值大小從上到下按行排列成矩陣,取前k行組成矩陣P;

6.Y=PX?即為降維到k維后的數(shù)據(jù)。


優(yōu)點(diǎn)和缺點(diǎn):

1.緩解維度災(zāi)難:舍棄一部分信息降低維數(shù),使樣本的采樣密度增大;

2.降噪:當(dāng)數(shù)據(jù)收到噪聲影響時(shí),最小特征值對應(yīng)的特征向量往往與噪音有關(guān),可將其舍棄;

3.過擬合:可能會舍棄有用的信息

4.特征獨(dú)立:協(xié)方差為0,自相關(guān)性降低。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容