主成分分析(principal components analysis)旨在利用降維的思想,把多目標轉(zhuǎn)化為少數(shù)幾個綜合指標。
產(chǎn)生背景
在用統(tǒng)計方法研究多變量問題時,變量太多會增加計算量和分析問題的復(fù)雜性,人們希望在進行定量分析的過程中,涉及的變量較少,得到的信息量較多。主成分分析就是適應(yīng)這一要求產(chǎn)生的。
基本原理
設(shè)法將原來具有一定相關(guān)性的變量重新組合成一組新的相互無關(guān)的幾個綜合變量,同時根據(jù)實際需要從中可以取出較少的幾個綜合變量盡可能多地反映原來變量的信息的統(tǒng)計方法。
在統(tǒng)計學(xué)中,主成分分析是一種簡化數(shù)據(jù)集的技術(shù)。它是一種線性變換,這個變換把數(shù)據(jù)變換到一個新坐標系統(tǒng)中,使得任何數(shù)據(jù)投影的第一大方差在第一個坐標(第一主成分)上,第二大方差在第二個坐標(第二主成分)上,以此類推。主成分分析經(jīng)常用來減少數(shù)據(jù)集的維數(shù),同時保持數(shù)據(jù)集對方差貢獻最大的特征。
分析步驟
- 將原始數(shù)據(jù)排列成矩陣X,行代表樣例,列代表特征。
- 對X進行數(shù)據(jù)標準化,計算每列的平均值,對于所有樣例,每行都減去對應(yīng)的平均值
- 求X的協(xié)方差矩陣C
- 求協(xié)方差矩陣的特征值和特征向量
- 將特征值由大到小排列,選擇其中最大的k個,然后將其對應(yīng)的k個特征向量分別作為列向量組成特征向量矩陣。
- 將樣本點投影到選取的特征向量上。假設(shè)樣例數(shù)為m,特征數(shù)為n,減去均值后的樣本矩陣為m·n,協(xié)方差矩陣為n·n,選取的k個特征向量組成的矩陣為n·k,最后投影后得到的數(shù)據(jù)為m·k = (m·n矩陣) * (n·k矩陣) ,這樣就將原始樣例的n維特征變成了k維,這k維就是原始特征在k維上的投影。

image.png
詳細的推導(dǎo)參見:http://blog.jobbole.com/109015/