python_numpy_用直線擬合理解主元素分析(PCA)

主成分分析(PCA)

矩陣A中有100個(gè)樣本數(shù)據(jù),每個(gè)數(shù)據(jù)是二維平面上的一個(gè)點(diǎn)。如下圖所示。求出矩陣A的特征值λ1,λ2,可以看出A矩陣其實(shí)是特征值方向上的拉伸成都,λ1>λ2,說明λ1方向上的延展要多一下,如果要壓縮A矩陣,則最能體現(xiàn)A特征的特征是讓λ1。V1,V2分別是特征λ1,λ2對應(yīng)的特征向量。

例子

因?yàn)?strong>λ1>λ2,所以選擇v1進(jìn)行降維,
A'--------->V1'A'---------->1x100(二維向量變成了一維樣本)
2X100 ——>1X2X2X100
V1'A'則為被壓縮的樣本,如果要恢復(fù)成原來的矩陣:
V1V1'A'---------->A
(因?yàn)镾=[V1,V2]是標(biāo)準(zhǔn)正交的,之間點(diǎn)乘為0,和自己點(diǎn)乘為1)

在對A做PCA之前還有一個(gè)步奏,需要將A矩陣化為均值為0的矩陣。
這樣做的原因是為了讓λ1,λ2的方向經(jīng)過原點(diǎn),因?yàn)椴唤?jīng)過原點(diǎn)的直線是不能用一個(gè)二維向量表示的,如下圖所示:

Paste_Image.png

要表示直線AB上的點(diǎn)A,B的方向必須用
OA=0A'+A'A
OB=OB'+B'B
其中,A'A=B'B=[0,b]',OA'與OB'為過原點(diǎn)的方向向量。
所以不過原點(diǎn)的直線上的點(diǎn),必須用一個(gè)固定截距向量和一個(gè)過原點(diǎn)的方向向量表示,所以需要將A矩陣化為均值為0的矩陣。
編寫一個(gè)對100X2的數(shù)據(jù)進(jìn)行PCA的程序,主要部分如下:

def PCA(dataMat,topNfeat=5):
#topNfeat=5 默認(rèn)選擇前五個(gè)最大的特征值
#減去均值 
    meanVals = np.mean(dataMat,axis = 0)
    dataMean = dataMat - meanVals
#求協(xié)方差方陣 
    conMat = dataMean.T.dot(dataMean)
#求特征值和特征向量
    eigVals,eigVects = np.linalg.eig(conMat)  
#對特征值進(jìn)行排序  
    eigValInd = np.argsort(eigVals)
    #得到的eigValInd是從小到大的排列,對應(yīng)的原數(shù)據(jù)中該元素的索引
    #x = np.array([3, 1, 2])
    #np.argsort(x)
    #array([1, 2, 0])
    #從小到大依次是1,2,3,1對應(yīng)的索引是1,2對應(yīng)的索引是2,3對應(yīng)的索引是0
    eigValInd = eigValInd[:-(topNfeat+1):-1]
    #逆序,從最大到最小的前topNfeat個(gè)
#除去不需要的特征向量
    redeigVects=eigVects[:,eigValInd]  
#求新的數(shù)據(jù)矩陣
    lowdataMat = dataMean.dot(redeigVects)
#求從低維還原回來的數(shù)據(jù)
    condata = (lowdataMat.dot(redeigVects.T)) + meanVals
#輸出降完維德數(shù)據(jù)加均值
        #因?yàn)榻稻S后的數(shù)據(jù)是一維的了,所以只能加上dataMat整體的平均數(shù)進(jìn)行恢復(fù)了
    reducedata=lowdataMat+np.mean(dataMat)
    return reducedata,condata

結(jié)果:

結(jié)果

藍(lán)色點(diǎn)是原始數(shù)據(jù)
黑色點(diǎn)是被降維后的數(shù)據(jù)
紅色點(diǎn)是由被降維的數(shù)據(jù)恢復(fù)的數(shù)據(jù)
綠色直線是理想的直線

將結(jié)果放大,如下圖


結(jié)果放大

我們可以看到每一個(gè)紅色點(diǎn)都可以找到一個(gè)藍(lán)色的原始數(shù)據(jù)與它對應(yīng)。

常用的主元素分析法,除了PCA還有SVD,SVD一般用在矩陣的協(xié)方差矩陣不可逆時(shí)。
完整代碼下載:
http://pan.baidu.com/s/1boU0rG7
提取碼:va4v

補(bǔ)充:
python自帶PCA函數(shù)介紹:

from sklearn.decomposition import PCA#從sklearn中導(dǎo)入PCA
pca = PCA(n_components=0.8,whiten=True)#設(shè)置PCA參數(shù)#n_components:
#設(shè)為大于零的整數(shù),會自動的選取n個(gè)主成分,
#設(shè)為分?jǐn)?shù)時(shí),選擇特征值占總特征值大于n的,作為主成分
#whiten:
#True表示做白化處理,白化處理主要是為了使處理后的數(shù)據(jù)方差都一致
pca.fit_transform(data)
pca.transform(data)
#對數(shù)據(jù)data進(jìn)行主成分分析

sklearn PCA 官方文檔
http://scikit-learn.org/stable/modules/generated/sklearn.decomposition.PCA.html

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容