2022-05-26我的數(shù)據(jù)是用主成分分析還是冗余分析呢?1

背景

主成分分析PCA(Principal Component Analysi)和冗余分析RDA(Redundancy analysis)都是數(shù)據(jù)分析的一種方法,都是在做降維處理,我遇到數(shù)據(jù)的時(shí)候該選擇那種方法做呢?

首先什么是降維?

將多維空間(多個(gè)原始測(cè)定指標(biāo))的數(shù)據(jù)點(diǎn)盡可能排列在可視化的低維空間。簡(jiǎn)單理解就是,測(cè)定的一種原始指標(biāo)(比如株高)就是一個(gè)維度。假設(shè),我為了了解某個(gè)物種的幾個(gè)品種的生長(zhǎng)情況,測(cè)了十幾個(gè)跟生長(zhǎng)相關(guān)的指標(biāo)(株高、株幅等),然后我的目的是比較幾個(gè)品種之間生長(zhǎng)情況的相似性,是用株高來(lái)代表?還是用株幅來(lái)代表?還是用其他生長(zhǎng)指標(biāo)?我們都知道這十幾個(gè)指標(biāo)都需要,一起來(lái)代表才能說(shuō)明生長(zhǎng)情況,但十幾個(gè)指標(biāo)就相當(dāng)于十幾個(gè)維度,如何可視化,如何在圖上展示(就我目前了解我們常用畫(huà)出展示的最多就3維(XYZ)的圖)?

辦法就是:我們通過(guò)降維,用各種統(tǒng)計(jì)學(xué)手段,得到幾個(gè)新的指標(biāo)來(lái)代表這十幾個(gè)指標(biāo),從十幾個(gè)變成幾個(gè),就是降低了維度,就可以畫(huà)可視化圖形,讓大家看明白了。其中一種統(tǒng)計(jì)學(xué)手段就叫----主成分分析,“幾個(gè)新指標(biāo)”指的就是“幾個(gè)主成分”,但大家需要明確,做了主成分分析之后,實(shí)際得到的是與原始指標(biāo)數(shù)量相等的主成分個(gè)數(shù)(但是,主成分≠測(cè)定指標(biāo)),就是說(shuō),比如你有12個(gè)原始測(cè)定指標(biāo)進(jìn)行主成分分析,最后可得到的是12個(gè)主成分,你需要根據(jù)你自己的需求來(lái)選取你需要多少個(gè)主成分來(lái)近似地/盡最大限度地(因此,主成分分析不是統(tǒng)計(jì)檢驗(yàn),而是探索性分析方法)代表這12個(gè)指標(biāo)的信息(就是說(shuō)一旦你選取了前幾個(gè)主成分,那就有部分信息損失,但不選就達(dá)不到降維的目的?。苑奖愫罄m(xù)的可視化分析。結(jié)合R進(jìn)行主成分分析后的結(jié)果表來(lái)說(shuō)明一下,你就進(jìn)一步明白了:

原始數(shù)據(jù),搞了18個(gè)學(xué)生6門功課的成績(jī)

運(yùn)行以下代碼

student_scores=read.csv("student_scores.csv")#把原始數(shù)據(jù)導(dǎo)入R
pca_student = princomp(student_scores,cor = T)#計(jì)算PCA,cor=T表示用的是相關(guān)陣,而默認(rèn)是協(xié)差陣
summary(pca_student,loadings = T)#顯示結(jié)果,loading=T是列出主成分對(duì)應(yīng)原始變量的系數(shù)

然后得到的結(jié)果如下:


圖片.png

PCA計(jì)算結(jié)果解讀(用R):

1、以上這6個(gè)主成分(Comp.1-Comp.6)是互不相關(guān)的,它們每一個(gè)都不是X1-X6中任何一個(gè),而是由所有原有6個(gè)指標(biāo)數(shù)據(jù)進(jìn)行線性組合而來(lái),比如Comp.1=系數(shù)1*X1+系數(shù)2*X2+系數(shù)3*X3+系數(shù)4*X4+系數(shù)5*X5+系數(shù)6*X6。

2、6個(gè)主成分的貢獻(xiàn)率大小反映的是它們綜合原始指標(biāo)(6門功課成績(jī)X1-X6)的能力。我們常聽(tīng)說(shuō)的特征值/特征根(eigen value)指的是某個(gè)主成分的方差,其相對(duì)比例可理解為方差解釋度或貢獻(xiàn)度 ,特征值從Comp.1到Comp.6會(huì)逐漸減小。這里結(jié)果給出的是主成分的標(biāo)準(zhǔn)差Standard deviation (方差=標(biāo)準(zhǔn)差的平方),所以想要得到特征值就再平方一下就ok。主成分1的貢獻(xiàn)率Proportion of Variance最大(0.6638172),表明由主成分1的差異來(lái)解釋X1-X6的差異的能力最強(qiáng)。6個(gè)主成分的累積貢獻(xiàn)率Cumulative Proportion是1,就是說(shuō)用6個(gè)主成分才能100%代表這6個(gè)指標(biāo)所給出的總體信息;但其實(shí)前3個(gè)主成分的累積貢獻(xiàn)率是0.9128916,已經(jīng)超過(guò)了0.9,就是說(shuō)可以解釋超過(guò)90%的總體信息,所以可以考慮就選取前3個(gè)主成分來(lái)進(jìn)行后續(xù)畫(huà)圖分析等。

3、loading里給出的是主成分對(duì)應(yīng)原始變量的系數(shù),應(yīng)該是每個(gè)值都有,但有些值太小R運(yùn)行后結(jié)果里就沒(méi)有顯示(比如Comp.2對(duì)應(yīng)X1的系數(shù)),我暫時(shí)還沒(méi)找到什么方法能把這些很小的值也都顯示出來(lái)。從loading里可以看出各主成分與原始指標(biāo)之間的相互關(guān)系,比如主成分1就與所有6科成績(jī)間關(guān)系都很密切,主成分2與X2這個(gè)科目成績(jī)之間關(guān)系較為密切(0.914比其他幾個(gè)系數(shù)的絕對(duì)值都大很多),主成分3與X1這個(gè)科目成績(jī)之間關(guān)系密切(0.883比其他幾個(gè)系數(shù)的絕對(duì)值都大很多)。

PCA圖形結(jié)果解讀(用R):

通常有2種展示類型

圖1

上圖就只是展示observation(樣品),圖中的每一個(gè)點(diǎn)都是代表一個(gè)樣品,樣品點(diǎn)挨的越近,說(shuō)明這些樣品在某些程度上(PC1、PC2)越相似,這種圖適合用于樣品數(shù)量特別大的,只為去說(shuō)明樣品之間有什么相似性。

圖2

上圖就是同時(shí)展示observation(樣品)和variable(變量/原始指標(biāo)),比圖1展示的多了一個(gè)維度。首先,CK、T1-T7都是樣品點(diǎn);其次,那些箭頭則是代表的測(cè)定變量/原始指標(biāo),箭頭對(duì)應(yīng)在PC1軸和PC2軸上的值就是原始指標(biāo)與主成分的相關(guān)系數(shù)(其實(shí)就是princomp計(jì)算時(shí)的loading值)。最后,樣品點(diǎn)和箭頭之間距離大?。悍从硺悠放c原始指標(biāo)之間的關(guān)系緊密程度,這點(diǎn)我也沒(méi)太理解。這種圖適合樣品數(shù)量不是太多,想同時(shí)展示樣品和原始指標(biāo)。沒(méi)有哪個(gè)圖更好的說(shuō)法,只要能清楚表達(dá)你的目的就是好圖。

PCA和RDA是什么關(guān)系呢?

上面廢話那么多好像我只說(shuō)了主成分分析,其實(shí)我把主成分分析和冗余分析的一些共性特點(diǎn)都說(shuō)了,因?yàn)樗鼈儍烧呤怯邪P(guān)系的。冗余分析是回歸分析+主成分分析的排序方法(先將響應(yīng)變量Y矩陣與解釋變量X之間進(jìn)行多元線性回歸,再對(duì)得到的擬合值進(jìn)行主成分分析)。

PCA屬于非約束排序(只是描述性方法,不存在統(tǒng)計(jì)檢驗(yàn)評(píng)估排序結(jié)果顯著性的問(wèn)題)
RDA屬于約束排序(需要對(duì)排序結(jié)果進(jìn)行顯著性檢驗(yàn))。

還有其他一些問(wèn)題需要解決,等待寫(xiě)下一篇

1、前面提到主成分個(gè)數(shù)的選取,我們到底該選取幾個(gè)主成分來(lái)代表整體呢,選取依據(jù)是什么?
2、R語(yǔ)言進(jìn)行主成分分析,一些參數(shù)該如何設(shè)置呢?
3、進(jìn)行主成分分析的函數(shù)有 princomp和prcomp、rda,選哪種呢?
4、冗余分析還包括了回歸分析的相關(guān)計(jì)算,所以,冗余分析還需要進(jìn)一步去解釋。

參考資料

1、https://zhuanlan.zhihu.com/p/180284720?utm_source=wechat_session&ivk_sa=1024320u
2、https://zhuanlan.zhihu.com/p/404795652
3、https://blog.csdn.net/lfz_carlos/article/details/48442091
4、https://cloud.tencent.com/developer/article/1635055

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容