主成分分析PCA

先放一張PCA圖

image.png

主成分分析(Principal Component Analysis)
是不是聽起來就一臉懵,下面就讓我們來看看PCA是何方神圣!

01

降維?

主成分分析的字面意思就是用主成分來分析數(shù)據(jù)唄!闊是,什么是主成分?這就不得不聊一個(gè)關(guān)于“降維”的故事了。

“學(xué)醫(yī)要考研,考研要復(fù)試,復(fù)試要…要…要…復(fù)試不僅讓考生心痛更讓導(dǎo)師眼花繚亂?!边@不,A導(dǎo)就糾結(jié)著到底選5個(gè)復(fù)試學(xué)生里的哪一個(gè)來當(dāng)自己的關(guān)門弟子?

A導(dǎo)最終決定用數(shù)據(jù)說話!設(shè)置了“績(jī)點(diǎn),考研分?jǐn)?shù),科研能力,筆試成績(jī),面試表現(xiàn),英語(yǔ)水平,獎(jiǎng)學(xué)金,學(xué)科競(jìng)賽,部門任職”9個(gè)指標(biāo)(相當(dāng)于從9個(gè)維度去評(píng)價(jià)這5位考生)。
9個(gè)指標(biāo)=9個(gè)變量=9個(gè)維度

image.png

image.png

我的三維大腦是搞不定的
看來9維是不行了,那怎么把維度降低,用簡(jiǎn)單的方法表示復(fù)雜的數(shù)據(jù)分析?

當(dāng)然是用降維了!降維是通過減少數(shù)據(jù)中的指標(biāo)(或變量)以化簡(jiǎn)數(shù)據(jù)的過程。這里的減少指標(biāo),并不是隨意加減,而是用復(fù)雜的數(shù)理知識(shí),得到幾個(gè)“綜合指標(biāo)”來代表整個(gè)數(shù)據(jù)。

PS:降維的原理涉及復(fù)雜數(shù)理知識(shí)且大多由計(jì)算機(jī)完成

那么問題來了!這個(gè)“綜合指標(biāo)”是什么?為什么它們就可以代表整個(gè)數(shù)據(jù)?

02

Why

主成分?

綜合指標(biāo)=主成分

你沒有看錯(cuò),這個(gè)綜合指標(biāo)就是我們今天的重點(diǎn):主成分。它不是原來的指標(biāo)中的任何一個(gè),而是由所有原有指標(biāo)數(shù)據(jù)線性組合而來。

比如A導(dǎo)的故事中的主成分就可這樣表示:


image.png

認(rèn)識(shí)了“主成分”以后,PCA的概念就很容易理解了!

PCA——就是以“降維”為核心,把多指標(biāo)的數(shù)據(jù)用少數(shù)幾個(gè)綜合指標(biāo)(主成分)替代,還原數(shù)據(jù)最本質(zhì)特征的數(shù)據(jù)處理方式。

可是,主成分為什么拽到可以代替所有數(shù)據(jù)?
認(rèn)真看看可以發(fā)現(xiàn)部分指標(biāo)其實(shí)是相互關(guān)聯(lián)的!(比如獎(jiǎng)學(xué)金也可以反映績(jī)點(diǎn)情況),這就會(huì)造成數(shù)據(jù)冗余。而降維就可以幫助我們去除這些指標(biāo)中重疊、多余的信息,把數(shù)據(jù)最本質(zhì)和關(guān)鍵的信息提取出來。

A導(dǎo)終于可以一眼就區(qū)分這5位考生的水平并“理智”地做出選擇了!

image.png

03
如何計(jì)算

將學(xué)生成績(jī)表示為矩陣形式,一行代表一個(gè)學(xué)生,每一列代表一門課的成績(jī)

假設(shè)找到了一個(gè)線性組合(命名為特征矩陣(Yn,?k)),其中k<n
得到一組新變量Pm,?k?=?Xm,?nYn,?k,并且新變量的協(xié)方差矩陣(Dm,?m)為對(duì)角陣。
設(shè)我們有m個(gè)n維數(shù)據(jù)記錄,將其按列排成n乘m的矩陣X,設(shè)

image.png
,則C是一個(gè)對(duì)稱矩陣,其對(duì)角線分別個(gè)各個(gè)特征的方差,而第i行j列和j行i列元素相同,表示i和j兩個(gè)特征之間的協(xié)方差。
設(shè)X的協(xié)方差矩陣為C(C為對(duì)角陣),P的協(xié)方差矩陣為D,且Pm,?k?=?Xm,?n
Yn,?k ,那么C與D是什么關(guān)系呢。
image.png

image.png

優(yōu)化目標(biāo)變成了尋找一個(gè)矩陣Y,滿足YTCY是一個(gè)對(duì)角矩陣,并且對(duì)角元素按從大到小依次排列,那么Y的前K列就是要尋找的基,用Y的前K列組成的矩陣乘以X就使得X從M維降到了K維并滿足上述優(yōu)化條件。


image.png

A導(dǎo)可是只有5位考生,9個(gè)指標(biāo)而已!在我們醫(yī)學(xué)中!那可是上千的樣本量,上萬(wàn)的基因數(shù)據(jù)......
在醫(yī)學(xué)領(lǐng)域中,我們可以用PCA圖來進(jìn)行疾病危險(xiǎn)因素分析,腸道菌群聚類分析,推斷腫瘤亞群之間的進(jìn)化關(guān)系......還用它來觀察樣本的分組、趨勢(shì)、剔除異常數(shù)據(jù)。

所以PCA圖在文獻(xiàn)中出現(xiàn)率還是蠻高的!??!不過遇到它我們?cè)趺纯矗?br> 深入了解PCA
識(shí)圖秘籍

樣本點(diǎn)連線距離長(zhǎng) =樣本之間差異性大

樣本點(diǎn)連線距離短 =樣本之間差異性小

image.png

通過主成分分析方法(PCA)分析9種食物的蛋白質(zhì)消耗量(變量)與25個(gè)歐洲國(guó)家(樣本)之間的關(guān)系
由圖可得,大部分歐洲國(guó)家蛋白攝入習(xí)慣是:吃雞蛋、紅肉(豬牛羊等畜肉)、白肉(禽、魚肉及水產(chǎn)品),喝牛奶。
詳細(xì)的解析來了!

1、各樣本點(diǎn)連線的距離:體現(xiàn)各國(guó)家蛋白攝入習(xí)慣的相似性。

2、主成分與原變量之間的關(guān)系:箭頭對(duì)應(yīng)的原始變量在投影到水平和垂直方向上后的值,可以分別體現(xiàn)該變量與PC1和PC2的相關(guān)性(正負(fù)相關(guān)性及其大小)(例如,Eggs對(duì)PC1具有較大的貢獻(xiàn),而Nuts則與PC1之間呈較大的負(fù)相關(guān)性)。

3、樣本點(diǎn)和箭頭之間的距離:反映樣本與原始變量的關(guān)系。(對(duì)于圖中用藍(lán)色粗箭頭所指的樣本點(diǎn)而言,該國(guó)的蛋白質(zhì)來源主要為Fruits and Vegetables)。
怎么樣?有沒有一種豁然開朗的感覺?

什么?還是懵?

沒關(guān)系,繼續(xù)看例子

image.png

image.png

image.png

R語(yǔ)言PCA分析代碼
R語(yǔ)言主成分分析(PCA)加“置信橢圓” - 簡(jiǎn)書 (jianshu.com)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容