劉小澤寫于19.4.27
聚類分析的基礎(chǔ)就是PCA,掌握這個(gè)對(duì)以后那么這次就先跟著statquest來(lái)學(xué)習(xí)一下,視頻鏈接在https://www.youtube.com/watch?v=FgakZw6K1QQ&feature=youtu.be>
好的,首先看看為什么需要進(jìn)行PCA?
假設(shè)現(xiàn)在有一個(gè)表達(dá)矩陣,行為基因,列為樣本,中間數(shù)據(jù)是表達(dá)量:
-
先假設(shè)有1個(gè)基因,在6個(gè)樣本中存在
1個(gè)基因把這6個(gè)表達(dá)量都顯示出來(lái),可以在一條直線上繪制出高表達(dá)和低表達(dá)(可以看到1,2,3更接近,并且高于4,5,6)
-
再加1個(gè)基因,還是6個(gè)樣本中存在
2個(gè)基因構(gòu)建了一個(gè)2維空間,基因1的表達(dá)量可以用橫軸表示,基因2用縱軸表示??梢钥吹皆诨?、2的作用下,樣本1、2、3聚集在右上角,4、5、6聚集在左下角
-
如果3個(gè)基因呢?
3個(gè)基因就構(gòu)建出了3維空間,點(diǎn)越小意味著數(shù)值越大,離得越遠(yuǎn)
但是,如果是4個(gè)基因,我們就無(wú)法畫(huà)出數(shù)據(jù)了,因?yàn)樾枰?維空間
因此,PCA的作用就是:對(duì)超過(guò)4維的數(shù)據(jù)降維到一個(gè)2D平面圖中,并且這個(gè)圖中"相似相聚"
PCA怎么操作的?
還是利用2維(2個(gè)基因)的數(shù)據(jù)進(jìn)行理解:
- 先得到Gene1的平均數(shù)(橫軸紅色)

- 同理得到Gene2的平均數(shù)(縱軸紅色)。
- 接著計(jì)算整個(gè)數(shù)據(jù)的中心:(藍(lán)色)

- 然后將數(shù)據(jù)平移,保證最后的中心在(0,0)的位置
這里注意:數(shù)據(jù)平移并不會(huì)改變數(shù)據(jù)結(jié)構(gòu)以及相互之間的大小關(guān)系,比如原來(lái)最大的值現(xiàn)在還是最大;原來(lái)在最左下方的現(xiàn)在還是在那個(gè)位置
-
平移后的數(shù)據(jù)可以做一個(gè)輔助線進(jìn)行擬合。先隨便畫(huà)一條穿過(guò)中心點(diǎn)的線,然后進(jìn)行旋轉(zhuǎn),盡量擬合進(jìn)來(lái)最多的數(shù)值。
這里又引入一個(gè)問(wèn)題:PCA是怎么判斷哪條擬合線質(zhì)量最好呢?
比如隨便畫(huà)一條,然后將數(shù)據(jù)投射到這條線上,它看的是投射點(diǎn)到原點(diǎn)/中心點(diǎn)(0,0)的距離平方
得到了PC1這條擬合線,假設(shè)斜率為0.25,就意味著:沿著x軸走4個(gè)單位,才沿著y軸走1個(gè)單位(術(shù)語(yǔ)叫做:Gene1和Gene2的線性組合=> linear combination)。換句話說(shuō)就是數(shù)據(jù)主要是沿著Gene1的x軸分布,數(shù)據(jù)整體分布受Gene1的影響更大
因此,當(dāng)看到"PC1 is a linear combination of variables",意思就是PC1是由幾種Gene1成分加上幾種Gene2成分組成的
-
確定了PC1后,進(jìn)行scale縮放操作,將紅線長(zhǎng)度縮放成1,其他兩邊也進(jìn)行等比例縮放?!拘g(shù)語(yǔ):0.97的Gene1與0.242的Gene2叫做PC1的"Singular Vector"或者"Eigenvector"】 ,然后Eigenvector再開(kāi)方得到的結(jié)果叫"Singlular Value for PC1"
-
因?yàn)檫@是一個(gè)2維的圖形,因此PC2是PC1的垂直線,并且不需要任何進(jìn)一步的操作
-
然后就是畫(huà)最終的PCA plot
首先就是將PC1放到水平
接著找到PC1、PC2同一個(gè)投射點(diǎn)在2D圖中的位置,比如Sample6
-
計(jì)算PC1、PC2的貢獻(xiàn)率
先分別計(jì)算PC1、PC2的variation,然后算比例即可
總結(jié)
對(duì)于簡(jiǎn)單的二維數(shù)據(jù),很方便理解,n維數(shù)據(jù)也是這樣處理,大體思路就是:
計(jì)算n個(gè)維度(或者說(shuō)n個(gè)基因)的均值,找到數(shù)據(jù)中心
中心平移到(0,0)
找到跨過(guò)中心點(diǎn)的最佳擬合線=》PC1=》有n個(gè)組成成分(例如:0,62 parts Gene1; 0.15 parts Gene2; 0.77 parts Gene3,其中Gene3 is the most ingredient for PC1)
找到垂直的PC2,同樣n個(gè)組成成分 。。。
最后找到PCn,它與前面的各個(gè)PC都垂直
PC1放到水平,然后根據(jù)PC1~PCn中同一個(gè)sample畫(huà)出交點(diǎn)
(因此這也說(shuō)明了為什么通過(guò)PCA可以看批次效應(yīng):因?yàn)镻CA圖中的每個(gè)點(diǎn)都是一個(gè)sample,這個(gè)點(diǎn)中包含了大量的表達(dá)量信息;如果說(shuō)本來(lái)生物學(xué)重復(fù)的sample在PCA圖上離得很遠(yuǎn),那么就意味著它們的表達(dá)量差異很大,這是不符合實(shí)際的,因此可能存在批次效應(yīng))根據(jù)每個(gè)PC的variation計(jì)算貢獻(xiàn)率
歡迎關(guān)注我們的公眾號(hào)~_~
我們是兩個(gè)農(nóng)轉(zhuǎn)生信的小碩,打造生信星球,想讓它成為一個(gè)不拽術(shù)語(yǔ)、通俗易懂的生信知識(shí)平臺(tái)。需要幫助或提出意見(jiàn)請(qǐng)后臺(tái)留言或發(fā)送郵件到jieandze1314@gmail.com












