StatQuest-PCA學(xué)習(xí)

劉小澤寫于19.4.27
聚類分析的基礎(chǔ)就是PCA,掌握這個(gè)對(duì)以后那么這次就先跟著statquest來(lái)學(xué)習(xí)一下,視頻鏈接在https://www.youtube.com/watch?v=FgakZw6K1QQ&feature=youtu.be>

好的,首先看看為什么需要進(jìn)行PCA?

假設(shè)現(xiàn)在有一個(gè)表達(dá)矩陣,行為基因,列為樣本,中間數(shù)據(jù)是表達(dá)量:

  • 先假設(shè)有1個(gè)基因,在6個(gè)樣本中存在


    1個(gè)基因

    把這6個(gè)表達(dá)量都顯示出來(lái),可以在一條直線上繪制出高表達(dá)和低表達(dá)(可以看到1,2,3更接近,并且高于4,5,6)

  • 再加1個(gè)基因,還是6個(gè)樣本中存在

    2個(gè)基因

    構(gòu)建了一個(gè)2維空間,基因1的表達(dá)量可以用橫軸表示,基因2用縱軸表示??梢钥吹皆诨?、2的作用下,樣本1、2、3聚集在右上角,4、5、6聚集在左下角

  • 如果3個(gè)基因呢?

    3個(gè)基因

    就構(gòu)建出了3維空間,點(diǎn)越小意味著數(shù)值越大,離得越遠(yuǎn)

  • 但是,如果是4個(gè)基因,我們就無(wú)法畫(huà)出數(shù)據(jù)了,因?yàn)樾枰?維空間

因此,PCA的作用就是:對(duì)超過(guò)4維的數(shù)據(jù)降維到一個(gè)2D平面圖中,并且這個(gè)圖中"相似相聚"

PCA怎么操作的?

還是利用2維(2個(gè)基因)的數(shù)據(jù)進(jìn)行理解:

  1. 先得到Gene1的平均數(shù)(橫軸紅色)
  1. 同理得到Gene2的平均數(shù)(縱軸紅色)。
  2. 接著計(jì)算整個(gè)數(shù)據(jù)的中心:(藍(lán)色)
  1. 然后將數(shù)據(jù)平移,保證最后的中心在(0,0)的位置

這里注意:數(shù)據(jù)平移并不會(huì)改變數(shù)據(jù)結(jié)構(gòu)以及相互之間的大小關(guān)系,比如原來(lái)最大的值現(xiàn)在還是最大;原來(lái)在最左下方的現(xiàn)在還是在那個(gè)位置

  1. 平移后的數(shù)據(jù)可以做一個(gè)輔助線進(jìn)行擬合。先隨便畫(huà)一條穿過(guò)中心點(diǎn)的線,然后進(jìn)行旋轉(zhuǎn),盡量擬合進(jìn)來(lái)最多的數(shù)值。

    這里又引入一個(gè)問(wèn)題:PCA是怎么判斷哪條擬合線質(zhì)量最好呢?

    比如隨便畫(huà)一條,然后將數(shù)據(jù)投射到這條線上,它看的是投射點(diǎn)到原點(diǎn)/中心點(diǎn)(0,0)的距離平方

    得到了PC1這條擬合線,假設(shè)斜率為0.25,就意味著:沿著x軸走4個(gè)單位,才沿著y軸走1個(gè)單位(術(shù)語(yǔ)叫做:Gene1和Gene2的線性組合=> linear combination)。換句話說(shuō)就是數(shù)據(jù)主要是沿著Gene1的x軸分布,數(shù)據(jù)整體分布受Gene1的影響更大

    因此,當(dāng)看到"PC1 is a linear combination of variables",意思就是PC1是由幾種Gene1成分加上幾種Gene2成分組成的

  2. 確定了PC1后,進(jìn)行scale縮放操作,將紅線長(zhǎng)度縮放成1,其他兩邊也進(jìn)行等比例縮放?!拘g(shù)語(yǔ):0.97的Gene1與0.242的Gene2叫做PC1的"Singular Vector"或者"Eigenvector"】 ,然后Eigenvector再開(kāi)方得到的結(jié)果叫"Singlular Value for PC1"

  3. 因?yàn)檫@是一個(gè)2維的圖形,因此PC2是PC1的垂直線,并且不需要任何進(jìn)一步的操作


  4. 然后就是畫(huà)最終的PCA plot

    首先就是將PC1放到水平


    接著找到PC1、PC2同一個(gè)投射點(diǎn)在2D圖中的位置,比如Sample6

  5. 計(jì)算PC1、PC2的貢獻(xiàn)率

    先分別計(jì)算PC1、PC2的variation,然后算比例即可

總結(jié)

對(duì)于簡(jiǎn)單的二維數(shù)據(jù),很方便理解,n維數(shù)據(jù)也是這樣處理,大體思路就是:

  • 計(jì)算n個(gè)維度(或者說(shuō)n個(gè)基因)的均值,找到數(shù)據(jù)中心

  • 中心平移到(0,0)

  • 找到跨過(guò)中心點(diǎn)的最佳擬合線=》PC1=》有n個(gè)組成成分(例如:0,62 parts Gene1; 0.15 parts Gene2; 0.77 parts Gene3,其中Gene3 is the most ingredient for PC1)

  • 找到垂直的PC2,同樣n個(gè)組成成分 。。。

  • 最后找到PCn,它與前面的各個(gè)PC都垂直

  • PC1放到水平,然后根據(jù)PC1~PCn中同一個(gè)sample畫(huà)出交點(diǎn)
    (因此這也說(shuō)明了為什么通過(guò)PCA可以看批次效應(yīng):因?yàn)镻CA圖中的每個(gè)點(diǎn)都是一個(gè)sample,這個(gè)點(diǎn)中包含了大量的表達(dá)量信息;如果說(shuō)本來(lái)生物學(xué)重復(fù)的sample在PCA圖上離得很遠(yuǎn),那么就意味著它們的表達(dá)量差異很大,這是不符合實(shí)際的,因此可能存在批次效應(yīng))

  • 根據(jù)每個(gè)PC的variation計(jì)算貢獻(xiàn)率


歡迎關(guān)注我們的公眾號(hào)~_~  
我們是兩個(gè)農(nóng)轉(zhuǎn)生信的小碩,打造生信星球,想讓它成為一個(gè)不拽術(shù)語(yǔ)、通俗易懂的生信知識(shí)平臺(tái)。需要幫助或提出意見(jiàn)請(qǐng)后臺(tái)留言或發(fā)送郵件到jieandze1314@gmail.com

Welcome to our bioinfoplanet!

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容