女同AV 一区二区,久久一进一出抽搐视频

劉小澤寫于19.4.27
聚類分析的基礎(chǔ)就是PCA，掌握這個(gè)對(duì)以后那么這次就先跟著statquest來(lái)學(xué)習(xí)一下，視頻鏈接在https://www.youtube.com/watch?v=FgakZw6K1QQ&feature=youtu.be>

好的，首先看看為什么需要進(jìn)行PCA？

假設(shè)現(xiàn)在有一個(gè)表達(dá)矩陣，行為基因，列為樣本，中間數(shù)據(jù)是表達(dá)量：

先假設(shè)有1個(gè)基因，在6個(gè)樣本中存在

1個(gè)基因

把這6個(gè)表達(dá)量都顯示出來(lái)，可以在一條直線上繪制出高表達(dá)和低表達(dá)(可以看到1，2，3更接近，并且高于4，5，6)
再加1個(gè)基因，還是6個(gè)樣本中存在

2個(gè)基因

構(gòu)建了一個(gè)2維空間，基因1的表達(dá)量可以用橫軸表示，基因2用縱軸表示?？梢钥吹皆诨?、2的作用下，樣本1、2、3聚集在右上角，4、5、6聚集在左下角
如果3個(gè)基因呢？

3個(gè)基因

就構(gòu)建出了3維空間，點(diǎn)越小意味著數(shù)值越大，離得越遠(yuǎn)
但是，如果是4個(gè)基因，我們就無(wú)法畫(huà)出數(shù)據(jù)了，因?yàn)樾枰?維空間

因此，PCA的作用就是：對(duì)超過(guò)4維的數(shù)據(jù)降維到一個(gè)2D平面圖中，并且這個(gè)圖中"相似相聚"

PCA怎么操作的？

還是利用2維(2個(gè)基因)的數(shù)據(jù)進(jìn)行理解：

先得到Gene1的平均數(shù)(橫軸紅色)

同理得到Gene2的平均數(shù)（縱軸紅色）。
接著計(jì)算整個(gè)數(shù)據(jù)的中心：(藍(lán)色)

然后將數(shù)據(jù)平移，保證最后的中心在(0，0)的位置

這里注意：數(shù)據(jù)平移并不會(huì)改變數(shù)據(jù)結(jié)構(gòu)以及相互之間的大小關(guān)系，比如原來(lái)最大的值現(xiàn)在還是最大；原來(lái)在最左下方的現(xiàn)在還是在那個(gè)位置

平移后的數(shù)據(jù)可以做一個(gè)輔助線進(jìn)行擬合。先隨便畫(huà)一條穿過(guò)中心點(diǎn)的線，然后進(jìn)行旋轉(zhuǎn)，盡量擬合進(jìn)來(lái)最多的數(shù)值。

這里又引入一個(gè)問(wèn)題：PCA是怎么判斷哪條擬合線質(zhì)量最好呢？

比如隨便畫(huà)一條，然后將數(shù)據(jù)投射到這條線上，它看的是投射點(diǎn)到原點(diǎn)/中心點(diǎn)(0，0)的距離平方

得到了PC1這條擬合線，假設(shè)斜率為0.25，就意味著：沿著x軸走4個(gè)單位，才沿著y軸走1個(gè)單位（術(shù)語(yǔ)叫做：Gene1和Gene2的線性組合=> linear combination）。換句話說(shuō)就是數(shù)據(jù)主要是沿著Gene1的x軸分布，數(shù)據(jù)整體分布受Gene1的影響更大

因此，當(dāng)看到"PC1 is a linear combination of variables"，意思就是PC1是由幾種Gene1成分加上幾種Gene2成分組成的
確定了PC1后，進(jìn)行scale縮放操作，將紅線長(zhǎng)度縮放成1，其他兩邊也進(jìn)行等比例縮放?！拘g(shù)語(yǔ)：0.97的Gene1與0.242的Gene2叫做PC1的"Singular Vector"或者"Eigenvector"】，然后Eigenvector再開(kāi)方得到的結(jié)果叫"Singlular Value for PC1"
因?yàn)檫@是一個(gè)2維的圖形，因此PC2是PC1的垂直線，并且不需要任何進(jìn)一步的操作
然后就是畫(huà)最終的PCA plot

首先就是將PC1放到水平

接著找到PC1、PC2同一個(gè)投射點(diǎn)在2D圖中的位置，比如Sample6
計(jì)算PC1、PC2的貢獻(xiàn)率

先分別計(jì)算PC1、PC2的variation，然后算比例即可

總結(jié)

對(duì)于簡(jiǎn)單的二維數(shù)據(jù)，很方便理解，n維數(shù)據(jù)也是這樣處理，大體思路就是：

計(jì)算n個(gè)維度(或者說(shuō)n個(gè)基因)的均值，找到數(shù)據(jù)中心
中心平移到(0，0)
找到跨過(guò)中心點(diǎn)的最佳擬合線=》PC1=》有n個(gè)組成成分(例如：0,62 parts Gene1; 0.15 parts Gene2; 0.77 parts Gene3，其中Gene3 is the most ingredient for PC1)
找到垂直的PC2，同樣n個(gè)組成成分。。。
最后找到PCn，它與前面的各個(gè)PC都垂直
PC1放到水平，然后根據(jù)PC1~PCn中同一個(gè)sample畫(huà)出交點(diǎn)
(因此這也說(shuō)明了為什么通過(guò)PCA可以看批次效應(yīng)：因?yàn)镻CA圖中的每個(gè)點(diǎn)都是一個(gè)sample，這個(gè)點(diǎn)中包含了大量的表達(dá)量信息；如果說(shuō)本來(lái)生物學(xué)重復(fù)的sample在PCA圖上離得很遠(yuǎn)，那么就意味著它們的表達(dá)量差異很大，這是不符合實(shí)際的，因此可能存在批次效應(yīng))
根據(jù)每個(gè)PC的variation計(jì)算貢獻(xiàn)率

歡迎關(guān)注我們的公眾號(hào)～_～　　
我們是兩個(gè)農(nóng)轉(zhuǎn)生信的小碩，打造生信星球，想讓它成為一個(gè)不拽術(shù)語(yǔ)、通俗易懂的生信知識(shí)平臺(tái)。需要幫助或提出意見(jiàn)請(qǐng)后臺(tái)留言或發(fā)送郵件到jieandze1314@gmail.com

Welcome to our bioinfoplanet!

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

StatQuest-PCA學(xué)習(xí)

StatQuest-PCA學(xué)習(xí)

好的，首先看看為什么需要進(jìn)行PCA？

PCA怎么操作的？

總結(jié)

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

StatQuest-PCA學(xué)習(xí)

好的，首先看看為什么需要進(jìn)行PCA？

PCA怎么操作的？

總結(jié)

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

好的，首先看看為什么需要進(jìn)行PCA？

PCA怎么操作的？