關(guān)于單細胞中主要成分分析理解

PCA即主要成分分析指的是將多維度信息在轉(zhuǎn)化為低緯度信息的同時,盡量保存有原本的信息差異的方法。如下圖所示


假設(shè)x,y軸分別為geneA和geneB的表達,而圖上各點表示為6個樣本。此時我們想通過geneA和geneB的表達差異將這留個樣本分為兩組。這時候即需要將二維的基因表達數(shù)據(jù)轉(zhuǎn)化為一維分組,同時,在轉(zhuǎn)換時還要保持基因原本的表達差異信息。
這時候,我們就需要在原始數(shù)據(jù)上找到一個新的坐標系,并且保證各點映射到新坐標軸上的映射點之間的分布最分散,以此來保存我數(shù)據(jù)的原始差異。(假如每個樣本都映射在同一個點上,這樣的映射就完全失去了樣本差異)

所以,這時候我們需要兩個步驟
1.去中心化(把坐標原點放在數(shù)據(jù)中心)
2.找坐標系(找到方差最大的方向)
以上兩個步驟簡單來說,就是找到一個過原始數(shù)據(jù)的軸,使得各點到新軸線上的垂直距離之和最短(具體可用勾股定理推得),而這條新軸線即為PC1

PC2則為垂直于PC1的新新軸線,且各點到這條垂直于PC1并且通過原點的新新軸線上的垂直距離之和最短

在理解原理后,我們即可通過上圖的方式計算PC1和PC2乃至PC3在差異中所占據(jù)的比例。如圖上PC1占據(jù)差異的83%,而PC2占據(jù)17%(注:假如此時我們有3個基因的表達,即有PC1,PC2,PC3,此時計算原理與方法同上)。同時在每個PC中,都有著在構(gòu)建此PC最大表達差異的基因,如下所示

但是在真正的樣本表達譜中,并不是所有基因都可以反映樣本的差異性的,如某些基因之間卻有著調(diào)控、協(xié)同或拮抗的關(guān)系,表現(xiàn)為它們的表達值存在一些相關(guān)性,這就造成了統(tǒng)計數(shù)據(jù)所反映的信息存在一定程度的冗余,或者如持家基因在所有樣本中表達都一樣,它們對于解釋樣本的差異也沒有意義。因此,在單細胞分析中,過少的PC數(shù)量無法代表樣本的差異,而過多的PC數(shù)量則會引入無生物學意義的基因變化,即背景噪音。
因此我們在單細胞分析中,我們只需要在FindNeighbors一步前選出合適的PC數(shù)量即可,可使用elbowplot函數(shù)


在篩選出合適的PC數(shù)量后,我們只后續(xù)需使用UMAP和tSNE對我們的樣本進行二維可視化即可,其中可視化原理之后補充。


藥物型尖端扭轉(zhuǎn)型室性心動過速:一個白天上手術(shù),晚上寫代碼的苦逼外科醫(yī)生φ(..)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容