在進行單細胞降維分析時,resolution值的確定會影響亞群數(shù)的多少,但最開始分析的時候不知道亞群數(shù)最佳為多少,可通過一些分析結(jié)果進行確定。
10X單細胞轉(zhuǎn)錄組測序—常規(guī)流程 - 簡書 (jianshu.com)
獲取PCA分析后的結(jié)果 ②⑥
PBMC.all3=readRDS("E:/project/test/PBMC.all3.rds")
P值分析 號
通過p值分析,確定最多降維出多少個亞群是可信的。參數(shù)dims可設(shè)置最大(最大為PCA分析時參數(shù)npcs值的大小,默認為30)。
作出的圖中有一條虛線,只要實線在虛線之上就認為是可信的。若實現(xiàn)太靠上或太靠下,顯得不美觀,可調(diào)整ymax值的大小。
PBMC.all3 = JackStraw(PBMC.all3,dims = 30)PBMC.all3 = ScoreJackStraw(PBMC.all3,dims=1:30)JackStrawPlot(PBMC.all3,dims=1:30,ymax = 0.6)
可通過碎石圖初步確定亞群數(shù) 宇宙
通過人為確定拐點來確定分組數(shù)
ElbowPlot(PBMC.all3,ndims = 30)
樹形圖確定
不能確定resolution就設(shè)置一系列resolution值進行篩選
library(clustree)library(patchwork)#umap非線性降維PBMC.all3 <- RunUMAP(PBMC.all3,dims = 1:30,reduction = "harmony")PBMC.all3 = FindNeighbors(PBMC.all3,reduction = "harmony",dims = 1:30)seq <- seq(0.1, 1, by = 0.1)for(res in seq){ PBMC.all3 <- FindClusters(object = PBMC.all3,method = "igraph",resolution = res)}p1 <- clustree(PBMC.all3, prefix = 'RNA_snn_res.') + coord_flip()p1p2 <- DimPlot(PBMC.all3,group.by = 'RNA_snn_res.0.1', label = T)p2p1 + p2 + plot_layout(widths = c(2, 1))
解讀:箭頭的指向代表了一種從屬關(guān)系,每一列代表一種resolution值,resolution值從左到右依次增大,每一個圓圈代表該resolution值的一個亞群,箭頭的指向應(yīng)盡量避免雜亂,如果出現(xiàn)兩個箭頭共同指向同一個亞群,說明降維效果不好,應(yīng)找不出現(xiàn)這種情況的最小resolution,即當(dāng)前最適合的resolution,若想繼續(xù)減小resolution,需要對降維參數(shù)進行優(yōu)化。
優(yōu)化思路
- 數(shù)據(jù)質(zhì)控的好壞會影響降維的好壞。可根據(jù)我寫的10X單細胞轉(zhuǎn)錄組測序—常規(guī)流程 - 簡書 (jianshu.com)
中質(zhì)控的方法,調(diào)整各類型基因所占比例的闕值,也可以刪除reads數(shù)貢獻較大的基因,也可刪除線粒體,核糖體,血紅蛋白相關(guān)基因。 - 若沒有刪除細胞周期相關(guān)基因,需要進行周期分析,回歸掉相關(guān)基因,降低該部分基因?qū)稻S的影響。
- 若分析的是免疫細胞,那就可以用相關(guān)的免疫細胞的marker基因進行標(biāo)準(zhǔn)化和降維,例如
cellmarker數(shù)據(jù)庫中的基因。在我的10X單細胞轉(zhuǎn)錄組測序—常規(guī)流程 - 簡書 (jianshu.com)
中都有涉及。標(biāo)準(zhǔn)化和PCA分析時可將參數(shù)features設(shè)置成不同的基因集,來篩選哪種設(shè)置方法最佳。 - 各個函數(shù)中
dims參數(shù)的大小也會影響降維的好壞。