這篇文章的目的是為了幫助理解Seurat在單細胞轉錄組分析中可以做哪些事,并且對整體的數據分析流程有一個整體的認識。并不包含代碼。
轉載請注明出處
1.單細胞測序分析的整體流程是怎樣的
以10x genomics為例

單細胞轉錄組分析流程

barcodes.tsv.gz : 包含barcodes信息
features.tsv.gz : 包含的是基因的信息
matrix.mtx.gz : 對于每一個barcodes而言,對每一個細胞表達的信息
但是Cell Ranger的質控并不嚴格,所以仍需要一步數據質控,去過濾低質量細胞和低豐度基因。
2.Seurat能做什么
首先,在這個流程圖中Seurat能進行分析的部分有“數據質控→基因表達標準化→降維聚類→marker基因鑒定/細胞類型鑒定/細胞亞群分析”
(擬時序分析需要用到另一個R包,Monocle)
其次,Seurat自帶繪圖函數Dimplot,可以對結果進行可視化。如果對Dimplot的效果不滿意,也可以將降維信息提取出來之后使用ggplot2作圖,這里有一個使用示例 利用 ggplot2 繪制 Seurat 對象中的 tSNE 或 UMAP 圖
3.Seurat之數據質控
需要數據質控的原因:在10x捕獲細胞的原理中,理論上一個油包水微滴中只有一個細胞,但在實際測序中,一個微滴中可能沒有細胞,也可能有2個甚至多個細胞。這就導致了某些微滴中測序基本為空,或者基因檢測數量非常高,因此需要通過數據質控將這部分異常的數據過濾掉。
另外還有一種情況,對于凋亡狀態(tài)細胞或受到損傷的細胞而言,其細胞內的線粒體基因比例會非常高,所以對于線粒體基因比例非常高的細胞也是低質量的細胞,對于這部分細胞也是要過濾掉的。
一般過濾標準:
每個細胞的基因數限制一般選用200個基因為下限值;2000-2500個基因為上限值;
線粒體基因的比例則可根據具體數據,看線粒體基因比例主要集中的范圍而定,越低越好,如5%。
4.Seurat之降維聚類分析
線性降維:PCA
非線性降維:tSNE、UMAP
PCA側重于從大量基因表達信息提取出對整個基因表達量影響最大的效應(即主成分),所以PCA分析就是將數據中大量基因表達信息濃縮到少數幾個代表樣本中主要效應的變量中,側重于抓取數據中隱藏的主要效應,從而在這個主要效應的維度中去直觀的展現出樣本之間的差異(距離越遠,差異越大)。更適合于常規(guī)轉錄組中,展示樣本之間的表達情況。
而對于單細胞測序分析,目的是區(qū)分出不同細胞亞群,而能夠區(qū)分細胞亞群的效應往往不是大量基因的差異,而是一些微小效應,也就是少量的標記基因的差異,這時PCA就不再適用,而tSNE則是將原本在原始數據集中比較相似的細胞,在降維之后的數據集中仍能保持相似性,并且能夠聚集在一起。
PCA是想辦法把不相似的數據區(qū)分開,在二維坐標圖上展示的時候,不相似的點之間間隔比較遠;
tSNE則是除了把不相似的點盡量分開的同時,盡量讓相似性質的點距離近一些。

圖中的每一個點都是一個細胞
單細胞測序數據一般處理流程:
先使用線性降維做一個預處理,然后再進行非線性聚類分析。
5.Seurat之Marker基因鑒定
Marker基因的篩選標準:該基因在指定細胞群的絕大多數細胞中有較高的表達,而在其余細胞類群中只有少部分表達,且該基因在此細胞群相對于其他細胞群中顯著上調表達。
Seurat可以進行兩個細胞群或者多個細胞群之間的差異基因的分析。
6.Seurat之細胞類型鑒定
鑒定出每一個細胞群的marker基因之后,就可以選定每個細胞群的代表性marker基因來繪制熱圖。

這里左側的基因就是選定的marker基因,最上方的彩條代表著細胞的分群,
熱圖的主體部分是每一個細胞表達對應的marker基因的表達量。
通過熱圖可以直觀展示和判定每個分群的細胞類型。
在判定了每個分群對應的細胞類型之后,可以把細胞類型的信息加入到tSNE圖中的展示中。

7.Seurat之某個基因的表達的展示
A.featureplot圖

B.小提琴圖

C.山脈圖

峰高代表細胞數,不同顏色表示不同類群,橫軸代表表達水平(其實與小提琴圖類似,就是豎過來的小提琴圖)。