《Tutorial: guidelines for the computational analysis of single-cell RNA sequencing data》單細胞流程

這篇文獻是今年12月份發(fā)的,也就是一個星期前,是劉小樂教授推薦閱讀的


推特地址:https://twitter.com/XShirleyLiu/status/1336882218044624896

本篇文章講解了單細胞RNA-seq的一般分析流程,當然文中還推薦了分析的課程:單細胞課程,這個課程講的還是比較基礎的,比較適合初學者入坑
《Tutorial: guidelines for the computational analysis of single-cell RNA sequencing data》

Introduction

目前基于單細胞測序主要有兩種建庫技術,一種是主打細胞數(shù)量的10X platform,該技術的特點是提出了unique molecular identifiers(UMI),即每一個細胞對應唯一的barcode作為區(qū)分于其他細胞的標識符;簡而言之就是測到的每一條reads上都帶有唯一的barcode,一個barcode對應一個細胞,這樣我們就可以知道測到的reads分別來自于哪一個細胞,而UMI即代表mapping到某一個barcode(細胞)上的reads數(shù)
另外一個是主打基因的smart-seq,該方法測的是5'到3'端的mRNA,即容易測到全長的mRNA,但是采用該技術建庫分離的細胞數(shù)目較少

scRNA-seq分析的主要組成部分是表達矩陣,它表示每個細胞中每個基因的轉錄本數(shù)量;因此scRNA分析流程可以分為兩類:1.產(chǎn)生表達矩陣;2.分析表達矩陣



在特定的情況下,研究人員必須首先組合來自多個實驗所產(chǎn)生的表達矩陣以獲得組合的表達矩陣,并針對測序深度,細胞周期階段和其他混雜因素進行校正。 接下來,將數(shù)據(jù)可視化,并通過聚類,偽時間和差異表達分析確定生物學上有意義的模式。 最后,將結果與文獻和現(xiàn)有數(shù)據(jù)集進行比較。

Quality control

那么質(zhì)控的第一步就是去除一些不太可能代表單個細胞的barcode,最簡單的方法就是對于每一個barcode,設置UMI的最小閾值,小于該閾值的將其舍去
其次要考慮的是檢測到的基因數(shù)量,線粒體基因組轉錄出來的mRNA如果比例過高,那么意味著同樣測序深度,其他基因分攤到的reads比例將會減少;一般針對這種情況,我們需要根據(jù)不同器官,不同技術路線來確定線粒體mRNA比例的閾值
最后還應該考慮或有一些barcode會對應于多個細胞,這種情況我們稱之為doublets,我們可以通過一些軟件進行檢測,例如scrubletDoubletFinder。這些軟件對你的數(shù)據(jù)模擬可能出現(xiàn)的雙峰,從而判斷哪一些barcode對應于多個細胞

歸一化

所謂歸一化就是計算與樣品的測序深度相關的量(通常稱為“size factor”),我們可以利用scran包對每一個細胞來估計(size factor),還有就是利用spike-in RNA或者管家基因來估算size factor

還有一個問題就是在單細胞表達矩陣中會出現(xiàn)很多零表達或者低表達的基因,這種情況的歸一化方式與高表達基因的不一樣。例如:SCnorm 常常用于低通量,高深度的數(shù)據(jù),而sctransform 常常用于高通量,低深度的數(shù)據(jù)。最近在2019年又推出了基于貝葉斯方法進行標準化和推斷單細胞數(shù)據(jù)的count,稱之為bayNorm,目的是通過mRNA捕獲的影響來推算潛在的基于表達譜

批次效應矯正

批次效應是由非生物因素(例如實驗時間,進行實驗的人或試劑的差異)的差異引起的。
在bulk-seq中,去除批次效應可以用ComBat進行矯正,其原理是利用線性模型分開生物學效應項和批次效應項,可閱讀關于批次效應的若干問題

但是這種方式并不適合與單細胞數(shù)據(jù),因為原始的單細胞表達矩陣中,我們無法得知確切的細胞類型,不像bulk-seq,我們可以提前得知每個樣品的處理方式(在單細胞中,不同的處理方式可以理解為不同的細胞類型)。
去除單細胞批次效應影響的軟件有mnnCorrect,該軟件利用不同批次中的細胞之間的相互最鄰近鄰居來確定事后批次之間的共同生物學現(xiàn)象,這種方法經(jīng)過改進可以為Seurat的 canonical correlation analysis (CCA)找到“錨點”。mnnCorrect使用PCA從基因表達矩陣中刪除了批處理效應,而CCA則是將細胞投射到一個公共的基因相關空間中并對該空間進行校正。

Imputation and smoothing

許多歸一化策略不會更改零表達的值,因此很容易假設它們代表丟失的值,原則上,刪除零可以降低噪音并使其更容易識別數(shù)據(jù)的基礎結構(例如,基因與基因的相關性,細胞簇,標記基因或發(fā)育軌跡)。已經(jīng)開發(fā)了一些工具來“估算” scRNA-seq數(shù)據(jù)中的零值,包括scImpute,DrImpute和SAVER,這些工具都依賴于在數(shù)據(jù)中尋找可用于預測缺失值表達水平的結構

細胞周期分析

如果樣品中包含細胞周期循環(huán)的細胞,則可能會導致生物學中混雜因素,可能需要將其去除以進行下游分析。有兩種廣泛使用的用于識別細胞周期階段的工具:Cyclone和Seurat
Cyclone軟件根據(jù)基因在不同細胞的表達情況進行細胞時期的分配(G1 / S和G2 / M時期)
這兩種工具都將使用通用線性模型來回歸差異。此外,Seurat提供了一個選項,可以只去除G1 / S和G2 / M中細胞之間的差異,同時保留周期和非周期細胞之間的差異。

特征選擇

在scRNA-seq實驗中,每個基因代表一個維度,但是,許多基因不會在給定的細胞或細胞類型中表達,并且測到的細胞基因總數(shù)有時<1,000個基因。
特征選擇可識別出相對于技術噪聲而言具有最強生物信號的基因,采用特征選取,并選取信息最豐富的基因,可以減少維數(shù)的影響,降低噪音并簡化分析。scRNA-seq數(shù)據(jù)中的特征選擇有兩個復雜因素:(i)影響每個基因的技術噪聲取決于該基因的平均表達量,并且(ii)對于小樣本量很難估計方差。用于特征選擇的最廣泛使用的策略是考慮高度可變的基因(即方差比預期高的基因)。比方說Seurat之類的工具使用非參數(shù)方法,通過經(jīng)驗擬合方差和均值表達之間的關系來識別高度可變的基因

降維和可視化

大多數(shù)scRNA-seq數(shù)據(jù)集都很復雜,其結構無法被兩個或三個主要成分捕獲,當前的最佳的降維方法是均勻流形逼近和降維投影(UMAP),該算法使用一個單元間最近鄰網(wǎng)絡來近似數(shù)據(jù)的拓撲,然后估計最能保留該結構的低維數(shù)據(jù)結構,然后嵌入, UMAP能夠更好地保存數(shù)據(jù)高維空間結構,因此可以在很大程度上取代t分布隨機鄰近嵌入(t-SNE)

無監(jiān)督聚類

scRNA-seq數(shù)據(jù)的無監(jiān)督聚類至關重要,因為它可以識別具有相似表達譜的細胞群。這些組中的某些可以代表不同的細胞類型,而其他組則可以被視為中間細胞狀態(tài),因此可以采用 k-means algorithm, Louvain algorithm進行無監(jiān)督聚類

偽時間分析

什么是偽時間分析,我們知道,一個組織或者一個和器官內(nèi)有許多種細胞類型,誘導蔡剛發(fā)育,有的已經(jīng)發(fā)育成熟,并且存在著一種細胞類型向另外一種細胞類型發(fā)育的過程。
那么基于單細胞表達譜,推斷出哪一些細胞類型向另外哪一些細胞類型發(fā)育的軌跡我們稱之為偽時間,有別于真時間的是偽時間是由于同一時空下細胞發(fā)育進度的不同而導致的,并不是真正的有時間差。
大多數(shù)工具采用以下兩種方法之一。第一種方法是使用降維技術來識別細胞所處的低維“流形”,并且利用細胞與細胞間的連接圖來表示發(fā)育軌跡。使用此算法的軟件包括Monocle和DPT
第二種方法是利用無監(jiān)督的聚類方法先將不同的細胞類型聚類,然后連接每一個cell cluster,再把這些cell cluster投影到每一個分支上

還有一種是利用RNA降解速率來推斷細胞發(fā)育軌跡,RNAvelocity就是利用這個原理,其原理大致為傳送門

差異表達

在單細胞差異表達顯著性檢驗中,往往利用非參數(shù)non-parametric Wilcoxon test做檢驗。對于每一個差異表達比較,當前的選擇是計算每個細胞類型某基因的平均表達量,類似于bulk-seq,將不同的細胞類型看作是bulk-seq的不同樣本,比較不同細胞類型之間的差異表達

比較與合并數(shù)據(jù)集

隨著scRNA-seq數(shù)據(jù)量的不斷增長,一項重要的挑戰(zhàn)是確定如何最佳地組合數(shù)據(jù)集。批處理效應是組合來自不同實驗室的分析時的主要挑戰(zhàn)
當給定一個或多個具有已知細胞類型的數(shù)據(jù)集時,scmap會建立一個小的索引。給定新的數(shù)據(jù)集后,scmap可以基于單細胞轉錄表達譜快速識別在參考數(shù)據(jù)中哪一個細胞類型最接近的給定的新細胞。此外,scmap可以預測在參考數(shù)據(jù)中相鄰最近的細胞,這意味著在做偽時間分析時可以分配偽時間的值,而不是用離散的cell cluster標簽來推算
另一種方法是MetaNeighbor,目的是測試多個scRNA-seq數(shù)據(jù)集之間的細胞類型是否一致。 通過計算整個數(shù)據(jù)集之間的細胞間Spearman相關性,MetaNeighbor可以驗證細胞標記在多個實驗中的可重復性。

最后編輯于
?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容