part1: 釋義
在單細胞RNA測序(single-cell RNA sequencing)分析中,幾個與細胞質(zhì)量評估相關的關鍵指標,以及如何解讀條形碼(barcode)排名圖。這些指標幫助我們了解測序數(shù)據(jù)的質(zhì)量、細胞的捕獲情況、UMI(Unique Molecular Identifier)計數(shù)和基因的表達情況。下面我會詳細解釋每個術語及其含義。
-
Cells(細胞)
? 這是指在實驗中檢測到的實際細胞數(shù)量。這個值是通過分析與細胞相關聯(lián)的條形碼(barcodes)來估算的。條形碼是單細胞測序中用于標記和區(qū)分不同細胞的序列。
-
Estimated Number of Cells(估計細胞數(shù)量)
? 估計的細胞數(shù)量是指至少與一個細胞相關聯(lián)的條形碼的數(shù)量。每個條形碼對應一個單細胞,因此通過統(tǒng)計這些條形碼的數(shù)量可以估算實驗中捕獲的細胞總數(shù)。這個指標幫助你了解實驗捕獲了多少細胞。
-
Fraction Reads in Cells(細胞內(nèi)的讀段比例)
? 這是指那些擁有有效條形碼并且被精確地映射到基因組的序列讀段(reads)中,有多少比例是與細胞條形碼相關聯(lián)的。這個值的高低可以反映測序數(shù)據(jù)的質(zhì)量。如果比例較高,意味著大部分讀段確實來源于細胞,而非背景噪音。
-
Mean Reads per Cell(每個細胞的平均讀段數(shù))
? 這是指測序讀段的總數(shù)除以細胞條形碼的數(shù)量,計算出每個細胞平均分配到的讀段數(shù)量。這個指標幫助你了解每個細胞捕獲了多少測序數(shù)據(jù),通常反映實驗中的數(shù)據(jù)深度。
-
Median UMI Counts per Cell(每個細胞的中位UMI計數(shù))
? UMI是指測序時為了去除PCR擴增偏差而使用的唯一分子標簽。這個指標表示每個細胞條形碼關聯(lián)的UMI計數(shù)的中位數(shù),幫助你了解在不同細胞之間,UMI的分布情況。UMI數(shù)的多少可以反映出每個細胞中檢測到的轉(zhuǎn)錄本數(shù)量。
-
Median Genes per Cell(每個細胞的中位基因數(shù))
? 這個指標表示每個細胞條形碼檢測到的基因數(shù)的中位數(shù)?;驒z測是基于至少有1個UMI計數(shù)的基因。這幫助你了解每個細胞中平均表達了多少個基因,通常用于評估測序數(shù)據(jù)的復雜性。
-
Total Genes Detected(檢測到的總基因數(shù))
? 這是指在所有細胞中,至少有一個UMI計數(shù)的基因總數(shù)。這表明整個數(shù)據(jù)集里,有多少基因在至少一個細胞中表達。這可以反映出實驗中基因表達的廣度。
-
Barcode Rank Plot(條形碼排名圖)
? 該圖顯示了每個條形碼的UMI計數(shù)(即與每個條形碼關聯(lián)的UMI數(shù)量)。條形碼的排名是根據(jù)UMI計數(shù)的降序排列,排名靠前的條形碼往往對應著含有更多UMI計數(shù)的細胞。需要注意的是,條形碼是否與細胞相關聯(lián)不僅僅取決于UMI計數(shù),還可能根據(jù)表達特征進行判定。圖中還可能顯示通過蛋白聚集檢測和過濾(Protein Aggregate Detection and Filtering)或高占用GEM(Gel Bead in Emulsion)過濾(High Occupancy GEM Filtering)去除的背景條形碼。
? 在條形碼排名圖中,不同顏色表示不同區(qū)域的條形碼密度,幫助你區(qū)分哪些條形碼與細胞有關,哪些與背景噪音有關。當你懸停在圖上的某個區(qū)域時,會顯示該區(qū)域中條形碼被判定為細胞的數(shù)量及百分比,同時顯示該區(qū)域的條形碼的UMI計數(shù)和條形碼排名。
image.png
part2: 范圍
在單細胞RNA測序分析中,不同實驗的條件、測序平臺、細胞類型等因素都會影響這些質(zhì)量控制(QC)指標的合理范圍。因此,具體數(shù)值的“合理性”需要結合實驗背景來評估。以下是一般情況下,每個指標的參考范圍和判斷標準:
-
Estimated Number of Cells(估計細胞數(shù)量)
? 參考范圍:根據(jù)實驗的設計,捕獲的細胞數(shù)量通常在幾千到幾十萬之間不等。如果使用10X Genomics平臺,通常單次實驗可以捕獲大約3000到10萬的細胞。
? 判斷標準:估計細胞數(shù)量應符合實驗設計。如果捕獲的細胞數(shù)明顯低于預期,可能意味著細胞捕獲效率較低,或者部分細胞丟失。如果過高,可能表明有噪音或污染存在。 -
Fraction Reads in Cells(細胞內(nèi)的讀段比例)
? 參考范圍:一般來說,該值應高于60%-80%,意味著大部分測序讀段來自真實的細胞條形碼。如果這個比例過低,說明很多讀段可能是噪音或背景。
? 判斷標準:如果比例低于60%,則表明實驗中的條形碼分配存在問題,或者細胞捕獲效率較低。理想情況下,該值應越高越好。 -
Mean Reads per Cell(每個細胞的平均讀段數(shù))
? 參考范圍:對于10X Genomics平臺,每個細胞通常至少有2萬-5萬讀段,達到高覆蓋度的實驗可以達到10萬讀段或更多。
? 判斷標準:如果每個細胞的平均讀段數(shù)低于1萬,可能表明測序深度不夠,導致數(shù)據(jù)質(zhì)量不高。如果數(shù)值過高,可能存在數(shù)據(jù)冗余,表明測序深度超過了所需。 -
Median UMI Counts per Cell(每個細胞的中位UMI計數(shù))
? 參考范圍:該值通常在數(shù)千至數(shù)萬之間,具體取決于實驗設計和細胞類型。常見范圍為1000到5000左右的UMI計數(shù)。
? 判斷標準:UMI計數(shù)越高,意味著在每個細胞中檢測到的轉(zhuǎn)錄本越多。如果中位UMI計數(shù)低于500,可能表明捕獲效率低或測序深度不足。 -
Median Genes per Cell(每個細胞的中位基因數(shù))
? 參考范圍:對于哺乳動物細胞,通常每個細胞會檢測到1000-3000個基因。如果是某些高度活躍的細胞(如免疫細胞),這個值可能更高。
? 判斷標準:每個細胞的中位基因數(shù)應至少在800-1000個以上。如果遠低于這個數(shù)值,可能表示實驗數(shù)據(jù)的覆蓋率或細胞活性較差。如果檢測到的基因數(shù)過多,也可能提示捕獲了一些雙細胞(doublet)或存在噪音。 -
Total Genes Detected(檢測到的總基因數(shù))
? 參考范圍:檢測到的基因總數(shù)通常取決于實驗的深度和細胞類型。一般情況下,可以檢測到20000-30000個基因。
? 判斷標準:這個指標反映了整個數(shù)據(jù)集的基因表達廣度。如果檢測到的基因數(shù)過少,可能是測序深度不夠或細胞活性較差。反之,如果總基因數(shù)過高,可能意味著有噪音或雙細胞污染。 -
Barcode Rank Plot(條形碼排名圖)
? 參考解讀:條形碼排名圖的目的是幫助你區(qū)分細胞條形碼和背景噪音條形碼。通常情況下,在條形碼排名圖的高UMI部分會看到一個“膝蓋”形狀的拐點,拐點之前的條形碼被認為是真正與細胞關聯(lián)的,之后的條形碼則是背景噪音或低質(zhì)量條形碼。
? 判斷標準:拐點清晰,且前半部分條形碼的UMI計數(shù)較高(通常每個條形碼UMI計數(shù)大于100),表示細胞與背景條形碼區(qū)分明確。如果沒有明顯的拐點,或者很多條形碼的UMI計數(shù)較低,可能表明實驗數(shù)據(jù)中存在較多背景噪音或低質(zhì)量條形碼。
歡迎一起討論交流,來合作呀!
