2.單細胞 RNA-seq:計數(shù)矩陣的生成

單細胞 RNA-seq 數(shù)據(jù) - 計數(shù)矩陣的原始數(shù)據(jù)

根據(jù)所使用的文庫制備方法,RNA序列(也稱為讀序列或標簽)將從轉(zhuǎn)錄本的3端(或5端)(10X Genomics, cell -seq2, Drop-seq, inDrops)或全長轉(zhuǎn)錄本(Smart-seq)中獲得。

image

圖片來源: Papalexi E 和 Satija R. 探索免疫細胞異質(zhì)性的單細胞 RNA 測序,Nature Reviews Immunology 2018 (https://doi.org/10.1038/nri.2017.76)

針對感興趣的生物學問題選擇不同的方法。下面列出了這些方法的優(yōu)點:

  • 3'(或 5')端測序:
    • 通過使用特異性的分子標識符將生物學重復與擴增 (PCR) 重復區(qū)分開來進行更準確的量化
    • 測序能夠獲得更多細胞數(shù),可以更好地識別細胞亞群類型
    • 每個細胞的測序成本低
    • 最佳的測序結(jié)果大于10000 個細胞
  • 全長測序:
    • 檢測異構體水平中的表達差異
    • 鑒定等位基因特異性表達差異
    • 對較少數(shù)量的細胞進行更深入的測序
    • 非常適合細胞數(shù)量少的樣品

3 '端測序與全長測序需要進行許多相同的分析步驟,但 3' 端測序來越受歡迎,在分析中包含更多步驟。因此,我們將詳細分析來自這些 3' 端測序的數(shù)據(jù),主要是基于液滴的方法(inDrops、Drop-seq、10X Genomics)。

3' 端reads(所有基于液滴的方法)

對于 scRNA-seq 數(shù)據(jù)的分析,了解每個reads中存在哪些信息以及我們?nèi)绾卧诜治鲋惺褂盟呛苡袔椭摹?/p>

對于3 '端測序方法來說,從同一轉(zhuǎn)錄本的不同分子中讀取的信息,只會從轉(zhuǎn)錄本的3 '端讀取,因此序列相同的可能性很大。然而,在文庫制備過程中的PCR步驟也可以產(chǎn)生read 復制。為了確定一個reads是生物的還是技術上的重復,這些方法使用獨特的分子標識符(UMIs)。

  • 與讀出不同的UMI映射到相同的轉(zhuǎn)錄從推導不同的分子和生物是重復-每次讀取應進行計數(shù)。
  • 具有相同 UMI 的讀取源自相同的分子并且是技術重復 - UMI 應折疊以計為單個讀取。
  • 在下圖中,ACTB 的讀數(shù)應折疊并計為單個讀數(shù),而 ARL1 的讀數(shù)應計算每個讀數(shù)。
  • 映射到相同轉(zhuǎn)錄本的不同UMIs的Reads來自不同的分子,是生物重復——每個Reads都應該被計數(shù)。
  • 具有相同UMI的讀取來自于相同的分子,并且在技術上是重復的——這些UMI應該被折疊以算作一個單獨的reads。
  • 在下圖中,ACTB的reads應該被折疊并作為單個reads計算,而ARL1的reads應該分別計算。


    image

圖片來源:從 Macosko EZ 等人修改。使用納升液滴對單個細胞進行高度平行的全基因組表達分析,cell 2015 (https://doi.org/10.1016/j.cell.2015.05.002)*

所以我們需要跟蹤 UMI,但是我們還需要什么信息來正確量化我們樣本中每個細胞中每個基因的表達呢? 無論液滴方法是什么,在細胞水平上進行適當?shù)亩慷夹枰韵聴l件:

  • 樣本索引:確定reads來自于哪個樣本
    • 在文庫準備期間添加 - 需要記錄
  • 細胞barcode:確定reads源自哪個細胞
    • 每種文庫制備方法都有一個在文庫制備過程中使用的細胞條形碼庫
  • 唯一分子標識符 (UMI):確定reads來自于哪個轉(zhuǎn)錄本分子
    • UMI 將用于折疊 PCR 重復序列
  • 測序 read1: Read1 序列
  • 測序 read2: Read2 序列

例如,當使用 inDrops v3 文庫制備方法時,以下表示如何在四次reads中獲取所有信息:

image

圖片來源: Sarah Boswell(https://scholar.harvard.edu/saboswell),HMS 單細胞測序核心主管

  • R1(61 bp read 1):read序列(紅色頂部箭頭)
  • R2(8 bp read索引 1 (i7)):細胞條形碼 - 細胞read源自(紫色頂部箭頭)
  • R3(8 bp read索引 2 (i5)):樣本/文庫索引 - 樣本read源自(紅色底部箭頭)
  • R4(14 bp read 2):read 2 和剩余的細胞條形碼和 UMI - 轉(zhuǎn)錄read源自(紫色底部箭頭)

對于不同的基于液滴的 scRNA-seq 方法,scRNA-seq 的分析工作流程是相似的,但它們之間的 UMI、細胞 ID 和樣本索引會有所不同。例如,下面是 10X 序列讀取的示意圖,其中索引、UMI 和條形碼的放置方式不同:

image

圖片來源: Sarah Boswell(https://scholar.harvard.edu/saboswell),HMS 單細胞測序核心主管*

單細胞 RNA-seq 工作流程

scRNA-seq 方法將確定如何從測序讀數(shù)中解析條形碼和 UMI。因此,盡管一些特定步驟會略有不同,但無論使用何種方法,整個工作流程通常都會遵循相同的步驟。一般工作流程如下圖所示:

image

圖片來源:醫(yī)學博士 Luecken 和 FJ 的 Theis。當前單細胞 RNA-seq 分析的最佳實踐:教程,Mol Syst Biol 2019(doi:https://doi.org/10.15252/msb.20188746)*

工作流程的步驟是:

  • 計數(shù)矩陣的生成(特定于方法的步驟):格式化reads、樣本demultiplexing、映射和定量
  • 原始計數(shù)的質(zhì)量控制:過濾劣質(zhì)細胞
  • 過濾計數(shù)聚類:基于轉(zhuǎn)錄活性的相似性對細胞進行聚類(細胞類型 = 不同的聚類)
  • 標記識別和簇注釋:識別每個簇的基因標記并注釋已知的細胞類型簇
  • 下游步驟可選

無論進行何種分析,基于每個條件的單個樣本得出的關于總體的結(jié)論都是不可信的。仍然需要生物學重復!也就是說,如果您想得出與總體相對應的結(jié)論,而不單是做單個樣本。

計數(shù)矩陣的生成

我們首先討論工作流程的第一部分,即從原始測序數(shù)據(jù)生成計數(shù)矩陣。我們將重點介紹基于液滴的方法使用的 3' 端測序,例如 inDrops、10X Genomics 和 Drop-seq。

image

測序后,測序設備將以BCL 或 FASTQ 格式輸出原始測序數(shù)據(jù)或生成計數(shù)矩陣。如果reads是 BCL 格式,那么我們需要轉(zhuǎn)換為 FASTQ 格式。有一個有用的命令行工具bcl2fastq可以輕松執(zhí)行此轉(zhuǎn)換。

注意:我們不會在工作流程的這一步進行多樣本拆分。您可能對 6 個樣本進行了測序,但所有樣本的讀數(shù)可能都存在于同一個 BCL 或 FASTQ 文件中。

對于許多 scRNA-seq 方法,從原始測序數(shù)據(jù)生成計數(shù)矩陣將經(jīng)歷類似的步驟。

image

alevin是一種命令行工具,用于估計對轉(zhuǎn)錄本 3' 端進行測序的 scRNA-seq 數(shù)據(jù)的表達。umi-toolszUMI是可以執(zhí)行這些過程的附加工具。這些工具結(jié)合了 UMI 的折疊以校正放大偏差。此過程中的步驟包括:

  1. 格式化reads和過濾嘈雜的蜂窩barcode
  2. 多樣本拆分
  3. 映射/偽映射到轉(zhuǎn)錄組
  4. 折疊 UMI 和reads的量化

如果使用 10X Genomics 文庫制備方法,上述所有步驟將通過Cell Ranger 管道完成。

1. 格式化reads和過濾嘈雜的蜂窩barcode

可以使用 FASTQ 文件來解析細胞barcode、UMI 和樣本barcode。對于基于液滴的方法,由于以下原因,許多細胞barcode將匹配少量reads(< 1000 次read):

  • 從瀕死細胞中封裝自由漂浮的 RNA
  • 表達很少基因的簡單細胞(紅細胞等)
  • 由于某種原因失敗的細胞

這些多余的條形碼需要在reads比對之前從序列數(shù)據(jù)中過濾掉。為了進行這種過濾,為每個細胞提取并保存“細胞條形碼”和“分子條形碼”。例如,如果使用“umis”工具,信息將添加到每次read的標題行,格式如下:

@HWI-ST808:130:H0B8YADXX:1:1101:2088:2222:CELL_GGTCCA:UMI_CCCT
AGGAAGATGGAGGAGAGAAGGCGGTGAAAGAGACCTGTAAAAAGCCACCGN
+
@@@DDBD>=AFCF+<CAFHDECII:DGGGHGIGGIIIEHGIIIGIIDHII#

文庫制備方法中使用的已知細胞條形碼應該是已知的,未知條形碼將被丟棄,同時允許與已知細胞條形碼的不匹配數(shù)量可接受。

2. 多樣本拆分

如果是對多個樣本測序,則該過程的下一步是對對樣本進行拆分。這是此過程的一個步驟,不是由“umis”工具處理的,而是由“zUMI”完成的。我們需要解析reads以確定與每個細胞相關的樣本barcode。

3. 映射/偽映射到 cDNAs

為了確定read源自哪個基因,reads使用傳統(tǒng) (STAR) 或輕量級方法 (Kallisto/RapMap) 進行比對。

4. 折疊 UMI 和 read量化

重復的 UMI 被折疊,并且只有唯一的 UMI 使用 Kallisto 或 featureCounts 等工具進行量化。結(jié)果輸出是一個按基因計數(shù)矩陣的單元格:

image

圖片來源:摘自 Lafzi 等人。教程:單細胞 RNA 測序研究的實驗設計指南,Nature Protocols 2018 (https://doi.org/10.1038/s41596-018-0073-y)

矩陣中的每個值代表源自相應基因的細胞中的read數(shù)。使用計數(shù)矩陣,我們可以探索和過濾數(shù)據(jù),只保留更高質(zhì)量的細胞。

最后編輯于
?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容