【scRW】[3]Single-cell RNA-seq data - raw data to count matrix

根據(jù)所用文庫(kù)的制備方法,RNA序列((also referred to as reads or tags)將從轉(zhuǎn)錄本(10X Genomics, CEL-seq2, Drop-seq, inDrops)或全長(zhǎng)轉(zhuǎn)錄本(Smart-seq)的3'端(或5'端)中衍生。

Image credit: Papalexi E and Satija R. Single-cell RNA sequencing to explore immune cell heterogeneity, Nature Reviews Immunology 2018 (https://doi.org/10.1038/nri.2017.76)

方法的選擇涉及感興趣的生物學(xué)問(wèn)題。 下面列出了這些方法的優(yōu)點(diǎn):

3’ (or 5’)-end sequencing:**

  • 通過(guò)使用獨(dú)特的分子標(biāo)識(shí)符進(jìn)行更準(zhǔn)確的定量,從而將生物學(xué)復(fù)制品與擴(kuò)增復(fù)制品(PCR)復(fù)制品區(qū)分開(kāi)來(lái)
  • 測(cè)序的細(xì)胞數(shù)量更多,從而可以更好地鑒定細(xì)胞類(lèi)型群
  • 降低每細(xì)胞成本
  • 獲得超過(guò)10,000個(gè)細(xì)胞的最佳結(jié)果

Full length sequencing:**

  • 檢測(cè)表達(dá)的同工型水平差異
  • 鑒定表達(dá)中的等位基因
  • 測(cè)序深,細(xì)胞數(shù)量少
  • 適合細(xì)胞數(shù)量少的樣品

3'末端測(cè)序需要進(jìn)行與全長(zhǎng)測(cè)序相同的許多分析步驟,但3'方案越來(lái)越流行,并且在分析中還包含一些其他步驟。 因此,我們的材料將詳細(xì)介紹這3'方案的數(shù)據(jù)分析,重點(diǎn)是基于液滴的方法(inDrops,Drop-seq,10X Genomics)。

1. 3’-end reads (includes all droplet-based methods)

對(duì)于分析scRNA-seq數(shù)據(jù),了解每個(gè)讀數(shù)中存在哪些信息以及我們?nèi)绾卧诜治鲞^(guò)程中使用該信息將很有幫助。

對(duì)于3'端測(cè)序方法,源自相同轉(zhuǎn)錄本的不同分子的reads僅會(huì)源自轉(zhuǎn)錄本的3'末端,因此具有相同序列的可能性很高。
但是,文庫(kù)制備過(guò)程中的PCR步驟也可能會(huì)產(chǎn)生重復(fù)讀物。 為了確定讀數(shù)是生物學(xué)的還是技術(shù)的重復(fù),這些方法使用唯一的分子標(biāo)識(shí)符unique molecular identifiers或UMI。

  • UMI不同代表reads來(lái)自不同的molecule,mapping到相同轉(zhuǎn)錄本的不同UMI的讀段代表來(lái)自不同的分子,并且是生物學(xué)重復(fù)項(xiàng)-每個(gè)讀段均應(yīng)計(jì)數(shù);
  • 具有相同的UMI的讀段來(lái)自同一分子,是技術(shù)重復(fù)項(xiàng)-the UMIs should be collapsed to be counted as a single read;
  • 在下圖中,應(yīng)折疊ACTB的讀數(shù)并將其計(jì)為單個(gè)讀數(shù),而應(yīng)將ARL1的讀數(shù)分別計(jì)數(shù)。


    Image credit: modified from Macosko EZ et al. Highly Parallel Genome-wide Expression Profiling of Individual Cells Using Nanoliter Droplets, Cell 2015 (https://doi.org/10.1016/j.cell.2015.05.002)

因此,我們知道需要跟蹤UMI,但是還需要什么其他信息來(lái)正確量化樣本中每個(gè)細(xì)胞中每個(gè)基因的表達(dá)? 無(wú)論采用液滴法,在細(xì)胞水平進(jìn)行正確定量都需要以下條件:

  • Sample index: determines which sample the read originated from
    => Added during library preparation - needs to be documented
  • Cellular barcode: determines which cell the read originated from
    => Each library preparation method has a stock of cellular barcodes used during the library preparation
  • Unique molecular identifier (UMI): determines which transcript molecule the read originated from
    =>The UMI will be used to collapse PCR duplicates
  • Sequencing read1: the Read1 sequence
  • Sequencing read2: the Read2 sequence

例如,當(dāng)使用inDrops v3庫(kù)準(zhǔn)備方法時(shí),以下內(nèi)容表示如何通過(guò)四次讀取來(lái)獲取所有信息:
[圖片上傳失敗...(image-42432b-1590059217326)], Director of the Single Cell Sequencing Core at HMS*
](https://upload-images.jianshu.io/upload_images/11904209-be5239321de7c14f.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)

image.png

對(duì)于不同的基于液滴的scRNA-seq方法,scRNA-seq的分析工作流程相似,但是UMI,cell ID和樣品索引sample indices不同, 例如,以下是10X genomics讀取的示意圖,其中indices, UMIs and barcodes的放置位置不同:

[圖片上傳失敗...(image-8cb477-1590059217326)], Director of the Single Cell Sequencing Core at HMS
](https://upload-images.jianshu.io/upload_images/11904209-5b3656ed47c6747e.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)

2. Single-cell RNA-seq workflow

scRNA-seq方法將確定如何從測(cè)序讀數(shù)中解析條形碼和UMI。 因此,盡管一些特定步驟會(huì)略有不同,但無(wú)論采用何種方法,總體工作流程通常都將遵循相同的步驟。 常規(guī)工作流程如下所示:

The steps of the workflow are:

  • 計(jì)數(shù)矩陣的生成Generation of the count matrix(method-specific steps):
    格式化讀取,對(duì)樣本進(jìn)行多路分解demultiplexing samples,mapping and quantification;
  • 原始計(jì)數(shù)的質(zhì)量控制Quality control of the raw counts:過(guò)濾質(zhì)量較差的細(xì)胞
  • 過(guò)濾計(jì)數(shù)的聚類(lèi):基于轉(zhuǎn)錄活性相似性對(duì)細(xì)胞進(jìn)行聚類(lèi)(細(xì)胞類(lèi)型= 不同的簇)
  • 標(biāo)記鑒定:為每個(gè)簇鑒定基因標(biāo)記
  • 下游步驟-可選


    image.png

無(wú)論進(jìn)行何種分析,基于每種條件的單個(gè)樣本得出的種群結(jié)論都不可靠。 仍然需要生物替代品!BIOLOGICAL REPLICATES ARE STILL NEEDED!也就是說(shuō),如果您要得出與總體相對(duì)應(yīng)的結(jié)論,不能僅僅是單個(gè)樣本。

3.Generation of count matrix

我們將從討論此工作流程的第一部分開(kāi)始,該部分將根據(jù)原始測(cè)序數(shù)據(jù)生成計(jì)數(shù)矩陣。 我們將重點(diǎn)介紹基于液滴的方法(如inDrops,10X Genomics和Drop-seq)使用的3'末端測(cè)序。

image.png

測(cè)序后,測(cè)序工具將以BCL或FASTQ格式輸出原始測(cè)序數(shù)據(jù),或生成計(jì)數(shù)矩陣。 如果讀取的是BCL格式,則我們將需要轉(zhuǎn)換為FASTQ格式。 有一個(gè)有用的命令行工具bcl2fastq,可以輕松執(zhí)行此轉(zhuǎn)換。

對(duì)于許多scRNA-seq方法,從原始測(cè)序數(shù)據(jù)中生成計(jì)數(shù)矩陣都將經(jīng)歷相似的步驟。

image.png

umiszUMIs是用于評(píng)估scRNA-seq數(shù)據(jù)表達(dá)的命令行工具,已對(duì)轉(zhuǎn)錄本的3'端進(jìn)行了測(cè)序。 兩種工具都合并了UMI的折疊,以校正放大偏差。 此過(guò)程中的步驟包括:

image.png

如果使用10X Genomics庫(kù)制備方法,則上述所有步驟可以按照這個(gè)pipeline來(lái)進(jìn)行:Cell Ranger pipeline

4.data處理步驟

4.1 Formatting reads and filtering noisy cellular barcodes

The FASTQ files can then be used to parse out 解析 the cell barcodes, UMIs, and sample barcodes. For droplet-based methods, many of the cellular barcodes will match a low number of reads (< 1000 reads) due to:
以下這些原因可能造成barcode匹配的RNA的顯著減少:

  • barcode包裹了floating RNA from dying cells;
  • simple cell (RBCs, etc) expressing few genes;
  • cells that failed for some reasons

在讀取比對(duì)之前,需要從序列數(shù)據(jù)中過(guò)濾掉這些多余的條形碼。 要進(jìn)行此過(guò)濾,請(qǐng)?zhí)崛〔⒈4婷總€(gè)細(xì)胞的“cellular barcode”和“molecular barcode”。 例如,如果使用“umis”工具,則信息將以以下格式添加到每次讀取的標(biāo)題行中:

@HWI-ST808:130:H0B8YADXX:1:1101:2088:2222:CELL_GGTCCA:UMI_CCCT
AGGAAGATGGAGGAGAGAAGGCGGTGAAAGAGACCTGTAAAAAGCCACCGN
+
@@@DDBD>=AFCF+<CAFHDECII:DGGGHGIGGIIIEHGIIIGIIDHII#

文庫(kù)制備方法中使用的已知細(xì)胞條形碼應(yīng)該是已知的,未知的條形碼將被丟棄。

4.2 Demultiplexing sample reads

The next step of the process is to demultiplex the samples, if sequencing more than a single sample. This is the one step of this process not handled by the ‘umis’ tools, but is accomplished by ‘zUMIs’. We would need to parse the reads to determine the sample barcode associated with each cell.

4.3 Mapping/pseudo-mapping to cDNAs

To determine which gene the read originated from, the reads are aligned using traditional (STAR) or light-weight methods (Kallisto/RapMap).

4.4 Collapsing UMIs and quantification of reads

The duplicate UMIs are collapsed, and only the unique UMIs are quantified using a tool like Kallisto or featureCounts. The resulting output is a cell by gene matrix of counts:

image.png

矩陣中的每個(gè)值代表源自相應(yīng)基因的細(xì)胞中的讀取次數(shù)。 使用計(jì)數(shù)矩陣,我們可以探索和過(guò)濾數(shù)據(jù),僅保留更高質(zhì)量的細(xì)胞數(shù)據(jù)。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容