學(xué)習(xí)目標(biāo)
了解從 RNA 提取到獲取基因表達(dá)矩陣, 既RNA-seq 分析的整個(gè)流程。
1. workflow
進(jìn)行差異表達(dá)基因分析的前提是,獲取代表基因表達(dá)水平的矩陣。因此在進(jìn)行分析前,必須知道基因表達(dá)矩陣是如何產(chǎn)生的。
在本教程中,將會(huì)簡(jiǎn)要的介紹從原始測(cè)序讀數(shù)到基因表達(dá)計(jì)數(shù)矩陣過(guò)程中,所采取的不同步驟。下圖是整個(gè)分析過(guò)程的流程圖。

2. RNA提取與文庫(kù)制備
在對(duì) RNA 進(jìn)行測(cè)序前,必須從細(xì)胞環(huán)境中提取和分離出 RNA 制備成 cDNA 文庫(kù)。下面將介紹涉及的許多步驟,其中還包括了質(zhì)量檢查,以確保獲取高質(zhì)量的 RNA。
2.1. RNA富集
一旦使用 DNAse 處理(去除 DNA 序列)后,樣本就會(huì)經(jīng)歷 mRNA 的富集(polyA 富集)或 rRNA 的去除。
通常,核糖體 RNA代表細(xì)胞中存在的大部分 RNA,而 mRNA (信使RNA)代表一小部分,在人類中約為 2%。因此,如果我們想要研究蛋白編碼基因,就必須富集 mRNA 或 去除 rRNA。對(duì)于差異基因表達(dá)分析,最好對(duì) Poly(A)+ 進(jìn)行富集,除非目標(biāo)是獲取有關(guān)長(zhǎng)鏈非編碼 RNA 的信息,在這種情況下建議去除核糖體 RNA 。
-
RNA質(zhì)量檢查
在開(kāi)始 cDNA 文庫(kù)制備之前,必須檢查提取的 RNA 的完整性。傳統(tǒng)上,通過(guò)查看核糖體 RNA 條帶,通過(guò)凝膠電泳評(píng)估 RNA 的完整性;但這種方法既費(fèi)時(shí)又不精確。已有的生物分析儀系統(tǒng)可以快速評(píng)估 RNA 完整性并計(jì)算 RNA 完整性值 (RIN),這有助于 RNA 質(zhì)量的解釋和重復(fù)。從本質(zhì)上講,RIN 提供了一種方法,可以以標(biāo)準(zhǔn)化的方式相互比較來(lái)自不同樣本的 RNA 質(zhì)量。
2.2. 碎片化
將剩余的 RNA 分子片段化(打斷)。這是通過(guò)化學(xué)、酶促(例如 RNA 酶)或物理過(guò)程(例如機(jī)械剪切)完成的。然后對(duì)這些片段進(jìn)行大小選擇,僅保留 Illumina 測(cè)序儀最佳處理范圍內(nèi)的那些片段,即 150 到 300 bp 之間。
- 片段質(zhì)量檢查
在進(jìn)行片段選擇后,應(yīng)評(píng)估片段大小分布,確保它的分布是單峰的。
2.3. 反轉(zhuǎn)錄
可以通過(guò)創(chuàng)建 strand library 來(lái)保存有關(guān)片段源自哪條鏈的信息。最常用的方法是在第二條 cDNA 鏈的合成過(guò)程中加入 deoxy-UTP。一旦生成雙鏈 cDNA 片段,序列接頭就會(huì)連接到末端。(也可以在此步后進(jìn)行片段大小選擇)
2.4. PCR擴(kuò)增
如果起始材料的量很低或要將 cDNA 分子的數(shù)量增加到足以進(jìn)行測(cè)序的量,通常會(huì)對(duì)文庫(kù)進(jìn)行 PCR 擴(kuò)增。盡可能少的進(jìn)行擴(kuò)增循環(huán)以,避免 PCR 擴(kuò)展產(chǎn)生的技術(shù)影響。

3. 測(cè)序
cDNA 文庫(kù)的測(cè)序?qū)⑸?reads (讀數(shù))。讀數(shù)對(duì)應(yīng)于文庫(kù)中每個(gè) cDNA 片段末端的核苷酸序列??梢赃x擇對(duì) cDNA 片段的單端(單端讀?。┗蚱蔚膬啥耍p端讀取)進(jìn)行測(cè)序。

- SE :?jiǎn)味藬?shù)據(jù) > 只有 Read1
- PE:雙端數(shù)據(jù) > Read1 + Read2
- 結(jié)果可以是2個(gè)單獨(dú)的
Fastq文件,或者一個(gè)文件(包含兩者)。
- 結(jié)果可以是2個(gè)單獨(dú)的
通常,單端測(cè)序就足夠了,除非預(yù)期讀數(shù)將匹配基因組上的多個(gè)位置(例如具有許多旁系同源基因的生物)、正在執(zhí)行組裝或用于可變剪切分析。請(qǐng)注意,雙端通常要貴 2 倍。
3.1. 邊合成邊測(cè)序
Illumina 測(cè)序技術(shù)采用邊合成邊測(cè)序的方法。要更深入地探索邊合成邊測(cè)序,請(qǐng)觀看Youtube channel。

下面對(duì)此步驟進(jìn)行了簡(jiǎn)要說(shuō)明:
- Cluster growth(成簇?cái)U(kuò)增)
cDNA 文庫(kù)中的 DNA 片段變性并與流通池雜交。然后每個(gè)片段被克隆擴(kuò)增,形成一個(gè)雙鏈 DNA 簇。此步驟以確保測(cè)序信號(hào)足夠強(qiáng),能明確檢測(cè)每個(gè)片段的每個(gè)堿基。
Number of clusters ~= Number of reads
- Sequencing(測(cè)序)
片段末端的測(cè)序是基于帶有可逆終止子元素的熒光團(tuán)標(biāo)記的 dNTP。在每個(gè)測(cè)序循環(huán)中,一個(gè)堿基被整合到每個(gè)簇中并激發(fā)熒光。
- Image acquisition(圖像采集)
每個(gè) dNTP 都有一個(gè)獨(dú)特的信號(hào),由相機(jī)捕獲。
- Base calling
然后,Base calling 程序?qū)⑼ㄟ^(guò)評(píng)估在許多測(cè)序周期中捕獲的圖像,為每個(gè)片段生成堿基序列,即讀數(shù)。還將記錄它的質(zhì)量信息。
Number of sequencing cycles = Length of reads
4. 質(zhì)控
從測(cè)序儀獲得的原始讀數(shù)存儲(chǔ)為 FASTQ 文件。FASTQ 文件格式是下一代測(cè)序技術(shù)生成的序列讀取的文件格式。
每個(gè) FASTQ 文件都是一個(gè)文本文件,表示樣本的序列讀數(shù)。每個(gè)讀取由 4 行表示,如下所示:
@HWI-ST330:304:H045HADXX:1:1101:1111:61397
CACTTGTAAGGGCAGGCCCCCTTCACCCTCCCGCTCCTGGGGGANNNNNNNNNNANNNCGAGGCCCTGGGGTAGAGGGNNNNNNNNNNNNNNGATCTTGG
+
@?@DDDDDDHHH?GH:?FCBGGB@C?DBEGIIIIAEF;FCGGI#########################################################
| 行 | 意義 |
|---|---|
| 1 | 始終以“@”開(kāi)頭,是有關(guān)讀取的信息 |
| 2 | 實(shí)際的DNA序列 |
| 3 | 始終以“+”開(kāi)頭,有時(shí)與第 1 行中的信息相同 |
| 4 | 有一串代表質(zhì)量分?jǐn)?shù)的字符;必須具有與第 2 行相同的字符長(zhǎng)度 |
FastQC 是常用的軟件,它提供了一種對(duì)原始序列數(shù)據(jù)進(jìn)行質(zhì)量控制檢查的簡(jiǎn)單方法。
主要功能包括:
- 提供快速概覽,告訴您哪些區(qū)域可能存在問(wèn)題
- 匯總圖形和表格以快速評(píng)估您的數(shù)據(jù)
- 將結(jié)果導(dǎo)出為基于 HTML 的報(bào)告
5. 定量
一旦我們探索了原始讀數(shù)的質(zhì)量,就可以繼續(xù)在轉(zhuǎn)錄水平上量化表達(dá)。此步驟的目標(biāo)是確定每個(gè)讀數(shù)來(lái)自哪個(gè)轉(zhuǎn)錄本以及與每個(gè)轉(zhuǎn)錄本相關(guān)的讀數(shù)總數(shù)。
已發(fā)現(xiàn)對(duì)于分析中的此步驟最準(zhǔn)確的工具稱為輕量級(jí)比對(duì)工具,其中包括:
以上工具的工作方式都略有不同。然而,共同點(diǎn)是它們避免了讀取的堿基到堿基基因組比對(duì)(base-to-base genomic alignment of the reads)。基因組比對(duì)是由舊的比對(duì)工具(如 STAR 和 HISAT2)執(zhí)行的一個(gè)步驟。與這些工具相比,輕量級(jí)比對(duì)工具不僅可以更快地提供量化估計(jì)(通常快 20 倍以上),而且還有了準(zhǔn)確性的提高。
本教程將使用從 Salmon 獲得的表達(dá)估計(jì)值(通常稱為“偽計(jì)數(shù)”)作為差異基因表達(dá)分析的起點(diǎn)。

6. 比對(duì)后質(zhì)控
如上所述,差異基因表達(dá)分析將使用 Salmon 生成的轉(zhuǎn)錄本/基因偽計(jì)數(shù)。然而,要對(duì)測(cè)序數(shù)據(jù)進(jìn)行一些基本的質(zhì)量檢查,將讀數(shù)與整個(gè)基因組進(jìn)行比對(duì)非常重要。STAR 或 HiSAT2 都能夠執(zhí)行此步驟并生成可用于 QC 的 BAM 文件。
Qualimap 工具在它們映射到的基因組區(qū)域的上下文中探索對(duì)齊讀取的特征,從而提供數(shù)據(jù)質(zhì)量的整體視圖(作為 HTML 文件)。 Qualimap 評(píng)估的各種質(zhì)量指標(biāo)包括:
-
DNA或rRNA污染 - 5’-3’ 偏差
- 覆蓋偏差
7. 質(zhì)控整合
在整個(gè)工作流程中,我們對(duì)數(shù)據(jù)執(zhí)行了各種質(zhì)量檢查步驟。您需要對(duì)數(shù)據(jù)集中的每個(gè)樣本執(zhí)行此操作,確保這些指標(biāo)在給定實(shí)驗(yàn)的樣本中保持一致。應(yīng)標(biāo)記離群樣本以供進(jìn)一步調(diào)查或移除。
手動(dòng)跟蹤這些指標(biāo)并瀏覽每個(gè)樣本的多個(gè) HTML 報(bào)告(FastQC、Qualimap)和日志文件(Salmon、STAR)既乏味又容易出錯(cuò)。MultiQC ,可聚合來(lái)自多個(gè)工具的結(jié)果并生成帶有圖表的單個(gè) HTML 報(bào)告,以可視化和比較樣品之間的各種 QC 指標(biāo)。如有必要,對(duì) QC指標(biāo)的評(píng)估可能會(huì)導(dǎo)致在繼續(xù)下一步之前移除樣本。
一旦對(duì)所有樣本執(zhí)行了 QC,就可以開(kāi)始使用 DESeq2 進(jìn)行差異基因表達(dá)分析。

歡迎Star -> 學(xué)習(xí)目錄
國(guó)內(nèi)鏈接 -> 學(xué)習(xí)目錄
本文由mdnice多平臺(tái)發(fā)布