正在播放无毛,9在线亚洲

學(xué)習(xí)目標(biāo)

了解從 RNA 提取到獲取基因表達(dá)矩陣，既RNA-seq 分析的整個(gè)流程。

1. workflow

進(jìn)行差異表達(dá)基因分析的前提是，獲取代表基因表達(dá)水平的矩陣。因此在進(jìn)行分析前，必須知道基因表達(dá)矩陣是如何產(chǎn)生的。

在本教程中，將會(huì)簡(jiǎn)要的介紹從原始測(cè)序讀數(shù)到基因表達(dá)計(jì)數(shù)矩陣過(guò)程中，所采取的不同步驟。下圖是整個(gè)分析過(guò)程的流程圖。

RNA-seq workflow

2. RNA提取與文庫(kù)制備

在對(duì) RNA 進(jìn)行測(cè)序前，必須從細(xì)胞環(huán)境中提取和分離出 RNA 制備成 cDNA 文庫(kù)。下面將介紹涉及的許多步驟，其中還包括了質(zhì)量檢查，以確保獲取高質(zhì)量的 RNA。

2.1. RNA富集

一旦使用 DNAse 處理（去除 DNA 序列）后，樣本就會(huì)經(jīng)歷 mRNA 的富集（polyA 富集）或 rRNA 的去除。

通常，核糖體 RNA代表細(xì)胞中存在的大部分 RNA，而 mRNA （信使RNA）代表一小部分，在人類中約為 2%。因此，如果我們想要研究蛋白編碼基因，就必須富集 mRNA 或去除 rRNA。對(duì)于差異基因表達(dá)分析，最好對(duì) Poly(A)+ 進(jìn)行富集，除非目標(biāo)是獲取有關(guān)長(zhǎng)鏈非編碼 RNA 的信息，在這種情況下建議去除核糖體 RNA 。

RNA 質(zhì)量檢查

在開(kāi)始 cDNA 文庫(kù)制備之前，必須檢查提取的 RNA 的完整性。傳統(tǒng)上，通過(guò)查看核糖體 RNA 條帶，通過(guò)凝膠電泳評(píng)估 RNA 的完整性；但這種方法既費(fèi)時(shí)又不精確。已有的生物分析儀系統(tǒng)可以快速評(píng)估 RNA 完整性并計(jì)算 RNA 完整性值 (RIN)，這有助于 RNA 質(zhì)量的解釋和重復(fù)。從本質(zhì)上講，RIN 提供了一種方法，可以以標(biāo)準(zhǔn)化的方式相互比較來(lái)自不同樣本的 RNA 質(zhì)量。

2.2. 碎片化

將剩余的 RNA 分子片段化（打斷）。這是通過(guò)化學(xué)、酶促（例如 RNA 酶）或物理過(guò)程（例如機(jī)械剪切）完成的。然后對(duì)這些片段進(jìn)行大小選擇，僅保留 Illumina 測(cè)序儀最佳處理范圍內(nèi)的那些片段，即 150 到 300 bp 之間。

片段質(zhì)量檢查

在進(jìn)行片段選擇后，應(yīng)評(píng)估片段大小分布，確保它的分布是單峰的。

2.3. 反轉(zhuǎn)錄

可以通過(guò)創(chuàng)建 strand library 來(lái)保存有關(guān)片段源自哪條鏈的信息。最常用的方法是在第二條 cDNA 鏈的合成過(guò)程中加入 deoxy-UTP。一旦生成雙鏈 cDNA 片段，序列接頭就會(huì)連接到末端。（也可以在此步后進(jìn)行片段大小選擇）

2.4. PCR擴(kuò)增

如果起始材料的量很低或要將 cDNA 分子的數(shù)量增加到足以進(jìn)行測(cè)序的量，通常會(huì)對(duì)文庫(kù)進(jìn)行 PCR 擴(kuò)增。盡可能少的進(jìn)行擴(kuò)增循環(huán)以，避免 PCR 擴(kuò)展產(chǎn)生的技術(shù)影響。

[Zeng and Mortavi, 2012](https://pubmed.ncbi.nlm.nih.gov/22910383/)

3. 測(cè)序

cDNA 文庫(kù)的測(cè)序?qū)⑸?reads （讀數(shù)）。讀數(shù)對(duì)應(yīng)于文庫(kù)中每個(gè) cDNA 片段末端的核苷酸序列?？梢赃x擇對(duì) cDNA 片段的單端（單端讀?。┗蚱蔚膬啥耍p端讀取）進(jìn)行測(cè)序。

Sequencing

SE ：?jiǎn)味藬?shù)據(jù) > 只有 Read1
PE：雙端數(shù)據(jù) > Read1 + Read2
- 結(jié)果可以是2個(gè)單獨(dú)的 Fastq 文件，或者一個(gè)文件（包含兩者）。

通常，單端測(cè)序就足夠了，除非預(yù)期讀數(shù)將匹配基因組上的多個(gè)位置（例如具有許多旁系同源基因的生物）、正在執(zhí)行組裝或用于可變剪切分析。請(qǐng)注意，雙端通常要貴 2 倍。

3.1. 邊合成邊測(cè)序

Illumina 測(cè)序技術(shù)采用邊合成邊測(cè)序的方法。要更深入地探索邊合成邊測(cè)序，請(qǐng)觀看Youtube channel。

Sequencing-by-synthesis

下面對(duì)此步驟進(jìn)行了簡(jiǎn)要說(shuō)明：

Cluster growth（成簇?cái)U(kuò)增）

cDNA 文庫(kù)中的 DNA 片段變性并與流通池雜交。然后每個(gè)片段被克隆擴(kuò)增，形成一個(gè)雙鏈 DNA 簇。此步驟以確保測(cè)序信號(hào)足夠強(qiáng)，能明確檢測(cè)每個(gè)片段的每個(gè)堿基。

Number of clusters ~= Number of reads

Sequencing（測(cè)序）

片段末端的測(cè)序是基于帶有可逆終止子元素的熒光團(tuán)標(biāo)記的 dNTP。在每個(gè)測(cè)序循環(huán)中，一個(gè)堿基被整合到每個(gè)簇中并激發(fā)熒光。

Image acquisition（圖像采集）

每個(gè) dNTP 都有一個(gè)獨(dú)特的信號(hào)，由相機(jī)捕獲。

Base calling

然后，Base calling 程序?qū)⑼ㄟ^(guò)評(píng)估在許多測(cè)序周期中捕獲的圖像，為每個(gè)片段生成堿基序列，即讀數(shù)。還將記錄它的質(zhì)量信息。

Number of sequencing cycles = Length of reads

4. 質(zhì)控

從測(cè)序儀獲得的原始讀數(shù)存儲(chǔ)為 FASTQ 文件。FASTQ 文件格式是下一代測(cè)序技術(shù)生成的序列讀取的文件格式。

每個(gè) FASTQ 文件都是一個(gè)文本文件，表示樣本的序列讀數(shù)。每個(gè)讀取由 4 行表示，如下所示：

@HWI-ST330:304:H045HADXX:1:1101:1111:61397
CACTTGTAAGGGCAGGCCCCCTTCACCCTCCCGCTCCTGGGGGANNNNNNNNNNANNNCGAGGCCCTGGGGTAGAGGGNNNNNNNNNNNNNNGATCTTGG
+
@?@DDDDDDHHH?GH:?FCBGGB@C?DBEGIIIIAEF;FCGGI#########################################################

行	意義
1	始終以“@”開(kāi)頭，是有關(guān)讀取的信息
2	實(shí)際的DNA序列
3	始終以“+”開(kāi)頭，有時(shí)與第 1 行中的信息相同
4	有一串代表質(zhì)量分?jǐn)?shù)的字符；必須具有與第 2 行相同的字符長(zhǎng)度

FastQC 是常用的軟件，它提供了一種對(duì)原始序列數(shù)據(jù)進(jìn)行質(zhì)量控制檢查的簡(jiǎn)單方法。

主要功能包括：

提供快速概覽，告訴您哪些區(qū)域可能存在問(wèn)題
匯總圖形和表格以快速評(píng)估您的數(shù)據(jù)
將結(jié)果導(dǎo)出為基于 HTML 的報(bào)告

5. 定量

一旦我們探索了原始讀數(shù)的質(zhì)量，就可以繼續(xù)在轉(zhuǎn)錄水平上量化表達(dá)。此步驟的目標(biāo)是確定每個(gè)讀數(shù)來(lái)自哪個(gè)轉(zhuǎn)錄本以及與每個(gè)轉(zhuǎn)錄本相關(guān)的讀數(shù)總數(shù)。

已發(fā)現(xiàn)對(duì)于分析中的此步驟最準(zhǔn)確的工具稱為輕量級(jí)比對(duì)工具，其中包括：

Kallisto
Sailfish
Salmon

以上工具的工作方式都略有不同。然而，共同點(diǎn)是它們避免了讀取的堿基到堿基基因組比對(duì)（base-to-base genomic alignment of the reads）。基因組比對(duì)是由舊的比對(duì)工具（如 STAR 和 HISAT2）執(zhí)行的一個(gè)步驟。與這些工具相比，輕量級(jí)比對(duì)工具不僅可以更快地提供量化估計(jì)（通常快 20 倍以上），而且還有了準(zhǔn)確性的提高。

本教程將使用從 Salmon 獲得的表達(dá)估計(jì)值（通常稱為“偽計(jì)數(shù)”）作為差異基因表達(dá)分析的起點(diǎn)。

Salmon

6. 比對(duì)后質(zhì)控

如上所述，差異基因表達(dá)分析將使用 Salmon 生成的轉(zhuǎn)錄本/基因偽計(jì)數(shù)。然而，要對(duì)測(cè)序數(shù)據(jù)進(jìn)行一些基本的質(zhì)量檢查，將讀數(shù)與整個(gè)基因組進(jìn)行比對(duì)非常重要。STAR 或 HiSAT2 都能夠執(zhí)行此步驟并生成可用于 QC 的 BAM 文件。

Qualimap 工具在它們映射到的基因組區(qū)域的上下文中探索對(duì)齊讀取的特征，從而提供數(shù)據(jù)質(zhì)量的整體視圖（作為 HTML 文件）。 Qualimap 評(píng)估的各種質(zhì)量指標(biāo)包括：

DNA 或 rRNA 污染
5’-3’ 偏差
覆蓋偏差

7. 質(zhì)控整合

在整個(gè)工作流程中，我們對(duì)數(shù)據(jù)執(zhí)行了各種質(zhì)量檢查步驟。您需要對(duì)數(shù)據(jù)集中的每個(gè)樣本執(zhí)行此操作，確保這些指標(biāo)在給定實(shí)驗(yàn)的樣本中保持一致。應(yīng)標(biāo)記離群樣本以供進(jìn)一步調(diào)查或移除。

手動(dòng)跟蹤這些指標(biāo)并瀏覽每個(gè)樣本的多個(gè) HTML 報(bào)告（FastQC、Qualimap）和日志文件（Salmon、STAR）既乏味又容易出錯(cuò)。MultiQC ，可聚合來(lái)自多個(gè)工具的結(jié)果并生成帶有圖表的單個(gè) HTML 報(bào)告，以可視化和比較樣品之間的各種 QC 指標(biāo)。如有必要，對(duì) QC指標(biāo)的評(píng)估可能會(huì)導(dǎo)致在繼續(xù)下一步之前移除樣本。

一旦對(duì)所有樣本執(zhí)行了 QC，就可以開(kāi)始使用 DESeq2 進(jìn)行差異基因表達(dá)分析。

count_data

歡迎Star -> 學(xué)習(xí)目錄

國(guó)內(nèi)鏈接 -> 學(xué)習(xí)目錄

本文由mdnice多平臺(tái)發(fā)布

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

RNA-seq 詳細(xì)教程：分析流程介紹（1）

RNA-seq 詳細(xì)教程：分析流程介紹（1）

學(xué)習(xí)目標(biāo)

1. workflow