轉(zhuǎn)錄組分析入門(mén) 1 —— 背景知識(shí)

內(nèi)容簡(jiǎn)介

1. 轉(zhuǎn)錄組測(cè)序要測(cè)什么?

??mRNA:最常見(jiàn)的轉(zhuǎn)錄組測(cè)序,建庫(kù)一般選200-300bp的片段,PE150或125測(cè)序

??microRNA:將microRNA分離出來(lái)直接單獨(dú)測(cè)序

??IncRNA:長(zhǎng)鏈非編碼RNA,有正向、反向轉(zhuǎn)錄,要進(jìn)行鏈特異性建庫(kù)

關(guān)于鏈特異性建庫(kù):作用就是測(cè)序過(guò)程保留轉(zhuǎn)錄本的方向信息,讓我們知道轉(zhuǎn)錄本是來(lái)自正義鏈還是反義鏈。方便后來(lái)區(qū)分不同的IncRNA類(lèi)型以及它的定位,可以更準(zhǔn)確獲得基因結(jié)構(gòu)和表達(dá)信息?!?/p>

2. mRNA的提取、純化及質(zhì)量檢測(cè)?

??提?。?/strong>

  • 大多數(shù)動(dòng)植物組織樣品,使用Trizol試劑即可;
  • 多糖含量豐富的植物,可以用多糖多酚試劑盒;
  • 脂肪組織可以用QIAGEN的RNeasy lipidmini kit ;

??純化:

  • 真核生物純化mRNA,是利用它的3‘端polyA,采用oligoT磁珠將其富集純化。
  • 但是原核沒(méi)有polyA,并且大部分是核糖體RNA(rRNA),mRNA只占據(jù)了1-5%,因此需要先去除total RNA中的rRNA,需要使用去rRNA試劑盒(Ribo-Zero或KAPA試劑盒),*
  • 另外對(duì)于要測(cè)物種IncRNA的實(shí)驗(yàn),如果有適用的試劑盒就用,否則不適用就會(huì)影響下游數(shù)據(jù)質(zhì)量。

??檢測(cè)是否合格的指標(biāo):

  • RNA總量、RIN值、OD260/280以及真核28S/18S、原核23S/16S。
  • RIN值越高,28S/18S越接近2表示提取的RNA完整性越好。
    【RIN值高于6.5可以做建庫(kù)準(zhǔn)備,太低影響準(zhǔn)確度。有一些昆蟲(chóng)或者水生動(dòng)物沒(méi)有28S條帶,因此RIN值不能作為參考,但是18S的前基線平穩(wěn)即可。】

3. 構(gòu)建測(cè)序文庫(kù)

??分離RNA=》將RNA打斷成小片段=》將小RNA片段反轉(zhuǎn)錄成DNA(DNA更穩(wěn)定更容易擴(kuò)增)=》加接頭=》PCR擴(kuò)增 =》質(zhì)量檢查QC

具體:總RNA樣本檢測(cè)合格后,對(duì)于真核生物,用帶有Oligo(dT)的磁珠富集mRNA,對(duì)于原核生物,用試劑盒去除rRNA,向得到的mRNA中加入Fragmentation Buffer使其片斷成為短片段,再以片斷后的mRNA為模板,用六堿基隨機(jī)引物合成cDNA第一鏈,并加入緩沖液、dNTPs、RNaseH和DNA Polymerase I合成cDNA第二鏈,經(jīng)過(guò)QIAQuick PCR試劑盒純化并加EB緩沖液洗脫。洗脫純化后的雙鏈cDNA再進(jìn)行末端修復(fù)、加堿基A、加測(cè)序接頭處理,然后經(jīng)瓊脂糖凝膠電泳回收目的大小片段并進(jìn)行PCR擴(kuò)增,從而完成整個(gè)文庫(kù)制備工作。
注:
【RNA片段化目的:RNA長(zhǎng)達(dá)幾kb,測(cè)序儀器只能測(cè)200-300bp長(zhǎng)度的短片斷。
反轉(zhuǎn)錄目的:DNA更穩(wěn)定更容易擴(kuò)增。
接頭作用:1?? 使測(cè)序機(jī)器識(shí)別片段 2??可同時(shí)測(cè)多個(gè)樣品。
PCR擴(kuò)增:只有加了接頭的片段才能被擴(kuò)增?!?/p>

4. 測(cè)序

目前二代測(cè)序主要采用Illumina平臺(tái)

5. 分析流程

一般:質(zhì)控-》比對(duì)(alignment or mapping)-》估算表達(dá)量(read counting)-》表達(dá)量比較(differential expression)。

1)質(zhì)控(去除接頭污染、低質(zhì)量、N比例較高的reads,得到clean reads)

??原始數(shù)據(jù):Illumina測(cè)序儀下機(jī)的數(shù)據(jù)通常為Bcl格式,然后公司使用Bcl2Fastq軟件,根據(jù)Index序列分割轉(zhuǎn)換成每個(gè)樣品的Fastq文件,用戶拿到的就是fastq格式的原始數(shù)據(jù)。

??質(zhì)控:使用fastqc,查看堿基質(zhì)量、接頭情況、GC含量、序列長(zhǎng)度、重復(fù)序列等

??過(guò)濾:一般需要去掉低質(zhì)量堿基或者未識(shí)別堿基(N)太多的reads;另外如果測(cè)序文庫(kù)的插入片段太短,比如insert size=50,但采用PE 150測(cè)序,read1和read2就會(huì)測(cè)到接頭,所謂的“測(cè)通“就是這意思,此時(shí)需要去掉接頭序列。有時(shí)會(huì)出現(xiàn)兩個(gè)接頭連在一起的情況,也需要去掉。

2)比對(duì)

不同的比對(duì)流程??

比對(duì)模式

上圖來(lái)自文章A survey of best practices for RNA-seq data analysis, 2016, GB

  • 基于參考基因組比對(duì)(有參考基因組,想分析新轉(zhuǎn)錄本):
    因?yàn)榛蚪M包含了基因間區(qū)、內(nèi)含子區(qū)域,因此比對(duì)時(shí)選取的比對(duì)軟件就要具有"跨越式拼接”特性,比如STAR、Hisat2;
  • 基于參考轉(zhuǎn)錄組比對(duì)(有參考基因組,分析已知轉(zhuǎn)錄本):Bowtie、BWA;
  • 無(wú)參考基因情況(沒(méi)有參考基因組,或者有組裝質(zhì)量不好的,需要自己組裝轉(zhuǎn)錄本):
    需要拼接Trinity:利用測(cè)序reads從頭組裝拼接出參考unigene,再將每個(gè)樣本的reads比對(duì)到參考unigene上,計(jì)算表達(dá)量。
    【對(duì)于大部分沒(méi)有參考基因組或者基因組注釋不好的物種,無(wú)參方法是比較理想的解決途徑,但是比有參要消耗更多的內(nèi)存、運(yùn)行時(shí)間,不適合入門(mén)。】

看似簡(jiǎn)單的比對(duì)過(guò)程,就是幫150bp的reads找到家,其中可能還要讓reads付出點(diǎn)“被分割”的代價(jià)。但是, 基因組有多大?人類(lèi)的是3G,也就是30億堿基,一個(gè)150bp對(duì)于整個(gè)基因組來(lái)說(shuō),簡(jiǎn)直不值一提,要從頭一個(gè)一個(gè)比對(duì)嗎?姑且這樣可以,那么我們有多少reads?一般6G數(shù)據(jù),150PE,會(huì)有20Mreads(=60億/150/2),也就是2000萬(wàn)條reads。這該怎么辦?怎樣保證高效和低錯(cuò)誤率?

??HISAT2是TopHat2的升級(jí)版,該軟件使用改進(jìn)的BWT算法(Sirén et al. 2014)將參考基因組轉(zhuǎn)換成index,實(shí)現(xiàn)了更快的速度和更少的資源占用。
【先將大的基因組序列打斷成許多小片段,然后為了方便接下來(lái)尋找這些片段,需要對(duì)他們進(jìn)行構(gòu)建索引index(目的就是標(biāo)注每個(gè)小片段的位置),再將測(cè)序的reads和基因組一樣,也是打斷成小片段,然后把它的小片段比對(duì)到基因組的小片段上,比對(duì)上的會(huì)給出位置信息。】
【注:index比對(duì)的方法也避免由于某個(gè)堿基不匹配導(dǎo)致整段reads比對(duì)不上的結(jié)果】

3)表達(dá)量估算

??Counts:與轉(zhuǎn)錄本重疊的reads數(shù)。

??RPKM/FPKM:Reads/Fragments per kilobase of transcript per millions of read mapped

  • FPKM(Trapnell, C. et al, 2010)是利用RNA-Seq技術(shù)用來(lái)定量估計(jì)基因表達(dá)值的一個(gè)非常有效的工具。
  • 落在一個(gè)基因區(qū)域內(nèi)的read counts數(shù)目取決于基因長(zhǎng)度和測(cè)序深度,換句話說(shuō),一個(gè)基因越長(zhǎng),測(cè)序深度越高,落在其內(nèi)部的reads數(shù)目就會(huì)相對(duì)越多。而為了比較不同樣本中不同基因的表達(dá)量,就去除測(cè)序深度和基因長(zhǎng)度的的影響。
  • 采用了兩個(gè)標(biāo)準(zhǔn)化:reads數(shù)標(biāo)準(zhǔn)化和長(zhǎng)度標(biāo)準(zhǔn)化:
    RPKM(A)=C/(N/10^6 *L/10^3) ,其中C是唯一比對(duì)到轉(zhuǎn)錄本A的reads數(shù),N是唯一比對(duì)到所有轉(zhuǎn)錄本的reads數(shù),L是轉(zhuǎn)錄本A的長(zhǎng)度。

【建庫(kù)測(cè)序是一個(gè)隨機(jī)抽樣的過(guò)程,而這個(gè)抽取的樣品實(shí)際上是以 Fragments 為單位,而不是 Reads。因此,使用FPKM更為合理。當(dāng) single-end 測(cè)序的時(shí)候,RPKM 與 FPKM 是等價(jià)的;當(dāng) pair-end 測(cè)序的時(shí)候(一個(gè)fragment對(duì)應(yīng)兩條reads),應(yīng)該使用 FPKM?!?/p>

??TPM: Transcripts per million reads
【當(dāng)樣本差異過(guò)大,要強(qiáng)調(diào)準(zhǔn)確度或者定量目標(biāo)基因的表達(dá)量的時(shí)候,TPM是最有效的。TMP先處理基因長(zhǎng)度問(wèn)題,再處理測(cè)序深度?!?/p>

FPKM vs. TPM(來(lái)自生信星球)
4)plot the data(PCA分析)

目的:1?? 告訴我們是否能看到對(duì)照組與處理組直接的差異;2?? 為下游的分析去掉其中不可靠的數(shù)據(jù)。

5)差異基因表達(dá)分析(通常edgeR或DESeq2)

~~未完待續(xù)~~

以上內(nèi)容參考:
1. 簡(jiǎn)書(shū) 劉小澤:簡(jiǎn)單理解RNA-Seq
2. 簡(jiǎn)書(shū) 劉小澤:轉(zhuǎn)錄組謎團(tuán)
3. 簡(jiǎn)書(shū) 劉小澤:轉(zhuǎn)錄組那些事兒 Part I
4. 簡(jiǎn)書(shū) 生信星球轉(zhuǎn)錄組培訓(xùn)第一期Day1--善良土豆
更多資料:
視頻 StatQuest: A gentle introduction to RNA-seq
講義 http://www.mi.fu-berlin.de/wiki/pub/ABI/GenomicsLecture12Materials/rnaseq1.pdf

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容