RNA-Seq差異表達(dá)分析-擴(kuò)展綜述及新工具
理解不同生物在不同條件下表型差異的關(guān)鍵是確定不同條件下差異表達(dá)基因(DEGs)。轉(zhuǎn)錄組的高通量測(cè)序(RNA-Seq)是研究當(dāng)前問(wèn)題的一個(gè)主要策略。因此,利用RNA-Seq數(shù)據(jù)進(jìn)行差異分析的方法和軟件在近些年得到了長(zhǎng)遠(yuǎn)的發(fā)展。但是并沒(méi)有人考慮最合適的pipeline用來(lái)做RNA-Seq數(shù)據(jù)的差異分析。
最近來(lái)自巴西聯(lián)邦大學(xué)(Federal University of Technology, Brazil)的研究人員對(duì)于當(dāng)前六種mapping方法和九種差異表達(dá)分析的方法進(jìn)行了綜述。用來(lái)評(píng)估各種方法是基于RNA-Seq數(shù)據(jù),qRT-PCR數(shù)據(jù)做為參考(gold standard)。同時(shí)他們也開(kāi)發(fā)了一款軟件可以用來(lái)展示論文中所有的分析。
結(jié)果顯示,mapping的方法只有很小的影響在最后結(jié)果的分析上面??紤]到實(shí)驗(yàn)所采用的數(shù)據(jù)模型,利用 limma+voom,NOIseq和DESeq2的三種分析方法得到的結(jié)果更加一致(consensus)。這種結(jié)果暗示綜合多種分析方法產(chǎn)生的差異表達(dá)基因更加準(zhǔn)確。

論文分析的流程圖
文獻(xiàn)來(lái)源: Costa-Silva J, Domingues D, Lopes FM (2017) RNA-Seq differential expression analysis: An extended review and a software tool. PLoS ONE 12(12): e0190152.
RNA-seq流程各階段軟件的最優(yōu)選擇
RNA-seq如今已經(jīng)成了最受寵愛(ài)的生信分析了,而如今琳瑯滿目的各種生信軟件擺在具有新時(shí)代選擇困難癥的同學(xué)們眼前我們又犯難了。我們?cè)撨x擇哪套流程哪種工具進(jìn)行分析呢?我選的這種工具會(huì)不會(huì)不準(zhǔn)確最后下游驗(yàn)證不出來(lái)那可就壞大事了。今天我們就來(lái)聊聊關(guān)于如何選擇最優(yōu)的RNA-seq軟件做分析,讓我們自信做生信人。
一、mapping比對(duì)軟件的選擇
1.比對(duì)軟件有tophat、bwa、bowtie2、killisto、salmon和STAR等等。但通過(guò)實(shí)驗(yàn)(作者用的都是默認(rèn)的參數(shù))得到的結(jié)論:比對(duì)軟件對(duì)RNA-seq最后找DEG的影響非常的小,主要影響是有關(guān)于剪切比對(duì)及所耗計(jì)算機(jī)資源和比對(duì)速度。

table.1 mapper軟件的差別
當(dāng)然還有當(dāng)下高效的比對(duì)軟件HISAT2也是支持spliced read aligner的
而且速度比STAR快1.2倍比Tophat快50倍。

fig.1 不同比對(duì)軟件和差異表達(dá)分析軟件之間的比較以qRT-PCR為金標(biāo)準(zhǔn)
2.可以看出不同比對(duì)軟件對(duì)最后的DEG影響不大,造成DEG有較大差異的軟件主要是差異表達(dá)分析軟件
二、差異表達(dá)分析軟件的選擇
由上圖fig.1可以看出不同的差異分析軟件得到最終的DEG有較大的差別,所以我們應(yīng)該非常非常慎重的去選擇適合我們的差異表達(dá)分析軟件。這次比較了較常用的幾種差異分析軟件baySeq、DESeq、edgeR、DESeq2、EBSeq、limma+voom、NOIseq、SAMseq和sleuth。

table 2 識(shí)別DEG的軟件
為了減少誤差,其測(cè)試的輸入計(jì)數(shù)矩陣都由Tophat和HTSeq軟件生成,所有軟件都用默認(rèn)參數(shù)。
下圖為各個(gè)軟件應(yīng)用的統(tǒng)計(jì)學(xué)方法:

fig.2 不同差異分析軟件使用的統(tǒng)計(jì)學(xué)方法
以qRT-PCR為金標(biāo)準(zhǔn)來(lái)評(píng)判差異分析結(jié)果,NOIseq和baySeq與qRT-PCR的結(jié)果最為一致,且受mapper軟件的影響較小。
下表列出了差異分析軟件的綜合性能評(píng)估:

table 3 差異分析軟件的綜合評(píng)估
加粗的行為綜合性能較好的前三名,分別為NOIseq、limma+voom和DESeq2。這三種軟件只有大約3.8%DEGs沒(méi)有被qRT-PCR識(shí)別。當(dāng)樣本為小樣本(兩個(gè)重復(fù))時(shí),DESeq能夠獲得更好的結(jié)果。而limma+voom對(duì)超過(guò)兩個(gè)重復(fù)的樣本有較好的結(jié)果。NOIseq和DESeq2顯示一致性的結(jié)果,表明了這些軟件適合較大的樣本數(shù)和已經(jīng)注釋了的基因組。SAMseq能夠列出最相關(guān)的DEG但是假陽(yáng)性比較高。edgeR軟件識(shí)別的DEGs相對(duì)來(lái)說(shuō)有更低的真陽(yáng)性率,81.3%的結(jié)果與qRT-PCR一致。

文獻(xiàn)支持

相對(duì)性能前三的軟件的比較
參考文獻(xiàn):RNA-Seq differential expression analysis: An extended review and a software tool