RNA-Seq differential expression analysis: An extended review and a software tool RNA-Seq差異表達分析: 擴展評論和軟件工具
正確鑒定特定條件之間的差異表達基因(DEG)是理解表型變異的關(guān)鍵。高通量轉(zhuǎn)錄組測序(RNA-Seq)已成為這些研究的主要選擇。
因此,用于RNA-Seq數(shù)據(jù)的差異表達分析的方法和軟件的數(shù)量也迅速增加。 但是,對于最合適的管道還是沒有達成共識用于從RNA-Seq數(shù)據(jù)鑒定差異表達基因的方案。這項工作對該主題進行了擴展審查,其中包括對六種繪圖方法的評估讀取,包括偽對齊和準映射以及來自RNA-Seq數(shù)據(jù)的九種差異表達分析方法。
使用qRT-PCR數(shù)據(jù)作為參考(金標準),基于真實RNA-Seq數(shù)據(jù)評估所采用的方法。作為結(jié)果的一部分,我們開發(fā)了一個軟件,可以執(zhí)行本工作中提供的所有分析,可在https://github.com/costasilvati/consexpression免費獲取。結(jié)果表明,考慮到映射方法對最終DEG分析的影響很小采用的數(shù)據(jù)有一個帶注釋的參考基因組。關(guān)于采用的實驗模型中,具有更一致結(jié)果的DEGs識別方法是limma + voom,NOIseq和DESeq2。此外,五種DEG識別方法的共識保證了DEG的列表具有很高的準確性,表明了這種不同的方法組合可以產(chǎn)生更合適的結(jié)果。共識選項也包括在內(nèi)用于可用的軟件。
介紹
高通量測序已成為測量表達水平的主要選擇,即RNA-Seq [1]。RNA-Seq可以在不事先了解參考文獻的情況下進行感興趣的序列,允許廣泛的應用,如:“從頭”重建轉(zhuǎn)錄組(沒有參考基因組),核苷酸變異的評估,評估甲基化模式[2],僅舉幾例。RNA-seq技術(shù)比cDNA微陣列具有一些優(yōu)勢,例如高通過泳道和流通池的數(shù)據(jù)再現(xiàn)性水平,這減少了實驗的技術(shù)重復數(shù)量。
此外,RNA-seq可以識別和量化同種型和未知轉(zhuǎn)錄本的表達[3]。關(guān)于越來越受歡迎高通量測序方法,下一代測序?qū)嶒灥某杀?/p>
已大幅下降。然而,對于RNA-Seq的定性和定量分析的清晰理解尚未實現(xiàn),特別是與較老的方法如cDNA微陣列相比時[4]。
一般而言,RNA-Seq技術(shù)對于涉及某些特定條件的差異表達分析非常有用[5],其中通常采用五個步驟[6,7]。 首先,將RNA樣品片段化成小的互補DNA序列(cDNA)和然后從高吞吐量平臺排序。
其次,將小的生成序列映射到基因組或轉(zhuǎn)錄組。第三,估計每種基因或同種型的表達水平。第四,映射的數(shù)據(jù)被標準化,例如使用統(tǒng)計和機器
在學習方法中,鑒定了差異表達的基因(DEG)。 最后,最終從生物學背景中評估所產(chǎn)生數(shù)據(jù)的相關(guān)性[8]。隨著RNA-Seq技術(shù)的日益普及,開發(fā)了許多軟件和管道
這些數(shù)據(jù)的差異基因表達分析。來自RNA-Seq的差異基因表達分析方法可以分為兩個主要子集:參數(shù)和非參數(shù)。參數(shù)方法捕獲有關(guān)參數(shù)內(nèi)數(shù)據(jù)的所有信息。
在這些情況下,可以通過觀察采用的模型及其參數(shù)來預測未知數(shù)據(jù)的值。當參數(shù)化方法應用于差異基因表達假設(shè),通常在歸一化后,給定基因的每個表達值被映射到特定分布,例如泊松[9±11]或負二項[12±14]。
另一方面,非參數(shù)方法可以捕獲關(guān)于數(shù)據(jù)分布的更多細節(jié),即,不強加擬合的剛性模型。這是可能的,因為非參數(shù)模型考慮到不能從有限的參數(shù)集定義數(shù)據(jù)分布,因此關(guān)于數(shù)據(jù)的信息量可以隨著其體積而增加。
關(guān)于RNA-Seq差異表達分析,一些工具如edgeR [13]和baySeq [11]采用負二項模型作為主要方法。
其他軟件工具,如NOIseq [15]和SAMseq [16],采用非參數(shù)方法。
一些方法基于轉(zhuǎn)錄物檢測,其已被開發(fā)用于鑒定未知的轉(zhuǎn)錄物或同種型,并且還可用于鑒定DEG,例如EBSeq [17]和Cuffdiff2 [18]。如今,關(guān)于哪種方法最為重要,尚未達成共識適當?shù)幕蚰姆N方法確保結(jié)果在穩(wěn)健性,準確性方面的有效性和再現(xiàn)性。生物信息學研究中的這一主題仍在發(fā)展[5,19,20]。為了評估DEG的標準化和檢測的統(tǒng)計方法以及文庫制備對結(jié)果的影響,開發(fā)了一些研究工作[10],通過考慮微生物來評估差異表達分析的方法,包括用于分析的映射方法[21],并用模擬數(shù)據(jù)評估軟件和管道[20,22]。特別是Rapaport等人。 [23]評估了實際數(shù)據(jù)集中差異表達分析軟件的概要,考慮了分析的特征,如準確性,標準化,DEG的檢測和沒有檢測到表達的條件。張等人。 [5]評估了重復次數(shù),測序覆蓋率和比較組的影響。郭等人。表明三種DEGs鑒定方法之間的排序可以產(chǎn)生更準確的鑒定[24]。李等人。 [8]評估標準化用于DEG檢測的方法,表明兩種標準化方法的結(jié)合導致更好的結(jié)果。Seyednasrollah等。 [25]介紹了八種軟件工具的比較
實際數(shù)據(jù)中的DEG分析。Germain等人。 [26]介紹了有關(guān)RNA-Seq數(shù)據(jù)分析步驟的工作,比較了不同的轉(zhuǎn)錄物定位和定量方法,同時也為采用的方法比較提供了一個在線工具。
最近,Yu等人。 [27]提出了一個基于模擬的程序,采用負二項分布和廣義線性模型(在基因水平)。該方法的主要目標是降低先前研究中報道的I型錯誤的高發(fā)率[17],即
假陰性。Abedalrhman和Rueda [28]介紹了Zseq工具,指出了高通量測序數(shù)據(jù)分析中預處理步驟的重要性。 更具特異性,Zseq專注于改善成績單的組裝,用不同的預處理方法評估DEGs的結(jié)果。
另一方面,其他方法一直關(guān)注評估其他觀點,例如RNA-Seq實驗所需的生物復制數(shù)量,以及基于實驗重復次數(shù)分析差異表達的最合適工具[29]。 。從Sahraeian等人的不同角度對RNA-seq數(shù)據(jù)進行全面而系統(tǒng)的分析。除了先前產(chǎn)生的RNA-Seq數(shù)據(jù)的表達分析外,al(2017)可以作出顯著貢獻[30]。與這些研究不同,我們評估了映射方法對差異基因表達分析結(jié)果的影響。
我們還通過不同的視角評估DEGs分析的方法,不僅指出了更好的方法。先前的研究及其結(jié)果表明,DEGs分析受許多因素的影響,如文庫的制備和實驗的結(jié)構(gòu)。在這種情況下,我們用RNA-Seq數(shù)據(jù)分析了DEG鑒定中必需步驟的影響,并開發(fā)了一種軟件,可以獲得主要DEGs鑒定方法的結(jié)果。六個映射器之間的比較研究,包括一個偽對齊和一個通常用于差異表達研究的準映射工具,導致識別
這一步驟在DEG的分析和鑒定中的重要性。還采用了金標準qRT-PCR數(shù)據(jù),以評估DEG鑒定工具的準確性,并指出其結(jié)果具有高可靠性的工具。這項工作的另一項貢獻是評估DEGs識別方法的綜合結(jié)果,
我們的工具允許執(zhí)行五種不同的差異表達分析方法的共識,結(jié)果表明差異表達的基因具有更高的可靠性和準確性。在本研究中,我們用RNA-Seq數(shù)據(jù)對差異基因表達分析的主要方法進行了擴展回顧,評估了作圖和量化方法的影響。在本研究中,我們采用了繪圖軟件Bowtie2 [31],TopHat [32],BWA [33]和STAR [34]。對于其他方法,例如偽對齊和準映射,我們采用了kallisto [35]和Salmon [36]。我們分析了差異表達分析軟件,它代表了該領(lǐng)域的最新技術(shù)水平,例如baySeq [11],DESeq [12],DESeq2 [37],EBSeq [17],edgeR [13],limma + voom [38],NOIseq [15,39]和SAMseq [16]。將映射結(jié)果用作一些差異表達分析軟件工具的輸入,并將其結(jié)果與qRT-PCR進行比較[40],從而驗證與不同映射器相關(guān)的每個軟件的準確性。
結(jié)果表明,NOIseq [15,39],limma + voom [38]和DESeq2 [37]是考慮精度,準確度和靈敏度最平衡的軟件。我們評估了不同方法中個體和綜合方式的結(jié)果。
結(jié)果表明,一組軟件可以比單個解決方案一起產(chǎn)生高精度和準確性。 最后,這項工作仍然很容易作為軟件工具的貢獻適用于差異基因表達分析的不同實驗。該軟件工具提供了一個集成執(zhí)行,具有映射,映射計數(shù)(如果需要)和表達水平的量化,表明所采用的方法在識別DEG時的性質(zhì)和準確性的特征。
材料和方法數(shù)據(jù)集
這項工作采用了為微陣列質(zhì)量控制(MAQC)項目[10,40]生成的實際數(shù)據(jù)集。使用Illumina的Genome Analyzer II獲得數(shù)據(jù)集。該實驗分析了兩個生物樣本:來自Ambion人類大腦的RNA和Stratagene的人類通用參考RNA,我們將在這項工作中分別稱為Brain和UHR集[10]。我們只使用了使用PhiX Control的Brain和UHR樣本。數(shù)據(jù)集可在NCBI Short-Read Archive(SRA)上獲得,登記號為SRA010153。讀數(shù)針對人類基因組/轉(zhuǎn)錄組,版本19(GRCh37.p13)進行了定位。作為MAQC項目的一部分,通過qRT-PCR分析了大約一千個基因[41]。qRT-PCR數(shù)據(jù)可在Gene Expression Omnibus獲得,訪問:GSE5350,平臺GPL4097 [40]。
Ambion人腦和Stratagene通用人體樣本也被用作該實驗的生物學參考。我們將qRT-PCR數(shù)據(jù)視為評估DEGs鑒定方法的金標準。從RNA-Seq數(shù)據(jù)(ENSEMBL)的注釋到qRT-PCR數(shù)據(jù)的轉(zhuǎn)換由在線工具bioDBnet [42]進行,不包括重復的ID或同義詞。該轉(zhuǎn)換產(chǎn)生了997個獨特qRT-PCR基因的列表。有關(guān)qRT-PCR基因列表的詳細信息,請參閱S1表。序列比對和基因計數(shù)
采用的RNA-Seq數(shù)據(jù)集映射在人類基因組/轉(zhuǎn)錄組(hg19)中,同一版本的注釋文件均來自GENCODE項目[43]。
轉(zhuǎn)錄組到基因組注釋的轉(zhuǎn)換由R包txImport [44]完成。對于映射和量化,使用了各種方法:拼接讀取對準器,未拼寫讀取對齊器,偽對齊和準映射。對于拼接讀取對準器方法,使用了TopHat軟件(v.2.1.0)[18],該軟件應用了外顯子優(yōu)先方法。對于無符號讀取對準器方法,使用了兩個映射軟件,BWA(v.0.7.12-r1039)[33]和Bowtie(v.2.2.6)[31],它們應用了Burrows-Wheeler變換。
對于偽對齊方法,使用kallisto軟件(v.0.43.1)[35]。對于準映射方法,使用Salmon(v0.8.2)軟件[36]。對于映射執(zhí)行,默認
采用各軟件的參數(shù)。表1列出了采用的映射器。采用HTSeq軟件(v.0.6.0)[12]生成計數(shù)矩陣,默認參數(shù)。
用于生成計數(shù)矩陣的采用的注釋文件與映射中使用的相同。圖1展示了目前的工作。通過每種采用的方法將RNA-Seq數(shù)據(jù)集(表示為圖1中的ΒNCBI-SRA)映射到人類基因組(hg19),從而獲得計數(shù)矩陣。矩陣用作所采用的差分表達方法的輸入。為了評估映射軟件對DEGs識別的影響,我們使用六個生成的計數(shù)矩陣分析了四個差分表達軟件。 對于Salmon,STAR和kallisto,我們分析了兩種差異表達軟件。通過考慮以下DEG識別方法獲得映射器性能:edgeR,DESeq,baySeq和NOIseq,到Tophat,Bowtie2和BWA,分析Salmon,STAR和kallisto分別進行了edgeR和NOISeq。 DESeq和baySeq只能使用計數(shù)數(shù)據(jù)運行(圖1)。
差異表達
在這項工作中,我們比較了八種DEGs或轉(zhuǎn)錄本鑒定方法。在應用每個軟件時,我們關(guān)注最常用的方法。因此,我們遵循手冊中提供的指南,應用默認參數(shù),包括每個軟件的標準化方法。
使用由HTSeq產(chǎn)生的相同計數(shù)矩陣進行所有差異表達分析。對于每個評估的映射器,生成計數(shù)矩陣或豐度矩陣,以這種方式對映射器工具評估DEG方法。表2總結(jié)了采用的DEG識別方法及其性質(zhì)。
使用BWA,TopHat,Bowtie和STAR映射器繪制RNA-Seq數(shù)據(jù)。量化是從Salmon和kallisto工具獲得的。每個映射器的計數(shù)表用作DEG識別方法(edgeR,DESeq,baySeq和NOISeq)的輸入,從而為不同的映射器生成每種DEG識別方法的DEG列表。Salmon,STAR和kallisto的結(jié)果用作edgeR和NOISeq的輸入。將結(jié)果與qRT-PCR(金標準)進行比較,以評估映射是否影響DEGs檢測的性能。EBSeq,SAMSeq和limma + voom,DESeq2和偵探方法被添加到研究中,用于單獨評估DEG識別工具,僅使用TopHat映射器的映射結(jié)果。如其用戶指南所示,特殊偵探收到kallisto工具的量化輸出。圖1給出了概述
這項工作中提出的管道。采用的方法(使用TopHat映射器)確定的DEG用于評估結(jié)果部分中的性能統(tǒng)計數(shù)據(jù)。
·baySeq [11]:使用貝葉斯經(jīng)驗方法估計每組模型的后驗概率,定義每個元組的差分表達模式。
·DESeq [12]:基于負二項分布,方差和均值受局部回歸約束。
·EBSeq [17]:開發(fā)的主要目的是鑒定差異表達的同種型,它在鑒定DEG方面也很穩(wěn)健。它類似于baySeq [11],它采用貝葉斯經(jīng)驗方法。
edgeR [13]:Poisson超分散模型用于解釋技術(shù)和生物學問題
變異。應用貝葉斯經(jīng)驗方法來調(diào)節(jié)過度分散對轉(zhuǎn)錄物的程度。
·limma + voom [38]:基于線性模型,最初開發(fā)用于分析微陣列數(shù)據(jù),目前擴展用于RNA-Seq分析。 limma用戶指南建議使用與使用voom轉(zhuǎn)換相關(guān)的edgeR包的TMM標準化,它基本上將標準化計數(shù)轉(zhuǎn)換為對數(shù)基數(shù)2并估計均值 - 方差關(guān)系以確定每個觀察的權(quán)重
最初由線性模型[45]制作。
·NOIseq [15,39]:自適應數(shù)據(jù)和非參數(shù),根據(jù)經(jīng)驗模擬計數(shù)數(shù)據(jù)中的噪聲,并允許數(shù)據(jù)分析而無需復制。
·SAMseq:[16]:非參數(shù)方法,對不同的測序計數(shù)進行重新采樣
深處。它可以應用于具有定量結(jié)果,兩類或多類的數(shù)據(jù)。
·DESeq2 [37]:DESeq2首先建立一個具有觀察計數(shù)的模型。其次,它使用與原始DESeq相同的方法擬合,或者分為兩步:找到使似然最大的參數(shù)值,稱為最大似然估計。
然后,它獲取所有基因值并將這些值移向平均值。
DESeq2使用貝葉斯定理來指導每個基因的運動量:如果基因的信息很低,其值接近平均值,如果基因的信息很高,則其值移動很少。因此,移動的值可用于評估不同的基因組以及應用閾值;
·偵探 sleuth[35]:
sleuth工作流程首先過濾低豐度轉(zhuǎn)錄本,然后應用兩個標準化,然后對每個轉(zhuǎn)錄本的模型進行參數(shù)估計。這使得生物方差的正則化有助于跨樣品的轉(zhuǎn)錄物豐度變化,并最終導致每個轉(zhuǎn)錄物的總體方差估計。
·
結(jié)果與討論
閱讀參考基因組中的映射
為了評估映射方法,人類基因組在數(shù)據(jù)集小節(jié)中描述。
為了評估基因組作圖工具對DEG分析的影響,
所有采用默認參數(shù)的繪圖軟件均采用。
每個映射的計數(shù)矩陣由HTSeq包[12],通過htseq-count函數(shù),使用基因組注釋文件和默認參數(shù)生成。
每個映射工具的計數(shù)矩陣用作DEG檢測方法的輸入。
關(guān)于qRT-PCR數(shù)據(jù),采用默認方法(Benjamini&Hochberg)的GEO2R工具無法識別DEG。
它僅被認為是DEGs的轉(zhuǎn)錄物,log2FC> =±2且P±值<= 0.05。
完整的DEG列表可在S1表中找到。
我們比較了RNA-Seq(baySeq,edgeR,DESeq和NOIseq)中鑒定的DEG與qRT-PCR的DEGs。
在圖2和表3中可以觀察到DEG集中在映射器之間的交叉點上,表明即使隨著映射方法的改變,這些方法也保持了識別行為。
通過這種方式,我們觀察到映射器對最終結(jié)果的影響很小。
在圖2A和2C中,可以觀察到正確識別的DEG的數(shù)量(一致)
與qRT-PCR相比,與識別方法相比,與采用的映射器相關(guān)。
baySeq和NOIseq方法獲得了少量未識別的DEG,并且該量沒有隨著不同的映射器而改變。為了評估不使用映射的方法,以及其他量化讀數(shù)的策略,我們使用Salmon和STAR比較edgeR和NOISeq結(jié)果來量化
映射基因。表3顯示了來自不同RNA-Seq作圖方法的DEGs鑒定數(shù)。它只被認為是NOISeq和edgeR,因為baySeq和DESeq無法接收不同整數(shù)值的輸入。結(jié)果再一次表明,差異表達分析更多地受到DEGs鑒定方法的影響,而不是所采用的讀數(shù)定位或定量方法。S2表提供了有關(guān)使用不同映射器的每種DEGs識別方法的性能的更多細節(jié)。 DEG識別方法如上一節(jié)所述,映射器對表達式分析的影響很小。
通過這種方式,僅考慮TopHat映射結(jié)果開發(fā)了所有后續(xù)分析。在本工作的這一步,我們分析了以下軟件工具的結(jié)果:limma + voom [38],EBSeq [17],SAMseq [15],DESeq2 [37]和sleuth [35]。有關(guān)評估工具的更多詳細信息,請參閱差分表達式小節(jié)。
我們比較了9種工具差異表達的基因和qRT-PCR指示的DEGs。軟件按照每本手冊中的定義執(zhí)行,并且通過每個工具的手冊指示的限制,工具列出的基因被認為是差異表達的?;诿糠N方法結(jié)果與qRT-PCR之間的匹配來評估所采用的DEG鑒定方法的性能。表4列出了每種采用方法的性能??梢宰⒁獾紼BSeq,SAMseq和DESeq方法雖然使用不同的DEG識別方法具有相似的行為,但呈現(xiàn)低TPR(真陽性率)和低ACC(準確度)。DESeq的性能可以通過以下事實來證明:小樣本(每個條件兩個樣本)可以獲得更好的結(jié)果,如[22]中所示。SAMseq的結(jié)果很大程度上受樣本大小和重復次數(shù)的影響。SAMseq能夠?qū)ψ钕嚓P(guān)的DEG進行排序,不過它是結(jié)果產(chǎn)生許多誤報[22,25]。NOIseq,DESeq2和limma + voom方法表現(xiàn)良好,具有較高的TPR和ACC率。limma + voom工具已經(jīng)在之前的工作中被指出是DEG排名和兩個以上樣本分析的更好結(jié)果之一[22]。 NOIseq和DESeq2工具顯示了一致的結(jié)果,表明這些方法適用于具有大量樣品和注釋基因組的實驗。
整合DEG識別方法
對DEG識別方法的個別評估清楚地表明,每種方法都產(chǎn)生了截然不同的結(jié)果。
此外,一些方法有更好的結(jié)果和更多的方法
樣本,而其他人表現(xiàn)出其結(jié)果的變化受其他特征的影響,如測序深度和異常高計數(shù)的異常值。
為了驗證每種DEG識別方法的各個結(jié)果之間的兼容性并確定可能的性能改進,我們通過將所采用的方法集成到這項工作中來評估結(jié)果。
我們通過整合九種方法評估了結(jié)果中的性能,因此對于通過x方法鑒定為差異表達的每種基因,其中x是已經(jīng)鑒定每種DEG的方法的數(shù)量。
將DEG鑒定方法的每種組合的結(jié)果與來自qRT-PCR的金標準進行比較。
為了評估DEG集成方法的性能,我們驗證了性能更好的方法組合。圖3顯示了從1到9°的積分
識別方法。 可以注意到差異沒有一致性
表達了九種方法整合的成績單。從九種評估方法來看,
對于165個轉(zhuǎn)錄物,發(fā)生8個同時適應癥的頻率,qRT-PCR也表示差異表達。但是,當觀察qRT-PCR指示的DEG數(shù)時,有可能觀察到8種方法的整合未能鑒定出qRT-PCR所示的大量基因。為了確定具有更有效的DEGs指示的方法組合,并且在誤差最小的情況下,我們評估了每個方法的DEGs識別性能。方法的子集:九,八,七,六,五,四,三,二和一。
每個子集的性能結(jié)果如表5所示。正如所料,每個子集的性能表明,一起考慮更多方法往往會提高準確性并降低錯誤率。正如在基因網(wǎng)絡(luò)推斷的背景下報道的那樣,集體知識或數(shù)據(jù)整合可以產(chǎn)生比個體結(jié)果更好的結(jié)果[48,49]?;谶@一原理,我們發(fā)現(xiàn)五種方法的整合可以獲得比任何其他測試子集更高的TPR和SPC值。為了識別每個基數(shù)的DEG識別方法的最佳組合(1,2,...,9),我們采用ROC(接收器工作特性)曲線[50],一種標準模式識別工具。圖4給出了DEG識別方法共識的更好組合。可以注意到,五種方法的組合在所有測試組合中提供了最有效的解決方案。六種方法的共識導致FPR略有改善,但TPR也出現(xiàn)下降。5種DEG識別方法的共識提出了最佳的綜合結(jié)果,具有更高的SPC和TPR值,從而得到高精度的結(jié)果。圖5顯示了通過增加DEGs識別方法的整合而相關(guān)的TPR和SPC值的演變。
包含方法帶來了相當大的特異性增益(SPC),但是從六種方法的整合來看,TPR值經(jīng)歷了相當大的下降。該結(jié)果表明了https://github.com/costasilvati/consexpression上可用的軟件的默認值,用戶可以在執(zhí)行默認共識的方法(五種方法)之間進行選擇, 從而獲得SPC和TPR之間的最佳平衡。應用這種方法的另一種可能性是改變定義所需方法數(shù)量共識的方法數(shù)量,同時考慮到變更的成本,其他績效衡量標準,以及在這項工作中只使用其中一種采用的方法。表6概述了根據(jù)qRT-PCR正確鑒定DEG的方法組。關(guān)于來自qRT-PCR的413°,其中19種未通過任何方法鑒定。當將一個指示視為差異表達時(可接受任何工具),可以觀察到它不可能達到指示的413個基因定量RT-PCR。
為了確定哪組方法具有最佳共識,評估很重要每種方法在聚合結(jié)果中的表現(xiàn)如何,尤其是在五種適應癥的組中。表7顯示了匯總結(jié)果中每種方法的頻率。比較表7和表6中的結(jié)果,我們可以觀察到343種方法通過五種方法的共識指出,最正確指出的方法(幾乎所有適應癥)都是baySeq [11],DESeq2 [37],limma + voom [38]和NOISeq [15,39]。關(guān)于五種方法的共識,baySeq方法表明所有DEGs呈現(xiàn)
在五個共識結(jié)果中。DESeq2表示97.6%,limma + voom方法表明其中96.5%,NOISeq表示95.9%。對于baySeq的分析,
有必要定義模型集合,每個模型是樣本細分為組,假設(shè)同一組中的樣本共享底層分布的相同參數(shù)。在DESeq2方法中,為觀察到的計數(shù)創(chuàng)建模型,使用貝葉斯定理擬合該模型以指導每個基因的運動。在NOISeq方法中,成績單如果兩個條件之間的log2與兩個相應條件之間的差值的比值可能高于噪聲,則差分表達。通過比較相同條件下的所有重復對來獲得噪聲分布。在limma + voom方法中,讀取計數(shù)被轉(zhuǎn)換為每百萬計數(shù)的log2(logCPM),并且平均方差比用精確權(quán)重建模。總之,baySeq方法傾向于更高的FP值,如表4所示,表明五種方法的100%DEGs共識。參數(shù)共享樣本這種方法的一組,減輕了同一組基因的變異,從而導致該方法的正確性更大的可能性。另一方面,NOISeq,DESeq2和limma + voom方法以均衡的方式執(zhí)行與正確DEGs識別的關(guān)系,從而使結(jié)果具有高可靠性,這只能證明'未通過qRT-PCR鑒定,未鑒定出3.8%DEG。關(guān)于edgeR結(jié)果,我們可以證實其TPR傾向于較低的可靠性,呈現(xiàn)由qRT-PCR指示的正確鑒定DEG的81.3%。
結(jié)論
這項工作提出了關(guān)于鑒定差異表達基因(DEG)或轉(zhuǎn)錄本的方法的擴展審查。
我們評估了六種映射方法的影響,包括一種偽對齊和一種準映射,
DEGs鑒定和這些方法整合的九種主要方法,以便從結(jié)果中產(chǎn)生共識。
通過比較來自相同測試轉(zhuǎn)錄物的參考qRT-PCR的各自結(jié)果來進行所采用方法的評估。
我們已經(jīng)確定,繪圖工具對最終結(jié)果的影響很小,表明DEGs鑒定方法是RNA-Seq數(shù)據(jù)中差異表達分析的主要選擇。
對于評估的實驗條件,我們沒有在評估的方法中確定在所有性能測量中獲得最佳結(jié)果的工具。 NOIseq,DESeq2和limma + vomm方法分別以95%,95%和93%的特異性和80%,84%和81%的真陽性率呈現(xiàn)最佳個體結(jié)果。
關(guān)于DEG識別方法的整合,我們發(fā)現(xiàn)五種方法的結(jié)合提高了識別的靈敏度,并提供了更可靠的結(jié)果。
使用的五種方法綜合產(chǎn)生了91%的特異性和83%的特異性
真陽性率,因此表明五種方法的共識比單獨的解決方案更好地平衡。
最后,本研究還有助于在https://github.com/costasilvati/consexpression上提供免費軟件,
它實現(xiàn)了所提出的分析,可以很容易地用于復制這項工作,以及分析其他RNA-Seq數(shù)據(jù)源。
支持信息S1表。 qRT-PCR分析。通過qRT-PCR指示差異表達的基因。
(PDF)S2表。
映射分析。不同映射器的每種DEG識別方法的性能。(PDF)
致謝
我們感謝審稿人在以前版本的稿件中提供了深刻見解。
作者貢獻
概念化:Douglas Domingues,F(xiàn)abricio Martins Lopes。
正式分析:Douglas Domingues,F(xiàn)abricio Martins Lopes。
資金收購:Fabricio Martins Lopes。
調(diào)查:Fabricio Martins Lopes。
方法論:Juliana Costa-Silva,Douglas Domingues,F(xiàn)abricio Martins Lopes。
項目管理:Fabricio Martins Lopes。
軟件:Juliana Costa-Silva,F(xiàn)abricio Martins Lopes。
監(jiān)督:Douglas Domingues,F(xiàn)abricio Martins Lopes。
驗證:Juliana Costa-Silva,F(xiàn)abricio Martins Lopes。
寫作原始草稿:Juliana Costa-Silva,F(xiàn)abricio Martins Lopes。
寫作評論與編輯:Douglas Domingues,F(xiàn)abricio Martins Lopes。
圖1.本工作中提供的管道概述。采用的生物樣品生成qRT-PCR數(shù)據(jù)與用于生成RNA-Seq數(shù)據(jù)的生物樣品相同。
圖2.來自不同表達分析工具的鑒定的DEG的比較,與不同的RNA-Seq作圖方法相比較
定量RT-PCR。 (A)Venn圖比較baySeq工具鑒定的DEG與BWA,TopHat,Bowtie和qRT-PCR二倍體。
(B)通過edgeR工具與BWA,TopHat,Bowtie和qRT-PCR映射器比較鑒定的DEG的維恩圖。
(C)Venn圖比較NOIseq鑒定的DEGs
BWA,TopHat,Bowtie和qRT-PCR映射器。
(D)通過DESeq與BWA,TopHat,Bowtie和qRT-PCR比較鑒定的DEG的維恩圖
映射器。
表3.與qRT-PCR相比,與不同RNA-Seq作圖方法相關(guān)的來自不同表達分析工具的鑒定的DEG數(shù)量的比較。edgeR和NOISeq工具使用來自不同映射器的數(shù)據(jù)指示的DEG。 qRT-PCR行表示正確標記的DEG的量。
表4.關(guān)于qRT-PCR結(jié)果的DEGs軟件工具的性能。采取的績效衡量指標:TPR(真實正率),SPC(特異性),PPV(正預測值),ACC(準確度)和F1度量[46,47]。
圖3。直方圖來自DEGs鑒定方法的整合。
紅色條表示DEGs被鑒定為差異表達(真陽性)。
藍色條表示未從方法中鑒定為DEG的差異表達的轉(zhuǎn)錄物(假陽性)。 Y軸表示正確識別轉(zhuǎn)錄本為差異表達的工具數(shù)量。
第一行(Y軸為0的條)表示DEGs,而不是來自qRT-PCR(金標準)的差異表達基因,其中413°和584不是差異表達的轉(zhuǎn)錄物,總共分析了997個基因。
9種工具沒有性能值,因為結(jié)果與9種方法表示的轉(zhuǎn)錄本沒有收斂。
表5. DEGs識別方法的每個子集的性能。子集沒有特定方法的選擇,僅觀察到適應癥的頻率。 9種工具沒有性能值,因為結(jié)果與9種方法表示的轉(zhuǎn)錄本沒有收斂。
圖4. DEG識別方法整合的ROC曲線。每個點表示關(guān)于采用的qRT-PCR的最佳子集的性能。
圖5. TPR和SPC的投影曲線。結(jié)合DEGs識別方法時TPR和SPC值的投影曲線。 X軸是組合DEGs識別方法的數(shù)量。 Y軸是關(guān)于采用的qRT-PCR的TPR和SPC值的演變。
表6.真陽性(TP)與方法數(shù)量的聚合結(jié)果之間的關(guān)系。關(guān)于通過qRT-PCR鑒定為差異表達(DE)的413個基因,我們按數(shù)量分組正確指示DEG的方法。
表7.考慮總體結(jié)果(共識),從每種方法中正確識別的DEG的數(shù)量。