2014/10/30
毫無疑問,提高生物學(xué)重復(fù)或提高單個(gè)樣本測(cè)序量,都可以改善這些問題。但在研究經(jīng)費(fèi)有限的情況下,“提高生物學(xué)重復(fù)數(shù)而降低單個(gè)樣本的測(cè)序量”或“提高單個(gè)樣本測(cè)序量而降低生物學(xué)重復(fù)”,哪個(gè)更有效?
技術(shù)專題文章下載鏈接:http://www.genedenovo.com/document.html?id=60
在RNA-seq項(xiàng)目設(shè)計(jì)過程中,老師經(jīng)常會(huì)問兩個(gè)問題:
1)低豐度的基因是否能夠被檢測(cè)到(有或無);
2)基因定量的結(jié)果是否準(zhǔn)確(高或低);
毫無疑問,提高生物學(xué)重復(fù)或提高單個(gè)樣本測(cè)序量,都可以改善這些問題。但在研究經(jīng)費(fèi)有限的情況下,“提高生物學(xué)重復(fù)數(shù)而降低單個(gè)樣本的測(cè)序量”或“提高單個(gè)樣本測(cè)序量而降低生物學(xué)重復(fù)”,哪個(gè)更有效?
我們經(jīng)常會(huì)建議老師:“3個(gè)生物學(xué)重復(fù)樣本(2G/樣本)的定量準(zhǔn)確性 大于 單個(gè)樣本6G數(shù)據(jù)量。即相同的總數(shù)據(jù)量拆分到更多的生物學(xué)重復(fù)中,實(shí)際上定量可靠性是提高了?!边@個(gè)結(jié)論的出處是哪里? 下面,我們通過一篇參考文獻(xiàn)解答這個(gè)問題。

背景:這篇2012年 BMC genomiss的方法學(xué)文章,主要討論了生物學(xué)或技術(shù)重復(fù)、單樣本測(cè)序量、分析算法這3類因素對(duì)RNA表達(dá)差異分析的影響;
結(jié)論:
1)軟件DESeq的效果優(yōu)于edgeR或NBPSeq。
2)差異分析對(duì)數(shù)據(jù)量并不敏感,甚至當(dāng)單個(gè)樣本測(cè)序量降低為原來的15%的時(shí)候,也不會(huì)大幅度降低差異基因檢出率。
3)增加生物學(xué)重復(fù)對(duì)提高表達(dá)差異分析結(jié)果可靠性的效果要優(yōu)于單樣本測(cè)序量,
備注:第二、三部分的內(nèi)容,我們將在下文重點(diǎn)解讀。
判定差異分析結(jié)果可靠性的指標(biāo)
假陽性與真陽性
直觀一些說,如果某個(gè)基因在RNA-seq結(jié)果顯示差異表達(dá),但Qpcr結(jié)果表明這個(gè)基因表達(dá)差異不顯著,可以認(rèn)為這個(gè)基因RNA-seq結(jié)果為假陽性;反之,這個(gè)結(jié)果就是真陽性。
而老師往往會(huì)關(guān)心某些低表達(dá)基因的表達(dá)差異變化能否被正確檢測(cè),那么這就要求我們提高實(shí)驗(yàn)的真陽性率。
假陽性率(FPR):真實(shí)非差異表達(dá)中的基因中,被錯(cuò)誤判定為差異表達(dá)的比例,F(xiàn)DR越低越好;
真陽性率(TPR):真實(shí)差異表達(dá)的基因中,能夠正確判定為差異表達(dá)的比例,TPR越高越好;真陽性率這個(gè)概念,如果換用為“差異基因的檢出率”更容易理解,下文我們會(huì)并用這兩個(gè)概念。
下文,我們將重點(diǎn)摘抄文章中三個(gè)方面的問題,并做總結(jié):
1. 生物學(xué)重復(fù)對(duì)差異表達(dá)分析的影響

如表1所示,在單樣本測(cè)序量保持不變的情況下,隨著生物學(xué)重復(fù)數(shù)(n)的提高,差異分析的假陽性率(FPR)基本穩(wěn)定,但真陽性率(TPR)在不斷提高。也就是說提高生物學(xué)重復(fù)數(shù),實(shí)驗(yàn)對(duì)差異表達(dá)基因的檢測(cè)更加敏感,那些差異倍數(shù)較小或表達(dá)量較低的差異表達(dá)基因(此類基因的差異檢測(cè)難度較大)能夠更容易被檢測(cè)到。
2. 單樣本測(cè)序量對(duì)差異表達(dá)分析的影響


如表2、表3所示,在一定的生物學(xué)重復(fù)數(shù)(n)的情況下,隨著單樣本測(cè)序量(Depth)的提高(25% → 100%),假陽性率(FDR)和真陽性率(TPR)都只有有限的提高。例如在n=3的情況下,單個(gè)樣本的測(cè)序量從25%提高到100%,F(xiàn)DR僅僅從0.02%提高到0.04%,TPR僅僅從6.24%提高到8.95%。
在表3中,如果Depth等于25%不變,當(dāng)n從2提高到12,TPR的提高則是非常明顯的。因此測(cè)序深度對(duì)結(jié)果改善效果并不如增加生物學(xué)重復(fù)。在下文,我們將詳細(xì)比較。
2.1總數(shù)據(jù)量不變,生物學(xué)重復(fù)數(shù)與單樣本測(cè)序量最佳組合

不同單樣本測(cè)序量與生物學(xué)重復(fù)數(shù)組合,對(duì)應(yīng)的TPR變化
如果保持總測(cè)序量不變(即如果生物學(xué)重復(fù)數(shù)為n,則單個(gè)樣本的測(cè)序量降低為1/n,總數(shù)據(jù)量為n×1/n=1 ,保持不變)。
如圖1(a),灰色實(shí)線代表不同生物學(xué)重復(fù)數(shù)(n)和單樣本數(shù)據(jù)量(1/n)組合的情況下,真陽性率(TPR)的變化。結(jié)果表明,隨著n的提高,TPR率不斷提高。例如,如果n=2,TPR約為3%,如果n=6,TPR則提高到22%
2.2總數(shù)據(jù)量不變,生物學(xué)重復(fù)數(shù)與測(cè)序量最佳組合

如果n=3固定不變,單個(gè)樣本數(shù)據(jù)量降低,TPR的變化
2.3總數(shù)據(jù)量不變,生物學(xué)重復(fù)數(shù)與測(cè)序量最佳組合

不同測(cè)序量與生物學(xué)重復(fù)數(shù)組合,對(duì)應(yīng)的FPR變化
但是不同的生物學(xué)重復(fù)數(shù)和單樣本測(cè)序量的組合,對(duì)假陽性率(FPR)的影響卻較小。如圖1(b),灰色實(shí)線代表不同生物學(xué)重復(fù)數(shù)(n)和單樣本數(shù)據(jù)量(1/n)組合的情況下,真陽性率(FPR)的變化。雖然n從2變化到96,F(xiàn)PR基本沒有太大變化。
從圖中我們很容易發(fā)現(xiàn),基于負(fù)二項(xiàng)分布的差異分析檢驗(yàn)(P value),F(xiàn)PR對(duì)生物學(xué)重復(fù)數(shù)和單個(gè)樣本數(shù)據(jù)量均不敏感,始終保持低于0.1%水平?;蛘哒f,這個(gè)算法對(duì)FPR的控制還是非常理想的。
討論
1. RNA-seq老師關(guān)心的問題 :
1)低豐度的基因是否能夠被檢測(cè)到(有或無);
2)基因定量的結(jié)果是否準(zhǔn)確(高或低);
大部分老師對(duì)第一個(gè)問題的關(guān)心程度要大于第二個(gè),第二個(gè)問題常常被忽略。
但實(shí)際上,隨著測(cè)序單價(jià)的下降,目前市場(chǎng)上RNA-seq類項(xiàng)目的單樣本測(cè)序量正在不斷提高。以2G,PE100測(cè)序的表達(dá)譜項(xiàng)目為例,其對(duì)應(yīng)的測(cè)序量為20M條reads。如果一條長(zhǎng)度為1kbp的低表達(dá)基因的表達(dá)量為RPKM=0.5,其理論上可以檢測(cè)到的reads數(shù)為20×0.5=10。所以低豐度基因的檢測(cè),對(duì)RNA-seq這個(gè)技術(shù)來說并非最大問題。

如上圖,大部分RNA-seq類項(xiàng)目,老師都會(huì)看到測(cè)序的飽和曲線達(dá)到平臺(tái)期。也就是說再增加測(cè)序量,新檢測(cè)出的基因數(shù)并不會(huì)有明顯增加。
第二個(gè)問題“轉(zhuǎn)錄本表達(dá)量的高低變化”比“轉(zhuǎn)錄本的有無”更具有普遍的生物學(xué)意義。雖然個(gè)別基因的表達(dá)量變化程度,可以使用Qpcr來驗(yàn)證。但我們往往也使用所有差異基因來統(tǒng)計(jì)某些規(guī)律。例如使用差異基因的pathway富集分析來尋找與性狀相關(guān)的pathway。如果在全局水平的差異基因集并不可靠,那么pathway富集分析得出的結(jié)論的可靠性自然也受到影響。而全局水平的差異基因數(shù)量巨大,是難以使用Qpcr驗(yàn)證的。
因此,定量以及差異分析的準(zhǔn)確性是在RNA-seq中更值得老師關(guān)心的問題。在討論的第二部分,我們重點(diǎn)展開敘述。
2. 重復(fù)數(shù)、單樣本測(cè)序量的取舍
我們將前文提到的三個(gè)問題在進(jìn)行總結(jié):
1)生物學(xué)重復(fù)對(duì)差異表達(dá)的影響;
目前,主流期刊對(duì)生物學(xué)重復(fù)慢慢會(huì)有一定的要求。從本文,我們可以看到,設(shè)定生物學(xué)重復(fù)對(duì)差異基因的檢出率(真陽性率,TPR)的提高具有明顯效果。所以,設(shè)定生物學(xué)重復(fù)對(duì)提高結(jié)果的可靠性,是非常有意義的。
2)單個(gè)樣本的測(cè)序量
老師對(duì)測(cè)序量比較關(guān)心,主要還是由于擔(dān)心低豐度基因無法檢測(cè)的問題。討論的第一部分,我們也解釋過,目前RNA-seq 的數(shù)據(jù)量(一般不低于2G,對(duì)于lncRNA測(cè)序,數(shù)據(jù)量一般更大)已經(jīng)足以保證大部分低豐度基因的檢測(cè)。而且,從本文我們可以看到,在其他條件不變的情況下,單樣本數(shù)據(jù)量從100%降低到15%,差異基因的檢出率(真陽性率,TPR) 降低較為平緩。所以,單樣本數(shù)據(jù)量對(duì)RNA-seq定量和差異分析的影響實(shí)際上是十分有限的。
3)總數(shù)據(jù)量不變,生物學(xué)重復(fù)數(shù)與單樣本測(cè)序量最佳組合
由于大部分老師科研經(jīng)費(fèi)有限,無法無限制地增加樣本數(shù)或數(shù)據(jù)量。所以在生物學(xué)重復(fù)數(shù)和單個(gè)樣本測(cè)序量上必須找到平衡點(diǎn)。從本文我們可以看出,在總數(shù)據(jù)量不變的情況下,將總數(shù)據(jù)量分配到更多的生物學(xué)重復(fù)樣本中,差異分析結(jié)果的可靠性在不斷提升。這也與前兩點(diǎn)得出的結(jié)論一致——對(duì)于RNA-seq,生物學(xué)重復(fù)數(shù)的價(jià)值要大于單個(gè)樣本測(cè)序量。
但增加生物學(xué)重復(fù)的樣本數(shù),意味著要增加建庫費(fèi)用。因此,即使總數(shù)據(jù)不變,設(shè)置過多的生物學(xué)重復(fù)也是不合理的。一般而言,設(shè)定3個(gè)生物學(xué)重復(fù),依然是最高性價(jià)比的選擇。
3. 其他
增加單樣本數(shù)據(jù)量對(duì)定量的改良是有限的。但對(duì)于低豐度 轉(zhuǎn)錄本de novo拼接(無參考基因組)或低豐度新轉(zhuǎn)錄本檢測(cè)(有參考基因組),更高的數(shù)據(jù)量的確可以潛在改善拼接效果。
那么對(duì)于此類情況,我們可以采取以下策略:1)在拼接的步驟,我們可以將所有數(shù)據(jù)合并(例如每個(gè)生物學(xué)重復(fù)2G數(shù)據(jù)量,3個(gè)重復(fù),全部合并),足夠大的數(shù)據(jù)量來保證拼接效果;2)完成拼接后,在定量這個(gè)步驟,每個(gè)生物學(xué)重復(fù)樣本獨(dú)立定量。從而,可以在控制整個(gè)項(xiàng)目測(cè)序量的情況下,兼顧轉(zhuǎn)錄本拼接和定量這兩個(gè)方面的問題。
這個(gè)策略也可以解釋,對(duì)于lncRNA測(cè)序,如果不設(shè)置重復(fù),我們建議老師單樣本測(cè)序量為810G。如果設(shè)置了重復(fù),而老師經(jīng)費(fèi)有限,那么可以將單個(gè)樣本的數(shù)據(jù)量降低(例如56G),其效果依然要優(yōu)于不設(shè)置重復(fù)的實(shí)驗(yàn)設(shè)計(jì)。