??RNA-seq可以從核酸層面為各種生物研究提供支持,最常見的就是實(shí)驗(yàn)處理下差異表達(dá)基因的篩選;并且隨著測序成本減少,RNA-seq已經(jīng)是大多數(shù)實(shí)驗(yàn)的標(biāo)配。
??有時(shí)候,項(xiàng)目經(jīng)費(fèi)有限的情況下,我們應(yīng)該怎么設(shè)計(jì)實(shí)驗(yàn),盡可能地達(dá)到實(shí)驗(yàn)?zāi)康?,需要考慮到實(shí)驗(yàn)重復(fù)和測序深度的選擇。
??這兒有篇文章詳細(xì)討論了RNA-seq 中生物重復(fù)與測序深度的選擇:
Efficient experimental design and analysis strategies for the detection of differential expression using RNA-Sequencing. BMC Genomics.2012 Sep 17;13:484. doi: 10.1186/1471-2164-13-484.
實(shí)驗(yàn)重復(fù)
在生物學(xué)實(shí)驗(yàn)中,實(shí)驗(yàn)重復(fù)分為生物重復(fù)和技術(shù)重復(fù):
- 生物重復(fù):對(duì)不同樣本進(jìn)行同樣的實(shí)驗(yàn)操作,然后納入一起進(jìn)行分析。
- 技術(shù)重復(fù):實(shí)驗(yàn)重復(fù)之間只有操作時(shí)間的差異,對(duì)同一樣本進(jìn)行一致的處理。
通常情況下,技術(shù)重復(fù)上的誤差我們可以通過實(shí)驗(yàn)設(shè)計(jì)和操作的改進(jìn)得以減??;然而,生物樣本間的差異是難以控制的。
RNA-seq中, 重復(fù)的設(shè)計(jì)是實(shí)驗(yàn)設(shè)計(jì)不可缺少的一部分:
- 實(shí)驗(yàn)中的不穩(wěn)定性和樣本之間差異引起的誤差。
- 能不能達(dá)到我們所期望的統(tǒng)計(jì)功效。在分析基因差異表達(dá)時(shí),也就是最終得到多少差異顯著的基因。
- 有助于FDR的改善
TPR與FPR
文章對(duì)TPR與FPR的估計(jì):

文章作者將剪切體( isoforms)分為非調(diào)節(jié)子集(non-regulated subset), 上調(diào)子集(an up-regulated subset )和 下調(diào)子集 (a down-regulated subset);進(jìn)而估算顯著水平α下的TPR與FPR。
解釋一下TPR與FPR,
TPR(True positive rate, sensitivity, power of test): 對(duì)應(yīng)的名字就是有這么多,真陽性,敏感度,檢驗(yàn)功效;具體來說就是,樣本處理后差異表達(dá)的基因經(jīng)過RNA-seq分析被發(fā)現(xiàn)的數(shù)量占總的差異表達(dá)基因數(shù)的比例;一組小鼠喂食某種藥物相對(duì)于正常喂食的對(duì)照組有800個(gè)差異表達(dá)基因;RNA-seq分析找到400個(gè)差異表達(dá)基因,其中有300個(gè)基因也存在于前面800個(gè)差異表達(dá)基因中,所以TPR=300/800
FPR(False positive rate ):本來就不差異表達(dá)的基因,RNA-seq分析卻錯(cuò)誤的認(rèn)為是差異表達(dá)基因數(shù)占總的非差異表達(dá)的基因數(shù)的比例;一組小鼠喂食某種藥物與正常喂食的對(duì)照組相比,有19200個(gè)非差異表達(dá)基因;RNA-seq分析找到400個(gè)差異表達(dá)基因,其中有300個(gè)基因也存在于前面800個(gè)差異表達(dá)基因中,剩下的100原本就應(yīng)該不是差異表達(dá)基因,所以FPR=100/19200
第一類錯(cuò)誤和第二類錯(cuò)誤:

1-β (power of the test,檢驗(yàn)功效): 當(dāng)Ha正確時(shí),拒絕Ho。

生物學(xué)重復(fù)對(duì)篩選差異表達(dá)基因的影響:

測序深度不變,隨著生物重復(fù)增加(n=2 -> n=12),差異表達(dá)基因檢出率從0.44%提升到5.12%;FPR從0.04%上升到0.06%,最終再回到0.04%;TPR從3.26%提升到41.57%??偟膩碚f,差異表達(dá)基因檢出率和TPR有了明顯上升,F(xiàn)PR保持不變。
??在RNA-seq實(shí)驗(yàn)設(shè)計(jì)中,更多的生物重復(fù)不僅可以提高差異表達(dá)基因檢出率,還可以提高差異表達(dá)基因檢出質(zhì)量和可靠性。
測序深度對(duì)篩選差異表達(dá)基因的影響:

??對(duì)于不同生物重復(fù)實(shí)驗(yàn)情況下,隨著測序深度的減少,F(xiàn)PR有著緩慢降低的趨勢,但始終低于0.1%;而TPR降低的趨勢明顯一些,尤其是在15%以下迅速降低?;疑珜?shí)線是n個(gè)生物重復(fù)在 1/n的測序深度下TPR值的變化,TPR隨著n增加改善,這種趨勢一直持續(xù)到n=32與n=96;但從n=32增加到n=96,TPR改善的效果并不大。

??不同生物重復(fù)和測序深度實(shí)驗(yàn)條件下FPR與TPR值。
??表2中,所有組合條件下,F(xiàn)PR始終低于0.1%,并且隨著生物重復(fù)增加和測序深度增加,F(xiàn)PR只從0.02%(n=2, depths = 25%)增加至0.04%(n=12, depths =100%);
??表3中,隨著生物重復(fù)增加和測序深度增加,TPR不斷改善, TPR從1.57%(n=2, depths = 25%)增加至41.57%(n=12, depths =100%);
總結(jié)
RNA-seq實(shí)驗(yàn)設(shè)計(jì)中,生物重復(fù)對(duì)TPR有明顯的影響,提高差異表達(dá)基因檢出的質(zhì)量和可靠性;
??在RNA-seq實(shí)驗(yàn)設(shè)計(jì)中,測序深度在從100%降到15%,對(duì)TPR和FPR產(chǎn)生的影響可以忽略;
??測序技術(shù)已經(jīng)得到了很好地發(fā)展,測序深度一般可以滿足,因此實(shí)驗(yàn)設(shè)計(jì)中可以考慮適當(dāng)增加生物重復(fù)數(shù);現(xiàn)在,一般最少做三個(gè)樣本重復(fù),但是三個(gè)有時(shí)候并不一定足夠。