在RNA-Seq等測序設(shè)計中,生物學(xué)重復(fù)和技術(shù)重復(fù),是非常需要注意的問題。
那么問題就來了,生物學(xué)重復(fù)和技術(shù)重復(fù),到底是什么?它們是如何影響我們的實驗設(shè)計的。
生物學(xué)重復(fù)(biological replicate):可以理解為我們對一個群體進(jìn)行研究,但是我們不會對整個群體進(jìn)行檢測(考慮到成本和工作量的問題,我們肯定也不會采取這種地毯式的方法),只是抽取群體中的一部分進(jìn)行檢測,用樣本來代表總體。
這邊樣本個數(shù),實際上就是生物學(xué)重復(fù)數(shù)。
技術(shù)重復(fù)(technical replicate):對一個樣本的數(shù)值進(jìn)行多次測定。
下表給出常見實驗對應(yīng)重復(fù)類型:

實例
Replication這篇文章以測定小鼠肝臟細(xì)胞中的某一個gene的表達(dá)量為例,展示了什么是生物學(xué)重復(fù)和技術(shù)重復(fù)以及如何權(quán)衡這兩者之間的關(guān)系。
分別給出3種類型的重復(fù),分別為:
(1)animal水平的重復(fù)
(2)cell水平的重復(fù)
(3)技術(shù)重復(fù)

由上圖可以得到,3種不同種類的重復(fù),所計算出來的表達(dá)量方差是不一樣的,但gene表達(dá)量的總方差,可以有下列公式計算得到:
接下來,將總體的重復(fù)次數(shù)限定,即在滿足的前提條件下,對Var(X)進(jìn)行計算。
代表動物樣本數(shù),
代表細(xì)胞樣品數(shù),
代表技術(shù)重復(fù)次數(shù),
是基因表達(dá)量誤差
(
的變式,含義是the precision in the expression mean,計算公式為
1、當(dāng)和
均為1,
為48的情況下,計算出來的Var(X)如下圖標(biāo)記:

這種情況下,只反映了由于cell樣品重復(fù)和技術(shù)重復(fù)所引起的基因表達(dá)量誤差。當(dāng)n_{A}=1(動物樣品數(shù)為1),即無法計算由于animal樣品數(shù)變化,所帶來的基因表達(dá)量誤差。
因此在上述情況下,就被低估了。
2、當(dāng)和
均為1,
為48的情況下
計算得到的基因表達(dá)量誤差完全是由于技術(shù)重復(fù)所引起的。因此,如果我們將這種情況下的誤差,認(rèn)定為由生物重復(fù)所引起的,就造成了假陽性。
作者在文章中,還指出了非常重要的一點:雖然增加技術(shù)重復(fù),可以讓我們對
有一個更準(zhǔn)確的估計,但是沒必要。因為提升動物樣品數(shù),可以使σ_{M}^2可忽略不計(以
)。
同時,需要注意的是,將是樣品放入同一批次進(jìn)行測序,減少批次效應(yīng)對數(shù)據(jù)的影響。
同樣地,每一種重復(fù)對于真實基因表達(dá)量的方差貢獻(xiàn)也不是相同的。
因為cell重復(fù)和測定技術(shù)重復(fù),并是一個獨(dú)立變量。技術(shù)重復(fù)本質(zhì)上是對同一份樣品進(jìn)行測定,數(shù)據(jù)在這種情況下的變異,完全是由于人為或機(jī)器造成的,而cell重復(fù)在本質(zhì)上可以認(rèn)為與animal樣品之間存在相關(guān)性,因此也不是獨(dú)立的。
3、從的角度,來選擇replicate
【標(biāo)注】越小,代表對
估計越準(zhǔn)確

可以看到的是,當(dāng)增大animal重復(fù)數(shù)時,趨于一個穩(wěn)定值,該樣本對總體的估計達(dá)到了一個較為準(zhǔn)確的水平,同時
的值也接近于0。
4、從統(tǒng)計檢驗的角度,來選擇replicate
使用two-sample t檢驗,來判斷cell樣品的gene表達(dá)量方差、動物樣品表達(dá)量均值之間是否存在顯著差異。
下圖很明顯的一個結(jié)果就是,隨著的增加,統(tǒng)計檢驗的效能得到提升,假陽性也在降低(同時也得權(quán)衡
和
)

總結(jié)
對于一組數(shù)據(jù)來說,研究對象的生物重復(fù)比技術(shù)重復(fù)更能夠反映總體,因此在進(jìn)行實驗設(shè)計時,最好將實驗/測序資源傾向這邊,而不是技術(shù)重復(fù)(除非對技術(shù)重復(fù)所誘發(fā)的影響感興趣)
參考資料
[1] 劉小樂老師-哈佛計算生物學(xué)與生物信息學(xué)
[2] Blainey P, Krzywinski M, Altman N. Points of significance: replication[J]. Nature methods, 2014, 11(9): 879.