【一文讀懂生物學(xué)重復(fù)與技術(shù)重復(fù)】

在RNA-Seq等測序設(shè)計中,生物學(xué)重復(fù)和技術(shù)重復(fù),是非常需要注意的問題。

那么問題就來了,生物學(xué)重復(fù)和技術(shù)重復(fù),到底是什么?它們是如何影響我們的實驗設(shè)計的。

生物學(xué)重復(fù)(biological replicate):可以理解為我們對一個群體進(jìn)行研究,但是我們不會對整個群體進(jìn)行檢測(考慮到成本和工作量的問題,我們肯定也不會采取這種地毯式的方法),只是抽取群體中的一部分進(jìn)行檢測,用樣本來代表總體。

這邊樣本個數(shù),實際上就是生物學(xué)重復(fù)數(shù)。

技術(shù)重復(fù)(technical replicate):對一個樣本的數(shù)值進(jìn)行多次測定。

下表給出常見實驗對應(yīng)重復(fù)類型:

image.png

實例

Replication這篇文章以測定小鼠肝臟細(xì)胞中的某一個gene的表達(dá)量為例,展示了什么是生物學(xué)重復(fù)和技術(shù)重復(fù)以及如何權(quán)衡這兩者之間的關(guān)系。

分別給出3種類型的重復(fù),分別為:
(1)animal水平的重復(fù)
(2)cell水平的重復(fù)
(3)技術(shù)重復(fù)

image.png

由上圖可以得到,3種不同種類的重復(fù),所計算出來的表達(dá)量方差是不一樣的,但gene表達(dá)量的總方差,可以有下列公式計算得到:

σ_{TOT}^2 = σ_{A}^2 + σ_{C}^2 + σ_{M}^2

接下來,將總體的重復(fù)次數(shù)限定,即在滿足n_{A}*n_{C}*n_{M}=48的前提條件下,對Var(X)進(jìn)行計算。

n_{A}代表動物樣本數(shù),n_{C}代表細(xì)胞樣品數(shù),n_{M}代表技術(shù)重復(fù)次數(shù),Var(X)是基因表達(dá)量誤差

Var(\overline{X})Var(X)的變式,含義是the precision in the expression mean,計算公式為\frac{σ_{A}^2}{n_{A}} + \frac{σ_{C}^2}{n_{A}n_{C}} + \frac{σ_{M}^2}{n_{A}n_{C}n_{M}}

1、當(dāng)n_{A}n_{M}均為1,n_{C}為48的情況下,計算出來的Var(X)如下圖標(biāo)記:

image.png

這種情況下,只反映了由于cell樣品重復(fù)和技術(shù)重復(fù)所引起的基因表達(dá)量誤差。當(dāng)n_{A}=1(動物樣品數(shù)為1),即無法計算由于animal樣品數(shù)變化,所帶來的基因表達(dá)量誤差。

因此在上述情況下,σ_{TOT}^2(Var(X))就被低估了。

2、當(dāng)n_{A}n_{C}均為1,n_{M}為48的情況下

計算得到的基因表達(dá)量誤差完全是由于技術(shù)重復(fù)所引起的。因此,如果我們將這種情況下的誤差,認(rèn)定為由生物重復(fù)所引起的,就造成了假陽性。

作者在文章中,還指出了非常重要的一點:雖然增加技術(shù)重復(fù),可以讓我們對σ_{M}^2有一個更準(zhǔn)確的估計,但是沒必要。因為提升動物樣品數(shù),可以使σ_{M}^2可忽略不計(以Var(\overline{X}))。

同時,需要注意的是,將是樣品放入同一批次進(jìn)行測序,減少批次效應(yīng)對數(shù)據(jù)的影響。

同樣地,每一種重復(fù)對于真實基因表達(dá)量的方差貢獻(xiàn)也不是相同的。

因為cell重復(fù)和測定技術(shù)重復(fù),并是一個獨(dú)立變量。技術(shù)重復(fù)本質(zhì)上是對同一份樣品進(jìn)行測定,數(shù)據(jù)在這種情況下的變異,完全是由于人為或機(jī)器造成的,而cell重復(fù)在本質(zhì)上可以認(rèn)為與animal樣品之間存在相關(guān)性,因此也不是獨(dú)立的。

3、從Var(\overline{X})的角度,來選擇replicate

【標(biāo)注】Var(\overline{X})越小,代表對Var(X)估計越準(zhǔn)確

image.png

可以看到的是,當(dāng)增大animal重復(fù)數(shù)時,Var(X)趨于一個穩(wěn)定值,該樣本對總體的估計達(dá)到了一個較為準(zhǔn)確的水平,同時Var(\overline{X})的值也接近于0。

4、從統(tǒng)計檢驗的角度,來選擇replicate

使用two-sample t檢驗,來判斷cell樣品的gene表達(dá)量方差、動物樣品表達(dá)量均值之間是否存在顯著差異。

下圖很明顯的一個結(jié)果就是,隨著n_{A}的增加,統(tǒng)計檢驗的效能得到提升,假陽性也在降低(同時也得權(quán)衡n_{A}n_{B}

總結(jié)

對于一組數(shù)據(jù)來說,研究對象的生物重復(fù)比技術(shù)重復(fù)更能夠反映總體,因此在進(jìn)行實驗設(shè)計時,最好將實驗/測序資源傾向這邊,而不是技術(shù)重復(fù)(除非對技術(shù)重復(fù)所誘發(fā)的影響感興趣)

參考資料

[1] 劉小樂老師-哈佛計算生物學(xué)與生物信息學(xué)
[2] Blainey P, Krzywinski M, Altman N. Points of significance: replication[J]. Nature methods, 2014, 11(9): 879.

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容