生物重復(fù)和技術(shù)重復(fù)分別是什么?在一個實驗中應(yīng)該如何安排生物重復(fù)和技術(shù)重復(fù)?
重復(fù)是實驗設(shè)計的重要原則之一,實驗重復(fù)無論對于實驗結(jié)果的可重復(fù)性,還是對于最終實驗結(jié)論的可靠性,都起著起決定性的作用。
實驗重復(fù)還可以進一步細分為生物重復(fù)(biological replicates)和技術(shù)重復(fù)(technical replicates),那么生物重復(fù)和技術(shù)重復(fù)分別是什么?在一個實驗中應(yīng)該如何安排生物重復(fù)和技術(shù)重復(fù)?
生物重復(fù)和技術(shù)重復(fù)分別是什么?
生物重復(fù):指對同一個處理組中獨立來源的重復(fù)樣本分別進行獨立分析,是整個實驗的完全重復(fù),如將具有同一基因型的多個細胞株進行獨立地測定。由于遺傳和環(huán)境等因素的影響會引起有機體的個體差異,因此需要采用生物重復(fù)的實驗設(shè)計方法來消除該差異。目前都以3次生物學(xué)重復(fù)實驗設(shè)計為主,要求嚴格的實驗可以做5次重復(fù)。
技術(shù)重復(fù):指對同一樣本進行重復(fù)地檢測分析,例如同一份細胞中抽提的蛋白質(zhì)進行三次質(zhì)譜檢測,或者對同一RNA-seq樣本測序3次。與生物學(xué)重復(fù)相比,技術(shù)重復(fù)的測量變異程度較小,從而可以減少實驗中的分析變異,將對同一份樣本產(chǎn)生高重復(fù)性的測量結(jié)果 。
簡單來講,生物重復(fù)是生物級別的重復(fù),一般都是生物樣本的重復(fù)。而技術(shù)重復(fù),更多的是參數(shù)測定環(huán)節(jié)的重復(fù),一般是對同一生物樣本進行多次測定。
進一步分析,其實可以發(fā)現(xiàn)生物重復(fù)是衡量實驗的總波動的(處理組間的差異不列入此處的波動,他們應(yīng)該稱為效應(yīng)),它包括樣本個體間差異和技術(shù)重復(fù)差異,而技術(shù)重復(fù)更多的是單純的衡量參數(shù)測量時的波動,如實驗操作嫻熟程度、儀器穩(wěn)定性等等。
在一個實驗中應(yīng)該如何安排生物重復(fù)和技術(shù)重復(fù)?
如此說來,對于一個實驗來說,如果條件允許的話,最好把生物重復(fù)和技術(shù)重復(fù)做全了?
然而StatQuest推薦的策略是只需要生物重復(fù)即可,不需要技術(shù)重復(fù)。為什么?
只做生物重復(fù)
以小鼠的RNA-seq實驗為例,先看一下生物偏差(biological variation)和技術(shù)偏差(technical variation )。
下圖代表小鼠的RNA-seq數(shù)據(jù),虛線μ是總體小鼠的Read Counts,藍色條代表5個樣本小鼠的Read Counts。那那么樣本小鼠的Read和總體μ是存在一定的差異的,我們將5個樣本小鼠的Read取平均:
average = [(μ+5)+(μ-1)+(μ+4)+(μ+2)+(μ-5)] / 5 = μ + (5-1+4+2-5)/5
隨著生物重復(fù)的增多,(5-1+4+2-5)/5會逐漸趨向于0,這個平均數(shù)也會趨近于總體均值μ。
剛才只考慮了生物生物偏差,沒有考慮技術(shù)偏差,下圖中添加了技術(shù)偏差,棕色條為生物偏差,綠色箭頭為技術(shù)偏差,那么此時依然可以取5個樣本小鼠的Read平均:
average = μ + (5-1+4+2-5)/5 + (-2+5+2-2-1)/5
隨著生物重復(fù)的增多,生物偏差(5-1+4+2-5)/5 逐漸趨向于0,技術(shù)偏差也會逐漸趨向于0,這個平均數(shù)也會趨近于總體均值μ。
所以只做生物重復(fù)就可以很好的使用樣本代表總體。
只做技術(shù)重復(fù)
繼續(xù)進行實驗,下圖代表對1#小鼠測定了5次RNA-seq數(shù)據(jù)。那么同樣方法取5個RNA-seq數(shù)據(jù)的平均:
average = μ + 5 + (-2+5+2-2-1)/5
隨著技術(shù)重復(fù)數(shù)的增加,技術(shù)偏差(-2+5+2-2-1)/5會逐漸趨近于0,而這個平均數(shù)會逐漸趨近于μ + 5,永遠也不會等于總體均值μ,因此做再多的技術(shù)重復(fù),最終的RNA-seq數(shù)據(jù)也無法很好的代表總體。
同時做生物重復(fù)和技術(shù)重復(fù)
以下圖為例,1#小鼠做了2個技術(shù)重復(fù),2#小鼠做了3個技術(shù)重復(fù),此時的生物偏差為5、5、-1、-1、-1,而技術(shù)偏差不變(技術(shù)偏差是參數(shù)測定時的偏差,不會因樣本而異,而且因樣本而已的偏差肯定是樣本偏差),所以樣本均值為:
average = μ + (5+5-1-1-1)/5 + (-2+5+2-2-1)/5
隨著樣本量的增加,技術(shù)偏差(-2+5+2-2-1)/5會逐漸趨向于零。
但生物偏差(5+5-1-1-1)/5雖然也會收斂到0,但是此時所需要的樣本量比‘只做生物重復(fù)’時大大增加,也就是說生物偏差的收斂速度變慢了。
這個生物偏差收斂變慢的速度有多慢呢?
假如多了3個技術(shù)重復(fù),那么就需要3倍的樣本量才能抵得上‘只做生物重復(fù)’時的收斂速度。說白了,就是多做的技術(shù)重復(fù)最多不過和‘只做生物重復(fù)’的效果持平而已。
做一下總結(jié):
只做生物重復(fù):最佳的實驗設(shè)計,可以很好的代表總體;
只做技術(shù)重復(fù),沒有生物重復(fù):不要使用這種實驗設(shè)計,永遠只會得到總體的有偏估計。
生物重復(fù)和技術(shù)重復(fù):不推薦做,并不能很好的提高樣本的代表性,要么獲得一個有偏的估計,要么需要更多的樣本。