批次效應(yīng)定義
我們引用文獻(xiàn)里面的原文:
Tackling the widespread and critical impact of batch effects in high-throughput data
Batch effects are sub-groups of measurements that have qualitatively different behaviour across conditions and are unrelated to the biological or scientific variables in a study. For example, batch effects may occur if a subset of experiments was run on Monday and another set on Tuesday, if two technicians were responsible for different subsets of the experiments, or if two different lots of reagents, chips or instruments were used
這段話闡述了產(chǎn)生批次效應(yīng)的三個(gè)方面:
1.同一個(gè)實(shí)驗(yàn)在不同時(shí)間完成
2.同一個(gè)實(shí)驗(yàn)又不同實(shí)驗(yàn)員完成
3.同一個(gè)實(shí)驗(yàn)所用的試劑,器皿等不一樣或是數(shù)據(jù)來源不同
或是根據(jù)劉小樂教師給出的定義:
Betch effect: Non-biological variation
1.Make samples not directly comparable
Caused by differences:
1.Different day / months of the experiments
2.Different reagents(enzymes,buffers)
3.Different mice(from different companies)
4.Different sequencers
5.Lab protocol or experimenter
數(shù)據(jù)的構(gòu)成
一般性的測序數(shù)據(jù)構(gòu)成如下:

由基礎(chǔ)表達(dá)量加上treatment與control對比的差異加上隨機(jī)變量構(gòu)成
如果該數(shù)據(jù)具有Batch effect,那么數(shù)據(jù)構(gòu)成為:

可見批次效應(yīng)的影響還是比較大的
如何鑒定批次效應(yīng)
在bulk-seq里面,我們往往很難區(qū)分樣本間的差異是由于生物學(xué)處理所引起的還是批次效應(yīng)所引起的,所以鑒定批次效應(yīng)最好從相同處理或者是相同組織的樣品入手,所以control尤為重要
(1)PCA聚類檢測
如果是RNA-seq的數(shù)據(jù),我們可以利用PCA聚類來檢測(表達(dá)量需要標(biāo)準(zhǔn)化):
如果是沒有批次效應(yīng)的數(shù)據(jù),那么他們的樣品聚類應(yīng)該呈現(xiàn)出的是相同處理或者是相同組織的樣品聚到一類里面,而且相同處理或者相同組織之間的相關(guān)性應(yīng)該比較的高,而不會出現(xiàn)相同處理或者相同組織的樣品過于分散的情況;
如果是有批次效應(yīng)的數(shù)據(jù),那么他們的相同處理或者是相同組織的樣品聚類應(yīng)該比較雜亂無章,并且相同處理或者相同組織之間的相關(guān)性會較低一些
(2)看家基因法
一般來說,對于相同處理或者是相同組織的樣品的看家基因的表達(dá)量是比較穩(wěn)定的,常常會被拿做內(nèi)參基因作為對照,那么理論上相同處理或者相同組織之間看家基因在同一時(shí)期的表達(dá)量應(yīng)當(dāng)是大致相同的,我們可以選取若干看家基因來做鑒定,看看他們之間的表達(dá)量是否存在巨大的差異,如果有,那么很可能是存在著批次效應(yīng)
(3)整體 / 局部表達(dá)譜
對于相同的處理或者相同的組織,各個(gè)生物學(xué)重復(fù)之間的表達(dá)模式應(yīng)該是相似的,我們可以在相同的處理或者相同的組織的各個(gè)生物學(xué)重復(fù)中利用全部的基因或者挑選局部若干個(gè)基因的表達(dá)量來看,看看各個(gè)重復(fù)之間是否存在巨大的差異
如何消除批次效應(yīng)
對于表達(dá)數(shù)據(jù)來說,可以利用R包bladder batch,ComBat,sva,ber,RUVSeq 和 BatchQC 來檢測
還有就是LIMMA的 removeBatchEffect() 函數(shù)來去除(可以參考相應(yīng)包的說明文檔)
bladder batch:bladder batch
ComBat:ComBat
sva:sva
ber:貌似下架了
RUVSeq:RUVSeq
BatchQC :BatchQC
LIMMA:LIMMA
這些軟件的基本思想就是扣除協(xié)變量(批次效應(yīng))的影響
簡單來說,對于表達(dá)矩陣來說:

1.Yi,j 表示第 j 個(gè)樣品第 i 個(gè)基因的表達(dá)量
2.μi 表示第 i 個(gè)基因在各個(gè)樣品間表達(dá)量的均值
3.εi,j 表示第 i 個(gè)基因在各個(gè)樣品間表達(dá)量與均值的差異,比方說第2個(gè)樣品的第1個(gè)基因可表示為: Y1,2 = μ1 + ε1,2
那么包含批次效應(yīng):

1.Yi,j 表示第 j 個(gè)樣品第 i 個(gè)基因的表達(dá)量
2.μi 表示第 i 個(gè)基因在各個(gè)樣品間表達(dá)量的均值
3.rj 表示第 j 個(gè)樣品存在的批次效應(yīng)
4.εi,j 表示第 i 個(gè)基因在各個(gè)樣品間表達(dá)量與均值的差異,比方說第2個(gè)樣品的第1個(gè)基因可表示為: Y1,2 = μ1 + r2 + ε1,2
那么軟件所要檢測的既是rj,并且扣除協(xié)變量(批次效應(yīng)) rj 的影響