在淺探富集分析中的超幾何分布中我們談到了通過p值大小來確定富集到的基因的顯著性,但是p值終歸是人定的,我們不能說定下p值以后小于p值得結(jié)果就都是正確的,這里p值小只是代表假陽性概率小,但并非真的就一定是對的。p=0.05意味著我們檢驗(yàn)1次犯錯(cuò)的概率為5%;但是倘若我們檢驗(yàn)次數(shù)多達(dá)10000次,那么犯錯(cuò)的概率將多達(dá)500多次。這里雖然犯錯(cuò)的概率沒變(5%),但是隨著檢驗(yàn)次數(shù)的增多,我們犯錯(cuò)的次數(shù)也實(shí)實(shí)在在的增多了。因此就需要多重檢驗(yàn)校正來減低假陽性的次數(shù)。
1、多重檢驗(yàn)校正方法
1.1 Bonferroni校正
Bonferroni是最簡單嚴(yán)厲的方法,他直接將閾值降到極低來減少假陽性率。例如:同為檢驗(yàn)10000次,閾值為5%時(shí)犯錯(cuò)次數(shù)依然會有多達(dá)500次;然而,當(dāng)我們把閾值提高到5%/10000時(shí),即便檢驗(yàn)10000次,犯錯(cuò)次數(shù)依然不到一次。
Bonferroni校正閾值的公式為:p*(1/n),p為普通的閾值,n為檢驗(yàn)次數(shù)。
雖然,降低閾值能非常直接的減低假陽性概率,但同時(shí)也過于嚴(yán)厲,極有可能將真正的陽性結(jié)果,也即我們想要的結(jié)果也給篩掉了。
1.2 FDR (False Discovery Rate)校正
FDR(False Discovery Rate)用比較溫柔的方法調(diào)整,試圖在假陽性和假陽性間達(dá)到平衡(即,不是不讓假陽性出現(xiàn),只是將假/真陽性比例控制在一定范圍內(nèi))。
FDR的目標(biāo)是試圖得到一個(gè)校正后的閾值,來實(shí)現(xiàn):在發(fā)現(xiàn)的差異結(jié)果中,假陽性控制在極低比例;例如,檢驗(yàn)10000次,無論我們得到多少差異基因,能不能保證其中定性為差異基因結(jié)果中,錯(cuò)誤率在5%以內(nèi)。如果找到差異基因100個(gè),我能做到拍著胸脯說:“假的差異基因不多于5個(gè)”。這就叫FDR< 5%。
有多種模型用來從p-value估算FDR值,其中使用的最多的是Benjaminiand Hochberg的方法,簡稱 BH法。BH法雖然不夠精確,但是簡單好用。
BH 方法的公式為:p*(m/k),其中的p為普通的p-value,m為檢驗(yàn)次數(shù),k為此次檢驗(yàn)的p-value在所有檢驗(yàn)次數(shù)中的排名。例如,檢驗(yàn)了100次(m),則排名為10的Q-value 則為0.03(100/10)=0.3,代表在這前十次檢驗(yàn)中假的差異基因不多于10*0.3個(gè)。
FDR常見的閾值為0.1%,1%,5%等,也可設(shè)置寬松達(dá)25%,表示差異基因結(jié)果中有25%是假的。
BH法只是對FDR的預(yù)估,并非準(zhǔn)確,而且依然過于嚴(yán)格(閾值依然卡的太嚴(yán),假陰性太高)。最有名且精確度更高的是Storey方法。
2、FDR,Q value,adjust p value
p-value:衡量一次檢驗(yàn)假陽性率的指標(biāo)(False positive rate) ;
q value:衡量錯(cuò)誤發(fā)現(xiàn)率的指標(biāo)(False discovery rate,簡稱FDR,所有檢驗(yàn)中假陽性的概率)。即使用Q value的這個(gè)參 數(shù)預(yù)估FDR。Q value 需要利用公式從p value 校正計(jì)算后得到,所以Q value 通常又被稱為adjusted p value。所以一般情況下:我們可以認(rèn)為Q value = FDR = adjusted p value,即三者是一個(gè)東西,雖然有些定義上的細(xì)微區(qū)別,但是問題也不大。