一、p-value相關
0. 單個假設檢驗中主要依靠p值(或統(tǒng)計量t)做出是否拒絕零假設H0的決定:p-value和預先設定的檢驗水準alpha做對比,如果p-value小于等于alpha,拒絕原假設,否則不拒絕原假設。
1.p-value:表征了在原假設成立的條件下,重復進行當前的試驗,獲得現(xiàn)有統(tǒng)計量t及其更極端情況的概率。
2. 給定檢驗水準alpha時,可得出對應的拒絕域;根據(jù)當前試驗,可以計算出p-value。當p-value越小時,表示此時試驗得到的統(tǒng)計量t越落在拒絕域。因此基于p-value的結(jié)果等價于基于t值的結(jié)果。因此,p-value越小,拒絕原假設的信心越大。
3. 假陽性率:false positive rate, FPR.檢驗水準alpha給出了事先犯I-型錯誤的最大概率。
二、多重假設檢驗和總體錯誤率
0. 在進行多重假設檢驗時,每個單獨的假設都具有其本身的I型錯誤。在這種情況下,如果不進行任何的控制,犯I-型錯誤的概率會隨著假設檢驗的個數(shù)而迅速增加。
1. 多重假設檢驗中,廣泛使用的錯誤控制指標是總體錯誤率(family-wise error rate,FWER),即至少出現(xiàn)一次錯誤地拒絕真實H0的可能性;FWER小于等于alpha。而研究者更關心的是能否盡量多地識別出差異表達的基因,并且能夠容忍和允許總的拒絕中發(fā)生少量的錯誤識別,稱為錯誤發(fā)現(xiàn)false discovery。即需要在錯誤發(fā)現(xiàn)和總的拒絕次數(shù)R之間尋找一種平衡,即在檢驗出盡可能多的候選變量的同時將錯誤發(fā)現(xiàn)率控制在一個可以接受的范圍。
2. 錯誤發(fā)現(xiàn)率(False Discovery Rate,FDR),表示了在所有R次拒絕中錯誤發(fā)現(xiàn)的期望比例。錯誤發(fā)現(xiàn)率和假陽性率之間有著本質(zhì)的差別。錯誤發(fā)現(xiàn)率將范圍限定在總的拒絕次數(shù)中;而假陽性率則針對所有變量數(shù)而言。
3. 給定FDR的控制水平alpha,多重假設檢驗次數(shù)M,通過求得拒絕H0的次數(shù)N,可得出多重檢驗M次中,有多少次是被錯誤識別的(=alpha * N)。Benjamini和Hochberg給出了一個基于p-value的逐步向下控制程序,用于求出拒絕H0的次數(shù)N的值。并且證明在BH控制下,F(xiàn)DR 小于等于 alpha。
三、FDR校正后的p-value,即q-value
用FDR錯誤控制法對p-value作多重假設檢驗校正
FDR錯誤控制法是Benjamini于1995年提出一種方法,通過控制FDR(False Discovery Rate)來決定P值的域值. 假設你挑選了R個差異表達的基因,其中有S個是真正有差異表達的,另外有V個其實是沒有差異表達的,是假陽性的。實踐中希望錯誤比例Q=V/R平均而言不 能超過某個預先設定的值(比如0.05),在統(tǒng)計學上,這也就等價于控制FDR不能超過5%.
對所有候選基因的p值進行從小到大排序,則若想控制fdr不能超過q,則只需找到最大的正整數(shù)i,使得 p(i)<= (i*q)/m.然后,挑選對應p(1),p(2),...,p(i)的基因做為差異表達基因,這樣就能從統(tǒng)計學上保證fdr不超過q。 因此,F(xiàn)DR的計算公式如下:
q-value(i)=p(i)*length(p)/rank(p)