假設(shè)檢驗(yàn) p-value,F(xiàn)DR,q-value

1、p-value

單個(gè)假設(shè)檢驗(yàn)中主要依靠p值(或統(tǒng)計(jì)量t)做出是否拒絕零假設(shè)H0的決定:p-value和預(yù)先設(shè)定的檢驗(yàn)水準(zhǔn) α 做對(duì)比,如果p-value小于等于α,拒絕原假設(shè),否則不拒絕原假設(shè)。

  • p-value:表征了在原假設(shè)成立的條件下,重復(fù)進(jìn)行當(dāng)前的試驗(yàn),獲得現(xiàn)有統(tǒng)計(jì)量t及其更極端情況的概率。
  • 給定檢驗(yàn)水準(zhǔn) α 時(shí),可得出對(duì)應(yīng)的拒絕域;根據(jù)當(dāng)前試驗(yàn),可以計(jì)算出 p-value 。當(dāng) p-value 越小時(shí),表示此時(shí)試驗(yàn)得到的統(tǒng)計(jì)量t越落在拒絕域。因此基于 p-value 的結(jié)果等價(jià)于基于t值的結(jié)果。因此,p-value 越小,拒絕原假設(shè)的信心越大。
  • 假陽(yáng)性率:false positive rate, FPR.檢驗(yàn)水準(zhǔn)α給出了事先犯I-型錯(cuò)誤的最大概率。

2、多重假設(shè)檢驗(yàn)和總體錯(cuò)誤率

在進(jìn)行多重假設(shè)檢驗(yàn)時(shí),每個(gè)單獨(dú)的假設(shè)都具有其本身的I型錯(cuò)誤。在這種情況下,如果不進(jìn)行任何的控制,犯I-型錯(cuò)誤的概率會(huì)隨著假設(shè)檢驗(yàn)的個(gè)數(shù)而迅速增加。
多重假設(shè)檢驗(yàn)中,廣泛使用的錯(cuò)誤控制指標(biāo)是總體錯(cuò)誤率(family-wise error rate,FWER),即至少出現(xiàn)一次錯(cuò)誤地拒絕真實(shí)H0的可能性;FWER小于等于alpha。而研究者更關(guān)心的是能否盡量多地識(shí)別出差異表達(dá)的基因,并且能夠容忍和允許總的拒絕中發(fā)生少量的錯(cuò)誤識(shí)別,稱(chēng)為錯(cuò)誤發(fā)現(xiàn)false discovery。即需要在錯(cuò)誤發(fā)現(xiàn)和總的拒絕次數(shù)R之間尋找一種平衡,即在檢驗(yàn)出盡可能多的候選變量的同時(shí)將錯(cuò)誤發(fā)現(xiàn)率控制在一個(gè)可以接受的范圍。

  • 錯(cuò)誤發(fā)現(xiàn)率(False Discovery Rate,FDR),表示了在所有R次拒絕中錯(cuò)誤發(fā)現(xiàn)的期望比例。錯(cuò)誤發(fā)現(xiàn)率和假陽(yáng)性率之間有著本質(zhì)的差別。錯(cuò)誤發(fā)現(xiàn)率將范圍限定在總的拒絕次數(shù)中;而假陽(yáng)性率則針對(duì)所有變量數(shù)而言。
    給定FDR的控制水平α,多重假設(shè)檢驗(yàn)次數(shù)M,通過(guò)求得拒絕H0的次數(shù)N,可得出多重檢驗(yàn)M次中,有多少次是被錯(cuò)誤識(shí)別的(=α * N)。Benjamini和Hochberg給出了一個(gè)基于p-value的逐步向下控制程序,用于求出拒絕H0的次數(shù)N的值。并且證明在BH控制下,F(xiàn)DR 小于等于 α。

3、FDR校正后的p-value,即q-value

  • 用FDR錯(cuò)誤控制法對(duì)p-value作多重假設(shè)檢驗(yàn)校正

FDR錯(cuò)誤控制法是Benjamini于1995年提出一種方法,通過(guò)控制FDR(False Discovery Rate)來(lái)決定P值的域值. 假設(shè)你挑選了R個(gè)差異表達(dá)的基因,其中有S個(gè)是真正有差異表達(dá)的,另外有V個(gè)其實(shí)是沒(méi)有差異表達(dá)的,是假陽(yáng)性的。實(shí)踐中希望錯(cuò)誤比例Q=V/R平均而言不 能超過(guò)某個(gè)預(yù)先設(shè)定的值(比如0.05),在統(tǒng)計(jì)學(xué)上,這也就等價(jià)于控制FDR不能超過(guò)5%.

對(duì)所有候選基因的p值進(jìn)行從小到大排序,則若想控制fdr不能超過(guò)q,則只需找到最大的正整數(shù)i,使得 p(i)<= (i*q)/m.然后,挑選對(duì)應(yīng)p(1),p(2),...,p(i)的基因做為差異表達(dá)基因,這樣就能從統(tǒng)計(jì)學(xué)上保證fdr不超過(guò)q。
因此,F(xiàn)DR的計(jì)算公式如下:

q-value(i)=p(i)*length(p)/rank(p)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀(guān)點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容