淺探富集分析中的超幾何分布

當(dāng)我們從測序數(shù)據(jù)中得到了一系列的基因后,我們需要研究這些基因都屬于那些通路,那些通路是跟我們研究課題相關(guān)的。為了解決這一問題,最常用的做法就是做通路注釋然后做通路富集分析,看看我們得到的基因都分布在哪些通路。
超幾何分布是富集分析的常用方法,常用的GO富集分析都是用超幾何分布計(jì)算的。下面將淺顯的探討一下超幾何分布的原理。

1、超幾何分布

超幾何分布是一種非常常見的分布,常用來表示在N個(gè)物品中有指定商品M個(gè),不放回抽取n個(gè),抽中指定商品的個(gè)數(shù),即X~H(N,n,M),則抽中k件M商品的概率為:
image.png

在這里我們做一個(gè)簡單的概念轉(zhuǎn)換即可知道軟件是如何做GO富集分析的:

  1. N為GO注釋數(shù)據(jù)庫中的總基因數(shù);
  2. M為數(shù)據(jù)庫中屬于某個(gè)GO子類的基因數(shù);
  3. n為我們得到的需要進(jìn)行GO富集分析的基因的總數(shù)目4;
  4. k為n中屬于M的數(shù)目。

因此我們就可以計(jì)算基因集n是否在M類中富集的概率。
但是知道這個(gè)概率后并不能直接用來作為富集分析的結(jié)果,必須要對(duì)其進(jìn)行一個(gè)評(píng)估,因?yàn)槲覀儽仨氁紤]到隨機(jī)情況,如果隨機(jī)從N中抽取n個(gè)基因,其中k個(gè)在M中的概率很高的話,那我們富集得到的通路意義就是極小的。這時(shí)候我們引入p值對(duì)富集分析的概率結(jié)果進(jìn)行分析。

2、p-value檢驗(yàn)

P值就是當(dāng)原假設(shè)為真時(shí)所得到的樣本觀察結(jié)果或更極端結(jié)果出現(xiàn)的概率。如果P值很小,說明這種情況的發(fā)生的概率很小,而如果出現(xiàn)了,根據(jù)小概率原理,我們就有理由拒絕原假設(shè),P值越小,我們拒絕原假設(shè)的理由越充分。通俗的講,p值就是指隨機(jī)出現(xiàn)的概率,p值越小說明越不可能隨機(jī)出現(xiàn),也就是說我們得到的結(jié)果越具有顯著性。
總之,P值越小,表明結(jié)果越顯著。但是檢驗(yàn)的結(jié)果究竟是“顯著的”、“中度顯著的”還是“高度顯著的”需要我們自己根據(jù)P值的大小和實(shí)際問題來解決。
在我們的富集分析中,p值是由下面這個(gè)式子計(jì)算得到的:

image.png

上面式子的意思是: 從總N個(gè)基因抽n個(gè)基因, 作為分母,分子是M個(gè)基因有i個(gè)落在通路里,有n-i個(gè)不落在通路里。 p-value是指你觀察到m個(gè)基因落在通路里,比這還要更極端的概率之和,所以i是從m到M。 就是說看到更多的基因落在這個(gè)通路里的所有可能。所以超幾何檢驗(yàn)很方便地 可以給你算一個(gè)p-value,最后得到p-value<0.01或者0.05,你的結(jié)果如果定義p-value<0.05 那就有5%的概率看到是一個(gè)假陽性,這里我們只是在談拿一個(gè)通路來做檢測, KEGG現(xiàn)在大概有360多個(gè)通路,每一個(gè)通路都做一個(gè)超幾何檢驗(yàn),每一次有5%的概率出錯(cuò),一共進(jìn)行360次, 那出錯(cuò)的概率就很會(huì)大很多, 所以怎么評(píng)估最終看到的結(jié)果是真的而不是被誤導(dǎo)的呢? 你就要算一個(gè)叫多假設(shè)檢驗(yàn)的矯正,只要做了多次的statistical test, 就要做多假設(shè)矯正。矯正有多種方法,現(xiàn)在大家用的最多的是FDR校正。

3、FDR校正

FDR矯正的是false discovery rate, 也就是FP/(TP+FP)的期望值,看這個(gè)期望值是多少。 如果這個(gè)期望值小于0.05,大家就認(rèn)為有可能是 一個(gè)真實(shí)的有生物學(xué)意義的結(jié)果。
image.png

參考:
北京大學(xué)公開課——生物信息學(xué): 導(dǎo)論與方法
伯努利分布、二項(xiàng)分布、幾何分布、超幾何分布、泊松分布
說說大家經(jīng)常見到的p值

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容