統(tǒng)計 | 富集分析與超幾何分布

1. 隨機抽樣和超幾何分布

1.1 考慮

6醫(yī)生和19護士參加會議。25個名字在帽子里,隨機抽5個名字。
抽到4個醫(yī)生和1護士的概率多少?

  1. 如果每次抽取后將紙條放回:則概率分布符合二項分布(binomial distribution)

  2. 如果不放回:概率分布符合超幾何分布。


    image.png
  3. 如果與樣本相比總體的數(shù)目很大,比如1000抽取10,因為不放回對后續(xù)抽取概率影響很小,概率分布也近似于二項分布。


    image.png

1.2 不放回隨機抽樣

  1. 不放回抽取n個樣品??傮w包含a個成功個體和N-a個失敗個體
  2. X表示樣品中成功個體數(shù)目


    image.png

2. GO富集分析

比如要研究某gene list在CC類(cellular components)某term的富集顯著性。
CC為前提條件,為整個總體。成功條件為注釋到某個term。

1.Clusterprofiler

GeneRatio
分母 樣本在CC中注釋到多少基因
分子 樣本中多少基因注釋到CC中這個小term
BgRatio
分母 bgground(一般為某個物種)在CC中多少基因
分子 bgground在CC這個小類注釋到多少基因

2.phyper

  1. 參數(shù)
    phyper(q, m, n, k, lower.tail = TRUE, log.p = FALSE)
    結(jié)果為抽取樣本k,得到q個成功個體的概率
    q 樣本成功個體: 注釋到某term的gene總數(shù)
    m 總體成功個體:該物種注釋到某term
    n 總體失敗個體:該物種注釋到CC的總數(shù)-某term的數(shù)目
    k 樣本總數(shù):注釋到CC的gene總數(shù)

  2. 那么p value如何計算呢:
    p value概念:n個樣本,觀察到正好x個成功個體或大于x個的概率
    p value = P(Observed x or more) = 1-P(Observed less than x) = 1 - phyper(q-1,m,n,k)

3.舉例

background frequency:整個background set的gene被注釋到某個GO term的數(shù)目
sample frequency:input gene list中被注釋到某個GO term的數(shù)目

比如:
input list有10個gene。
研究S.cerevisiae的BP中term:DNA repair的富集,背景set含6442 genes,input list有5個gene被注釋到DNA repair,
S.cerevisize物種中,有100genes被注釋到DNA repair。
那么----------
sample frequency: 5/10
background frequency:100/6442

4.p值修正

p-adj:修正p值的多種方式
Bonferroni correction (“bonferroni”)
Holm (“holm”)
Hochberg (“hochberg”)
Hommel (“hommel”)
Benjamini & Hochberg (“BH”)
Benjamini & Yekutieli (“BY”)

5.background

enrich DO:
默認是所有有annotation的gene
universe參數(shù)可以設(shè)定backgroud

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容