1. 隨機抽樣和超幾何分布
1.1 考慮
6醫(yī)生和19護士參加會議。25個名字在帽子里,隨機抽5個名字。
抽到4個醫(yī)生和1護士的概率多少?
如果每次抽取后將紙條放回:則概率分布符合二項分布(binomial distribution)
-
如果不放回:概率分布符合超幾何分布。
image.png -
如果與樣本相比總體的數(shù)目很大,比如1000抽取10,因為不放回對后續(xù)抽取概率影響很小,概率分布也近似于二項分布。
image.png
1.2 不放回隨機抽樣
- 不放回抽取n個樣品??傮w包含a個成功個體和N-a個失敗個體
-
X表示樣品中成功個體數(shù)目
image.png
2. GO富集分析
比如要研究某gene list在CC類(cellular components)某term的富集顯著性。
CC為前提條件,為整個總體。成功條件為注釋到某個term。
1.Clusterprofiler
GeneRatio
分母 樣本在CC中注釋到多少基因
分子 樣本中多少基因注釋到CC中這個小term
BgRatio
分母 bgground(一般為某個物種)在CC中多少基因
分子 bgground在CC這個小類注釋到多少基因
2.phyper
參數(shù)
phyper(q, m, n, k, lower.tail = TRUE, log.p = FALSE)
結(jié)果為抽取樣本k,得到q個成功個體的概率
q 樣本成功個體: 注釋到某term的gene總數(shù)
m 總體成功個體:該物種注釋到某term
n 總體失敗個體:該物種注釋到CC的總數(shù)-某term的數(shù)目
k 樣本總數(shù):注釋到CC的gene總數(shù)那么p value如何計算呢:
p value概念:n個樣本,觀察到正好x個成功個體或大于x個的概率
p value = P(Observed x or more) = 1-P(Observed less than x) = 1 - phyper(q-1,m,n,k)
3.舉例
background frequency:整個background set的gene被注釋到某個GO term的數(shù)目
sample frequency:input gene list中被注釋到某個GO term的數(shù)目
比如:
input list有10個gene。
研究S.cerevisiae的BP中term:DNA repair的富集,背景set含6442 genes,input list有5個gene被注釋到DNA repair,
S.cerevisize物種中,有100genes被注釋到DNA repair。
那么----------
sample frequency: 5/10
background frequency:100/6442
4.p值修正
p-adj:修正p值的多種方式
Bonferroni correction (“bonferroni”)
Holm (“holm”)
Hochberg (“hochberg”)
Hommel (“hommel”)
Benjamini & Hochberg (“BH”)
Benjamini & Yekutieli (“BY”)
5.background
enrich DO:
默認是所有有annotation的gene
universe參數(shù)可以設(shè)定backgroud
