正在做GO和KEGG,感覺(jué)之前理解的不夠透徹.. 現(xiàn)在把自己理解的整理一下
理論基礎(chǔ):超幾何分布
超幾何分布理解:從一個(gè)箱子里不放回的取球,取到某種顏色球的概率。
超幾何分布記作X~H(n,M,N)

超幾何分布在R中的命令
#100個(gè)白球400個(gè)紅球,取50次,取到10個(gè)白球的概率
dhyper(10,100,400,50,log=FALSE)
0.1474
#100個(gè)白球400個(gè)紅球,取50次,取到小于等于10個(gè)白球的概率
phyper(10,100,400,50)
0.5851
R中help文檔中的描述,做quantile function的時(shí)候
Description
Density, distribution function, quantile function and random generation for the hypergeometric distribution.
Usage
dhyper(x, m, n, k, log = FALSE)
phyper(q, m, n, k, lower.tail = TRUE, log.p = FALSE)
qhyper(p, m, n, k, lower.tail = TRUE, log.p = FALSE)
rhyper(nn, m, n, k)
關(guān)于GO和富集的一點(diǎn)理解:
- GO terms是對(duì)基因的產(chǎn)物進(jìn)行描述,而不是基因本身進(jìn)行描述,因?yàn)榛虮旧淼漠a(chǎn)物有時(shí)候不止一種。
- GO注釋(GO annotations)庫(kù),它主要是為GO terms提供注釋,也就是描述這個(gè)GO terms有什么功能(例如某些基因的產(chǎn)物是什么,是蛋白質(zhì),還是非編碼RNA,還是大分子等)。
-
GO富集分析主要關(guān)注兩點(diǎn):前景基因和背景基因。
比如,這是goatools的結(jié)果:
goEnrichment.png
ratio_in_study(110/220) 即前景基因的情況,研究的220個(gè)基因(差異基因分析所得或其他)中有110個(gè)落在該GO term上;
ratio_in_pop(3167/19230) 即背景基因的情況,該個(gè)體中所有的表達(dá)基因,即19230個(gè)基因,落在該GO term中的基因數(shù)為3167;
P值即是這個(gè)兩個(gè)比值的顯著性差異,通過(guò)超幾何分布計(jì)算概率所得:即 一個(gè)個(gè)體內(nèi),有3167個(gè)基因落在該GO term上,不在該GO term上的基因數(shù)為19230-3167個(gè),從中取220個(gè)基因,落在該GO的基因數(shù)為110個(gè)的概率。
富集方法及GO term的查詢
python /.../goatools/scripts/find_enrichment.py <fg.genelist> <bg.genelist> <association_file> --outfile <outfile> --obo /../go-basic_20180701.obo --pval 0.05
說(shuō)明:
- fg.genelist和bg.genelist就是研究的前景和背景基因文件,每行一個(gè)基因名
- association文件即每個(gè)基因?qū)?yīng)的GO號(hào),兩列,第一列為基因名第二列為GO號(hào)
-
obo: 官網(wǎng)下載的GO信息文件,大概情況如下:
圖片.png
4.ClusterProfiler
R包,很有名了,隨便搜搜都是參考信息啊,簡(jiǎn)單說(shuō)一下,就是bitr這個(gè)方法轉(zhuǎn)化基因ID,然后用enrichGO和enrichKEGG進(jìn)行分析就ok了。
簡(jiǎn)書(shū)
既然講到轉(zhuǎn)化基因ID,那就講講基因ID的那些事吧:

HGNC:11998
淺談entrezID
常用數(shù)據(jù)庫(kù) ID
關(guān)于GO term的理解:
namespace:biological_process
namespace在GO中共有三種BP(biological_process)、MF(molecular_function)、CC(cellular_component)
摘自讀研筆記:
細(xì)胞組成(cellular component,CC):一般用來(lái)描述基因產(chǎn)物的發(fā)揮作用的位置,比如一個(gè)蛋白可能定位在細(xì)胞核中,也可能定位在核糖體中;
生物過(guò)程(biological process,BP):描述的是指基因產(chǎn)物所聯(lián)系的一個(gè)大的生物功能,或者說(shuō)是它們要完成的一個(gè)大的生物目標(biāo),例如有絲分裂或嘌呤代謝;
分子功能(Molecular Function,MF):主要是指基因產(chǎn)物分子所執(zhí)行的任務(wù),例如一個(gè)蛋白質(zhì)可能一個(gè)轉(zhuǎn)錄因子或是一個(gè)載體蛋白。
在一個(gè)GO注釋中,例如,一個(gè)基因的產(chǎn)物是細(xì)胞色素c(cytochrome c),那么這個(gè)基因的產(chǎn)物就會(huì)被一個(gè)分子功能術(shù)語(yǔ)(Molecular Function)描述為氧化還原酶活性(oxidoreductase activity ),被生物過(guò)程(Biological Process)描述為氧化磷酸化(oxidative phosphorylation),被細(xì)胞成分(Cellular Component )描述為線性體基質(zhì)(mitochondrial matrix)和線粒體內(nèi)膜(mitochondrial inner membrane)。
alt_id: GO:0008372 同一個(gè)GO term
剩下就是關(guān)系'is_a','part_of','regulates'等等


