[數(shù)據(jù)庫(kù)] GO注釋學(xué)習(xí)

正在做GO和KEGG,感覺(jué)之前理解的不夠透徹.. 現(xiàn)在把自己理解的整理一下

理論基礎(chǔ):超幾何分布

超幾何分布理解:從一個(gè)箱子里不放回的取球,取到某種顏色球的概率。

超幾何分布記作X~H(n,M,N)

百度:超幾何分布

image.png

超幾何分布在R中的命令

#100個(gè)白球400個(gè)紅球,取50次,取到10個(gè)白球的概率
dhyper(10,100,400,50,log=FALSE)
0.1474
#100個(gè)白球400個(gè)紅球,取50次,取到小于等于10個(gè)白球的概率
phyper(10,100,400,50)
0.5851

R中help文檔中的描述,做quantile function的時(shí)候

Description
Density, distribution function, quantile function and random generation for the hypergeometric distribution.
Usage
dhyper(x, m, n, k, log = FALSE)
phyper(q, m, n, k, lower.tail = TRUE, log.p = FALSE)
qhyper(p, m, n, k, lower.tail = TRUE, log.p = FALSE)
rhyper(nn, m, n, k)

關(guān)于GO和富集的一點(diǎn)理解:

  1. GO terms是對(duì)基因的產(chǎn)物進(jìn)行描述,而不是基因本身進(jìn)行描述,因?yàn)榛虮旧淼漠a(chǎn)物有時(shí)候不止一種。
  2. GO注釋(GO annotations)庫(kù),它主要是為GO terms提供注釋,也就是描述這個(gè)GO terms有什么功能(例如某些基因的產(chǎn)物是什么,是蛋白質(zhì),還是非編碼RNA,還是大分子等)。
  3. GO富集分析主要關(guān)注兩點(diǎn):前景基因和背景基因。
    比如,這是goatools的結(jié)果:


    goEnrichment.png

ratio_in_study(110/220) 即前景基因的情況,研究的220個(gè)基因(差異基因分析所得或其他)中有110個(gè)落在該GO term上;
ratio_in_pop(3167/19230) 即背景基因的情況,該個(gè)體中所有的表達(dá)基因,即19230個(gè)基因,落在該GO term中的基因數(shù)為3167;

P值即是這個(gè)兩個(gè)比值的顯著性差異,通過(guò)超幾何分布計(jì)算概率所得:即 一個(gè)個(gè)體內(nèi),有3167個(gè)基因落在該GO term上,不在該GO term上的基因數(shù)為19230-3167個(gè),從中取220個(gè)基因,落在該GO的基因數(shù)為110個(gè)的概率。

富集方法及GO term的查詢

  1. AmiGO
    官網(wǎng)的樣子:

    圖片.png

    這個(gè)網(wǎng)站好像也可以做GO TERM 富集

  2. DAVID

  3. goatools
    命令:

python /.../goatools/scripts/find_enrichment.py <fg.genelist> <bg.genelist> <association_file> --outfile <outfile> --obo /../go-basic_20180701.obo --pval 0.05

說(shuō)明:

  1. fg.genelist和bg.genelist就是研究的前景和背景基因文件,每行一個(gè)基因名
  2. association文件即每個(gè)基因?qū)?yīng)的GO號(hào),兩列,第一列為基因名第二列為GO號(hào)
  3. obo: 官網(wǎng)下載的GO信息文件,大概情況如下:


    圖片.png

4.ClusterProfiler
R包,很有名了,隨便搜搜都是參考信息啊,簡(jiǎn)單說(shuō)一下,就是bitr這個(gè)方法轉(zhuǎn)化基因ID,然后用enrichGO和enrichKEGG進(jìn)行分析就ok了。
簡(jiǎn)書(shū)

既然講到轉(zhuǎn)化基因ID,那就講講基因ID的那些事吧:

TP53.png

HGNC:11998
淺談entrezID
常用數(shù)據(jù)庫(kù) ID

關(guān)于GO term的理解:

namespace:biological_process
namespace在GO中共有三種BP(biological_process)、MF(molecular_function)、CC(cellular_component)

摘自讀研筆記:

細(xì)胞組成(cellular component,CC):一般用來(lái)描述基因產(chǎn)物的發(fā)揮作用的位置,比如一個(gè)蛋白可能定位在細(xì)胞核中,也可能定位在核糖體中;
生物過(guò)程(biological process,BP):描述的是指基因產(chǎn)物所聯(lián)系的一個(gè)大的生物功能,或者說(shuō)是它們要完成的一個(gè)大的生物目標(biāo),例如有絲分裂或嘌呤代謝;
分子功能(Molecular Function,MF):主要是指基因產(chǎn)物分子所執(zhí)行的任務(wù),例如一個(gè)蛋白質(zhì)可能一個(gè)轉(zhuǎn)錄因子或是一個(gè)載體蛋白。
在一個(gè)GO注釋中,例如,一個(gè)基因的產(chǎn)物是細(xì)胞色素c(cytochrome c),那么這個(gè)基因的產(chǎn)物就會(huì)被一個(gè)分子功能術(shù)語(yǔ)(Molecular Function)描述為氧化還原酶活性(oxidoreductase activity ),被生物過(guò)程(Biological Process)描述為氧化磷酸化(oxidative phosphorylation),被細(xì)胞成分(Cellular Component )描述為線性體基質(zhì)(mitochondrial matrix)和線粒體內(nèi)膜(mitochondrial inner membrane)。

alt_id: GO:0008372 同一個(gè)GO term
剩下就是關(guān)系'is_a','part_of','regulates'等等

參考資料:

讀研筆記:GO分析學(xué)習(xí)筆記

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 劉小澤寫(xiě)于18.9.7各行各業(yè)數(shù)據(jù)呈爆炸式增長(zhǎng),大量的數(shù)據(jù)等待被處理,R語(yǔ)言就是一個(gè)利器,可以說(shuō)是做數(shù)據(jù)分析必備的...
    劉小澤閱讀 1,764評(píng)論 1 8
  • 記錄跟差異基因分析相關(guān)的幾個(gè)概念,主要摘自《R與Bioconductor》一書(shū)。 基因表達(dá)差異的顯著性分析 簡(jiǎn)稱表...
    王詩(shī)翔閱讀 15,992評(píng)論 6 25
  • 我們統(tǒng)一選擇p<0.05而且abs(logFC)大于1的基因?yàn)轱@著差異表達(dá)基因集,對(duì)這個(gè)基因集用R包做KEGG/G...
    xuzhougeng閱讀 26,708評(píng)論 11 86
  • topGO手冊(cè)中的實(shí)例實(shí)現(xiàn) 手冊(cè)地址:http://bioconductor.uib.no/2.7/bioc/vi...
    x2yline閱讀 16,216評(píng)論 1 32
  • 雪一直下個(gè)不停,屋里的人看到這個(gè)情景都陰著臉。都不敢說(shuō)話好像這個(gè)雪是"不祥征兆"。過(guò)了好半天,張三說(shuō)了話:咱...
    夏曦若涵閱讀 804評(píng)論 1 1

友情鏈接更多精彩內(nèi)容