什么是富集分析?
當(dāng)我們獲得了一批生物數(shù)據(jù)時(shí),例如轉(zhuǎn)錄組的數(shù)據(jù),蛋白質(zhì)組的數(shù)據(jù),其中必然要做不同樣本之間的差異基因分析這一步,例如空白對(duì)照組與實(shí)驗(yàn)組的差異基因或蛋白分析。在得到差異的基因或蛋白列表后,這個(gè)時(shí)候可能還會(huì)遇到一個(gè)問(wèn)題,差異基因可能有很多,有幾十個(gè)到上百個(gè)不等,如何對(duì)它們進(jìn)行比較呢?這幾十甚至上百差異基因或蛋白如何去呈現(xiàn),這是一個(gè)問(wèn)題,如果直接列張表,把所有的差異基因都放進(jìn)去這樣不合適,因?yàn)椴恢庇^,不方便分析。
此時(shí)我們就需要把這些差異基因進(jìn)行注釋?zhuān)堰@些基因或蛋白分成幾大類(lèi)(一個(gè)類(lèi)別就相當(dāng)于一個(gè)GO term),此時(shí)看這幾大類(lèi)的區(qū)別,肯定比看幾十甚至上百個(gè)基因或蛋白的差異要更加直觀,分析的難度也會(huì)降低,這個(gè)過(guò)程就是富集分析,富集分析屬于差異基因的下游分析,常用的富集分析方法有GO分析,KEGG分析,GSEA分析等。
富集分析涉及到兩個(gè)概念,前景基因和背景基因(不同的教程使用的術(shù)語(yǔ)不一樣,總之看具體的含義)。前景基因就是你關(guān)注的要重點(diǎn)研究的基因集,背景基因就是所有的基因集。比如做兩個(gè)樣本對(duì)照組和處理組的轉(zhuǎn)錄組測(cè)序,前景基因就是對(duì)照組vs處理組的差異基因,背景基因就是這兩組樣本的所有表達(dá)基因。
富集分析的例子
再打個(gè)比方,我想知道與整個(gè)廣東省相比,深圳市的大學(xué)生是不是顯著更多(“大學(xué)生”就相當(dāng)于深圳市民的其中一個(gè)GO term)。那么前景就是深圳市的人口,背景就是廣東省的人口,每個(gè)個(gè)體都會(huì)有一個(gè)標(biāo)簽(如大學(xué)生、中學(xué)生、小學(xué)生等)。 富集的意思就是,某個(gè)GO term在所關(guān)注的前景基因集中占的比例要顯著高于在所有背景基因集中所占的比例。比如上面的例子,深圳市大學(xué)生顯著富集,意思就是深圳市本科畢業(yè)的人口所占深圳市總?cè)丝诘谋壤@著高于廣東省本科畢業(yè)人口在廣東省總?cè)丝谥兴嫉谋壤?,例如我們要?jì)算的就是10%與2%相比是否有顯著性,如下所示:
<figcaption style="margin: 10px 0px 0px; padding: 0px; max-width: 100%; box-sizing: border-box !important; overflow-wrap: break-word !important; line-height: inherit; text-align: center; color: rgb(153, 153, 153); font-size: 0.7em;">mark</figcaption>
這個(gè)顯著性是如何計(jì)算的呢,就是利用超幾何分布來(lái)計(jì)算出來(lái)的。
什么是GO,什么又是GO分析
GO的全稱(chēng)是Gene Ontology,中文意思是基因本體論 。GO的出現(xiàn)主要是源于生物研究的復(fù)雜性以及生物研究規(guī)模的日益擴(kuò)大,為了對(duì)基因的產(chǎn)物進(jìn)行統(tǒng)一的描述,就需要使用當(dāng)前儲(chǔ)備的知識(shí),以計(jì)算機(jī)為工具對(duì)這些生物研究進(jìn)行描述,這就是GO項(xiàng)同出現(xiàn)的背景,GO提供了對(duì)基因功能與基因產(chǎn)物最為全面的描述。GO知識(shí)庫(kù)主要由兩個(gè)內(nèi)容構(gòu)成:
GO terms,它提供生物過(guò)程的邏輯結(jié)構(gòu)與相關(guān)關(guān)系,不同GO terms之間的關(guān)系可以通過(guò)一個(gè)有向無(wú)環(huán)圖來(lái)表示。這是由基因本體聯(lián)合會(huì)(Gene Ontology Consortium,GOC) 負(fù)責(zé)的,GO是一個(gè)國(guó)際標(biāo)準(zhǔn)化的基因功能分類(lèi)體系,提供了一套動(dòng)態(tài)并可控的詞匯表(controlled vocabulary)來(lái)全面描述生物體中基因和基因產(chǎn)物的屬性,它由一組預(yù)先定義好的GO術(shù)語(yǔ)(GO term)組成,這組術(shù)語(yǔ)對(duì)基因產(chǎn)物的功能進(jìn)行限定和描述。此處需要注意的是,GO terms是對(duì)基因的產(chǎn)物,而不是基因本身進(jìn)行描述,因?yàn)榛虮旧淼漠a(chǎn)物有時(shí)候不止一種。GO數(shù)據(jù)庫(kù)中的GO分類(lèi)相關(guān)信息會(huì)得到不斷地更新與增加,這個(gè)特點(diǎn)要記住,因?yàn)椴煌腉O分析工具使用的數(shù)據(jù)庫(kù)版本有可能不一樣,造成GO分析結(jié)果出現(xiàn)不同,例如以前Y叔就寫(xiě)過(guò)這樣的文章《SCIENCE文章用了DAVID被吐槽》。
GO注釋?zhuān)℅O annotations)庫(kù),它主要是為GO terms提供注釋?zhuān)簿褪敲枋鲞@個(gè)GO terms有什么功能(例如某些基因的產(chǎn)物是什么,是蛋白質(zhì),還是非編碼RNA,還是大分子等)。
總之,通過(guò)ontology和注釋能夠?qū)ι锵到y(tǒng)提供一個(gè)廣泛的描述。目前,GO知識(shí)庫(kù)(GO knowledgebase)包含源于14萬(wàn)篇論文中的實(shí)驗(yàn)驗(yàn)證,它代表了60萬(wàn)個(gè)有實(shí)驗(yàn)支持的GO注釋。這些核心知識(shí)庫(kù)中還含有另外600萬(wàn)個(gè)推斷而來(lái)的GO注釋。除了核心知識(shí)庫(kù)外,GOC還提供了能夠編輯并推斷ontology之間邏輯關(guān)系的軟件,分析工具等,GO中的注釋來(lái)源,通用不同的代碼進(jìn)行了區(qū)分,如下所示。
GO中的基因注釋證據(jù)代碼
一個(gè)GO注釋由一個(gè)與GO term相關(guān)的特定參考和基因產(chǎn)物構(gòu)成,GO注釋的來(lái)源各異,下表就說(shuō)明了GO注釋的各種來(lái)源代碼,其中*部分表示證據(jù)來(lái)源可靠性比較高
| 縮寫(xiě) | 證據(jù)代碼 | 例子 |
|---|---|---|
| IC,Inferred by curator | 由專(zhuān)家推測(cè)得到 | 推測(cè)它定位在細(xì)胞核中一個(gè)蛋白質(zhì)如果有“轉(zhuǎn)錄因子”的功能注釋?zhuān)瑢?zhuān)家就可以 |
| *IDA,Inferred from direct assay | 有直接實(shí)驗(yàn)證據(jù) | 如酶活化實(shí)驗(yàn)(針對(duì)“分子功能”),免疫熒光顯微鏡(針對(duì)“細(xì)胞組分”) |
| IEA,Inferred from electronic annotation | 有電子注釋 | 基于像BLAST這些搜索軟件搜索結(jié)果的電子注釋?zhuān)ㄅcISS比較,IEA沒(méi)有被專(zhuān)家證實(shí)) |
| *IEP,Inferred from expression pattern | 有表達(dá)模式方面的證據(jù) | 轉(zhuǎn)錄水平(如Nothern Bloting或微陣列實(shí)驗(yàn)結(jié)果)或蛋白質(zhì)表達(dá)水平(Western blots實(shí)驗(yàn)結(jié)果) |
| *IGI,Inferred from genetic interaction | 有遺傳相互作用方面的證據(jù) | 抑制基因;遺傳致死基因;互補(bǔ)試驗(yàn);還有其他一些可以提供某一基因功能信息的實(shí)驗(yàn) |
| *IMP,Inferred from mutant phenotype | 由突變表型推測(cè)得到 | 基因突變;基因敲出;過(guò)量表達(dá);反義RNA實(shí)驗(yàn) |
| *IPI,Inferred from physical interaction | 由物理相互作用推測(cè)得到 | 酵母雙雜交實(shí)驗(yàn);共純化實(shí)驗(yàn);免疫共沉淀實(shí)驗(yàn);結(jié)合實(shí)驗(yàn) |
| ISS,Inferred from sequence or structural similarity | 由序列或結(jié)構(gòu)的相似性得到 | 序列的相似性;結(jié)構(gòu)域;被專(zhuān)家確認(rèn)的BLAST軟件的搜索結(jié)果 |
| NAS,Non-traceable author statement | 有報(bào)道,但報(bào)道信息來(lái)源不可知 | 數(shù)據(jù)庫(kù)(如SwissPort數(shù)據(jù)庫(kù))登錄條目的記錄中沒(méi)有引用已發(fā)表的文獻(xiàn) |
| ND,No biological data | 沒(méi)有相關(guān)的生物數(shù)據(jù) | 對(duì)應(yīng)于“unknown”的分子功能、細(xì)胞過(guò)程或細(xì)胞組分 |
| TAS,Traceable author statement | 有報(bào)道,且可知報(bào)道信息來(lái)源 | 有一些綜述文章或字典中可以找到相關(guān)信息 |
為什么要做GO分析
GO主要用于解決一些組學(xué)實(shí)驗(yàn)(omics)中大量分子變化的研究問(wèn)題。一個(gè)典型的組學(xué)實(shí)驗(yàn)會(huì)檢測(cè)數(shù)以千計(jì)的分子,因此對(duì)于這些變化的分子進(jìn)行解釋非常困難(例如一個(gè)腫瘤細(xì)胞與一個(gè)正常細(xì)胞之間的差異)。而GO富集分析(GO Enrichment Analysis)就能把這些數(shù)以千計(jì)的分子(例如蛋白質(zhì)或一些非編碼RNA)根據(jù)其功能的相似性放到不同的類(lèi)別中,然后對(duì)它們進(jìn)行分析,這樣就在很大的程度上降低了分析的難度。GO分析比較的就是兩組差異基因,例如實(shí)驗(yàn)組與對(duì)照組的差異基因,存在在某個(gè)通路中的比例是否有差異,其統(tǒng)計(jì)學(xué)基因就是超幾何分布。
GO分析的統(tǒng)計(jì)學(xué)基礎(chǔ)
GO分析的統(tǒng)計(jì)學(xué)基礎(chǔ)就是超幾何分布,超幾何的相關(guān)知識(shí)在筆記的最后,就是對(duì)每個(gè)GO term計(jì)算一個(gè)P值,公式如下所示:
<figcaption style="margin: 10px 0px 0px; padding: 0px; max-width: 100%; box-sizing: border-box !important; overflow-wrap: break-word !important; line-height: inherit; text-align: center; color: rgb(153, 153, 153); font-size: 0.7em;">mark</figcaption>
N表示總基因數(shù);
n表示N中差異表達(dá)基因的總數(shù);
M表示N中屬于某個(gè)GO term的基因個(gè)數(shù);
k表示n中屬于某個(gè)GO term的基因個(gè)數(shù)。
這個(gè)公式表示的意思是,從總的N個(gè)基因中挑出n個(gè)基因,作為分母(這是背景基因),分子則是M個(gè)基因(我們的差異基因,這是前景基因),有k個(gè)落在了某通路里,有n-k個(gè)不落在了某通路里,然后使用超幾何分布來(lái)對(duì)它們進(jìn)行計(jì)算,即前景基因落在某通路的比例是否高于背景基因在這一通路的比例,實(shí)際計(jì)算時(shí),是算的odds ratio的差異。
現(xiàn)在舉個(gè)例子,在GO分析的結(jié)果表格中,會(huì)出現(xiàn)以下信息:
Background Frequency,背景基因頻數(shù),指的是在整個(gè)背景基因集中,注釋到一個(gè)GO term中的基因數(shù)目。
Sample Frequency,樣本基因頻數(shù)(有的也叫前景基因頻數(shù),總之,就是你要研究的一批基因)指的是,在你研究的基因列表中,注釋到這個(gè)GO term(與Background Frequency的GO term相同的這個(gè)GO term)的基因數(shù)目。例如,我們?cè)谘芯酷劸平湍福⊿. cerevisiae)的生物過(guò)程(biological process)時(shí),這個(gè)物種的背景基因是6442個(gè)基因,例如我們要研究的目的基因有10個(gè),其中有5個(gè)基因被注釋到了一個(gè)這樣的GO term上,這個(gè)GO term是:DNA修復(fù)(DNA repair),然后樣本中的DNA修復(fù)的基因頻率就是5/10,如果在釀酒酵母(S. cerevisiae)的整個(gè)基因組中,只有100個(gè)基因注釋到了DNA修復(fù)的這個(gè)GO term上,那么背景基因的頻率就是100/6442。GO分析就是利用超幾何分布(或Fisher精確檢驗(yàn))來(lái)比較一下5/10和100/6442有沒(méi)有統(tǒng)計(jì)學(xué)差異,GO分析結(jié)果的表格中會(huì)列出這個(gè)計(jì)算結(jié)果的P值。
P-value,
GO term的查詢(xún)
瀏覽GO term經(jīng)常有使用到兩個(gè)工具,分別是AmiGO(GO Central )和QuickGO(EBI-GOA )。
AmiGO的GO注釋文件(GAF,GO Annotation File)與基因是1對(duì)1的關(guān)系。QuickGO中的GO注釋文件是GOA(Gene Ontology Annotation),它主要用于注釋蛋白質(zhì),而一個(gè)基因有時(shí)候會(huì)產(chǎn)生有幾個(gè)蛋白質(zhì)(因?yàn)橛挟悩?gòu)體的情況,isoform)。
GO對(duì)基因的描述
一個(gè)GO term的編號(hào)是由兩部分構(gòu)成,第一個(gè)部分相同,都是GO,第二部分是一個(gè)唯一的數(shù)字標(biāo)記,它是以0開(kāi)頭的7位數(shù)字,例如GO:0005125,其中數(shù)字部分并沒(méi)有任何任何生物學(xué)方面的意義,它僅起到一個(gè)標(biāo)記的作用。除了這個(gè)名稱(chēng)外,GO term還有一些文本,來(lái)作用GO term的名稱(chēng),比如 "cell", "fibroblast growth factor receptor binding",或者"signal transduction",如下所示(由AmiGO 2查詢(xún)而來(lái)):
<figcaption style="margin: 10px 0px 0px; padding: 0px; max-width: 100%; box-sizing: border-box !important; overflow-wrap: break-word !important; line-height: inherit; text-align: center; color: rgb(153, 153, 153); font-size: 0.7em;">mark</figcaption>
GO term按照分類(lèi),一共三個(gè)ontology(本體),分別描述基因的分子功能(molecular function,MF)、細(xì)胞組分(cellular component,CC)、參與的生物過(guò)程(biological process,BP)。G這三個(gè)本體的含義如下所示:
細(xì)胞組成(cellular component,CC):一般用來(lái)描述基因產(chǎn)物的發(fā)揮作用的位置,比如一個(gè)蛋白可能定位在細(xì)胞核中,也可能定位在核糖體中;
生物過(guò)程(biological process,BP):描述的是指基因產(chǎn)物所聯(lián)系的一個(gè)大的生物功能,或者說(shuō)是它們要完成的一個(gè)大的生物目標(biāo),例如有絲分裂或嘌呤代謝;
分子功能(Molecular Function,MF):主要是指基因產(chǎn)物分子所執(zhí)行的任務(wù),例如一個(gè)蛋白質(zhì)可能一個(gè)轉(zhuǎn)錄因子或是一個(gè)載體蛋白。
蛋白質(zhì)或者基因可以通過(guò)ID對(duì)應(yīng)或者序列注釋的方法找到與之對(duì)應(yīng)的GO號(hào),而GO號(hào)可應(yīng)用到到相應(yīng)的GO Term,即功能類(lèi)別或者細(xì)胞定位,ID對(duì)應(yīng)我的理解就是根據(jù)基因的EntrezID或SYMBOL等,將這個(gè)基因與相應(yīng)的GO term對(duì)應(yīng)起來(lái),序列注釋則是通過(guò)將某段序列與數(shù)據(jù)庫(kù)中的序列進(jìn)行比對(duì),然后將這段序列與GO term對(duì)應(yīng)起來(lái),這個(gè)過(guò)程也就是將基因的產(chǎn)物與相應(yīng)的GO term對(duì)應(yīng)起來(lái),也就是注釋過(guò)程。
在一個(gè)GO注釋中,例如,一個(gè)基因的產(chǎn)物是細(xì)胞色素c(cytochrome c),那么這個(gè)基因的產(chǎn)物就會(huì)被一個(gè)分子功能術(shù)語(yǔ)(Molecular Function)描述為氧化還原酶活性(oxidoreductase activity ),被生物過(guò)程(Biological Process)描述為氧化磷酸化(oxidative phosphorylation ),被細(xì)胞成分(Cellular Component )描述為線性體基質(zhì)(mitochondrial matrix )和線粒體內(nèi)膜(mitochondrial inner membrane )。
再舉個(gè)例子,對(duì)于一個(gè)基因或蛋白來(lái)說(shuō),最終一個(gè)基因的產(chǎn)物會(huì)被多個(gè)GO術(shù)語(yǔ)進(jìn)行注釋?zhuān)ǚ粗嗳?,一個(gè)GO術(shù)語(yǔ)中也可以注釋多個(gè)基因的產(chǎn)物),形成的GO分析描述就是這個(gè)樣子的:HOTAIR出沒(méi)于胞核(CC),參與了組蛋白甲基化調(diào)控引發(fā)癌基因沉默(BP),具體是結(jié)合PRC2復(fù)合物以及LSD1(MF)。這樣GO分析就從某個(gè)基因或蛋白在細(xì)胞中的定位,功能,參與的生物途徑等方面對(duì)這個(gè)基因或蛋白進(jìn)行了標(biāo)準(zhǔn)化的描述,即對(duì)基因產(chǎn)物進(jìn)行了簡(jiǎn)單的注釋?zhuān)ㄟ^(guò)GO富集分析可以了解差異基因富集在哪些生物學(xué)功能、途徑或細(xì)胞定位。
GO term的結(jié)構(gòu)
所有的GO terms之間都存在著相互關(guān)系,它們的關(guān)系可以用有向無(wú)環(huán)圖(DAG,Directed Acyclic Graph)來(lái)說(shuō)明,DAG圖就能夠明確地表示出不同GO term之間的關(guān)系,它們之間的關(guān)系有很多種,例如is_a,part_of,regulates,has part, negatively regulates和positively regulates。除了根節(jié)點(diǎn)(例如CC,BP,MF這些節(jié)點(diǎn))外,其余的GO terms都與其它的GO terms都有一定的亞類(lèi)關(guān)系,例如GO:0015758 (葡萄糖運(yùn)輸,glucose transport)is a GO:0015749單糖轉(zhuǎn)運(yùn)(monosaccharide transport)的一個(gè)亞類(lèi)。其他的關(guān)系還有GO:0031966: mitochondrial membrane part of GO:0005740 : mitochondrial envelope, GO:0006916 : anti-apoptosis regulates GO:0012501 : programmed cell death。
一個(gè)典型的GO term內(nèi)容如下所示(通過(guò)QuickGO查詢(xún)):
AccessionGO:0005515Nameprotein bindingOntologymolecular_functionSynonymsprotein amino acid binding, glycoprotein bindingAlternate IDsGO:0045308, GO:0001948DefinitionInteracting selectively and non-covalently with any protein or protein complex (a complex of two or more proteins that may include other nonprotein molecules). Source: GOC:go_curatorsCommentNoneHistorySee term history for GO:0005515 at QuickGOSubsetgoslim_metagenomicsgoslim_aspergillusgoslim_chemblgoslim_plantgosubset_prokgoslim_candidagoslim_pir
這些就是一個(gè)GO term的內(nèi)容,GO就是為了對(duì)基因以及基因的產(chǎn)物進(jìn)行統(tǒng)一注釋說(shuō)明而形成的一套標(biāo)準(zhǔn),這些注釋說(shuō)明來(lái)自稱(chēng)為ontology的一套詞匯。此外,GO terms中還存在著一些次要IDs(secondary IDs),這些次要IDs也叫替代ID,即Alternate ID,它指的是一個(gè)GO term,當(dāng)有兩個(gè)或更多的GO terms是同樣的含義時(shí),就需要使用到二級(jí)IDs,此時(shí)可以把它們合并為一個(gè)GO term。
有向無(wú)環(huán)圖說(shuō)明
GO terms的結(jié)構(gòu)是一個(gè)有向無(wú)環(huán)圖,每個(gè)GO term是一個(gè)節(jié)點(diǎn),它們之間的關(guān)系用這些節(jié)點(diǎn)之間的箭頭來(lái)表示。GO分析是一個(gè)松散的層次結(jié)構(gòu),其子GO term比父GO term更具體,不過(guò)與嚴(yán)格的層次結(jié)構(gòu)不同,一個(gè)GO term也許有不止一個(gè)父GO term,比如biological process term "hexose biosynthesis" 有兩個(gè)parents,它們分別是 "hexose metabolism"和"monosaccharide biosynthesis",這是因?yàn)樯锖铣墒谴x的一種,而己糖又是單糖的一種。
<figcaption style="margin: 10px 0px 0px; padding: 0px; max-width: 100%; box-sizing: border-box !important; overflow-wrap: break-word !important; line-height: inherit; text-align: center; color: rgb(153, 153, 153); font-size: 0.7em;">mark</figcaption>
上圖是色素沉著的一系列GO term,在這張圖形里,不同GO terms之間的關(guān)系用標(biāo)了顏色的箭頭來(lái)表示,每個(gè)箭頭中間的字母就是關(guān)系類(lèi)型。箭頭指向的方向,是分類(lèi)更加精細(xì)的方向,圖表項(xiàng)部的節(jié)點(diǎn)就是細(xì)胞成分(CC),生物學(xué)過(guò)程(BP)與分子功能(MF),這三個(gè)節(jié)點(diǎn)沒(méi)有共同的父節(jié)點(diǎn),每個(gè)都是一個(gè)根節(jié)點(diǎn),因此GO是三本原系統(tǒng),不過(guò)在一些GO分析工具中會(huì)做出一個(gè)虛擬的根節(jié)點(diǎn),把這三個(gè)節(jié)點(diǎn)都指向這個(gè)虛擬根節(jié)點(diǎn)。這三個(gè)節(jié)點(diǎn)之間不存在is_a關(guān)系,但是,這三個(gè)本體之間可能存在著其它的關(guān)系,例如part_of和regulates,例如,分子功能(MF)的GO term“細(xì)胞周期蛋白依賴(lài)性蛋白激酶活性”(cyclin-dependent protein kinase activity)與生物學(xué)過(guò)程(BP)term的“細(xì)胞周期(cell cycle)”之間的關(guān)系是part_of。
不同的term之間的關(guān)系
不同的GO term之間的關(guān)系有很多種,例如is,part of等,并且不同的關(guān)系還能組合,衍生出不同GO terms之間的關(guān)系,這里只列舉幾個(gè)說(shuō)明一下。
is關(guān)系
不同GO terms之間的關(guān)系使用箭頭來(lái)表示,實(shí)心箭頭表示了它們的直接關(guān)系,虛線表示了對(duì)于它們的關(guān)系的推測(cè),如下所示:
<figcaption style="margin: 10px 0px 0px; padding: 0px; max-width: 100%; box-sizing: border-box !important; overflow-wrap: break-word !important; line-height: inherit; text-align: center; color: rgb(153, 153, 153); font-size: 0.7em;">mark</figcaption>
A,B,C是上述關(guān)系,那么我們就能推測(cè)出A是C的一部分。
在GO的關(guān)系圖中,一個(gè)節(jié)點(diǎn)有可能有不止一個(gè)子節(jié)點(diǎn)(child node),也有可能不止有一個(gè)父節(jié)點(diǎn)(parent node),例如一個(gè)節(jié)點(diǎn)A與節(jié)點(diǎn)B的關(guān)系是a part of的關(guān)系,它與節(jié)點(diǎn)C的關(guān)系就有可能是is a的關(guān)系,如下所示:
<figcaption style="margin: 10px 0px 0px; padding: 0px; max-width: 100%; box-sizing: border-box !important; overflow-wrap: break-word !important; line-height: inherit; text-align: center; color: rgb(153, 153, 153); font-size: 0.7em;">mark</figcaption>
在上面的這張圖中我們可以發(fā)現(xiàn),線粒體(mitochondrion)有兩個(gè)父節(jié)點(diǎn),分別為細(xì)胞質(zhì)(cytoplasm)和細(xì)胞器(organelle),它是細(xì)胞質(zhì)的一部分(關(guān)系為part of),它是一個(gè)細(xì)胞器(關(guān)系為is)。而細(xì)胞器(organelle)這個(gè)節(jié)點(diǎn)有2個(gè)子節(jié)點(diǎn)(children nodes),分別為線粒體(mitochondrion)和細(xì)胞器膜(organelle membrane),與它們的關(guān)系分別為is和part of。
GO關(guān)系的基礎(chǔ)是is關(guān)系,如果我們說(shuō)Aisa B,那么我們所表示的含義就是A節(jié)點(diǎn)是B節(jié)點(diǎn)的一個(gè)亞類(lèi)(subtype)。例如,有絲細(xì)胞分裂周期(mitotic cell cycle)isa 細(xì)胞周期(cell cycle)或者裂解酶活性(lyase activity)isa 催化活性(catalytic activity),它所表示的意思是就是有絲分裂周期是細(xì)胞周期的一個(gè)亞類(lèi),裂解酶活性是催化活性的一個(gè)亞類(lèi)。
這里的is不是指一個(gè)“實(shí)例(instance)”,從本體論的角度來(lái)看,一個(gè)“實(shí)例”專(zhuān)門(mén)指的是某個(gè)抽象分類(lèi)的一個(gè)具體事物,例如,貓是一種動(dòng)物,這里貓與動(dòng)物的關(guān)系,就是GO中的is關(guān)系,而加菲貓(這里專(zhuān)門(mén)指的動(dòng)畫(huà)片中的那只貓)是貓的一個(gè)具體事物,不是貓的一個(gè)亞類(lèi),這里加菲貓與貓的關(guān)系就不等于GO中的is這個(gè)關(guān)系。GO中并不使用具體的實(shí)例,GO terms指的是一類(lèi)現(xiàn)象或一類(lèi)事物,是一種抽象的概念,例如我們知道了貓是(is)一類(lèi)動(dòng)物,那么我們就可以說(shuō)貓的每個(gè)實(shí)例都是動(dòng)物。
is關(guān)系的推理
is這種關(guān)系是可以傳遞(transitive),如果我們說(shuō)Aisa B,Bisa C,那么我們就能推斷出Aisa C,如下所示:
<figcaption style="margin: 10px 0px 0px; padding: 0px; max-width: 100%; box-sizing: border-box !important; overflow-wrap: break-word !important; line-height: inherit; text-align: center; color: rgb(153, 153, 153); font-size: 0.7em;">mark</figcaption>
舉個(gè)例子,如下所示:
<figcaption style="margin: 10px 0px 0px; padding: 0px; max-width: 100%; box-sizing: border-box !important; overflow-wrap: break-word !important; line-height: inherit; text-align: center; color: rgb(153, 153, 153); font-size: 0.7em;">mark</figcaption>
在這張圖中,線粒體(mitochondrion)isa 細(xì)胞內(nèi)細(xì)胞器( intracellular organelle ),細(xì)胞內(nèi)細(xì)胞器( intracellular organelle )isa細(xì)胞器(organelle 0,因此我們可以推斷出,線粒體是一個(gè)細(xì)胞器,用邏輯符號(hào)表示就是*is a° *is a* → is a。
用is可以對(duì)注釋進(jìn)行分組,例如。如果一個(gè)基因的產(chǎn)物是X,那它被注釋為有酪氨酸激酶活性,這個(gè)GO就可以記錄它為酪氨酸激酶活性isa(type of)激酶活性,然后我們就可以下結(jié)論,認(rèn)為基因產(chǎn)物X有激酶活性。
part of關(guān)系
part of在GO中用于表示整體與部分的關(guān)系,如果B是A的必要組成部分,那么B存在的地方,A必定存在。但是,如果A存在,我們不能說(shuō)B也存在。它們的關(guān)系如下所示:
<figcaption style="margin: 10px 0px 0px; padding: 0px; max-width: 100%; box-sizing: border-box !important; overflow-wrap: break-word !important; line-height: inherit; text-align: center; color: rgb(153, 153, 153); font-size: 0.7em;">mark</figcaption>
上圖:整個(gè)B是A的組成部分,而A的一部分則含有B。
下圖:復(fù)制叉(Replication fork)是染色體的必要組成(necessarily part of),所有(all)的復(fù)制叉是一些染色體的部分(part of),但是(some)染色體只有一有部分(have part)含有復(fù)制叉。
part of的推斷:part of° part of → part of
與is這種關(guān)系一樣,part of這種關(guān)系也能傳遞,如果Apart ofBpart C,那么A part C,如下所示:
<figcaption style="margin: 10px 0px 0px; padding: 0px; max-width: 100%; box-sizing: border-box !important; overflow-wrap: break-word !important; line-height: inherit; text-align: center; color: rgb(153, 153, 153); font-size: 0.7em;">mark</figcaption>
舉個(gè)例子,如下所示:
<figcaption style="margin: 10px 0px 0px; padding: 0px; max-width: 100%; box-sizing: border-box !important; overflow-wrap: break-word !important; line-height: inherit; text-align: center; color: rgb(153, 153, 153); font-size: 0.7em;">mark</figcaption>
線粒體(mitochondrion)是細(xì)胞質(zhì)(cytoplasm )的part of,而細(xì)胞質(zhì)(cytoplasm )是細(xì)胞(cell)的part of,那么我們就可以說(shuō),線粒體是細(xì)胞的part of。GO中還有很多關(guān)系,由于篇幅問(wèn)題,就略去了,具體的可以查看官網(wǎng)(http://geneontology.org/page/ontology-relations)。
GO分析的思路
現(xiàn)在了解了GO分析的一些原理之后,我們自己就大概就明白了需要做哪些事情。
第一件事情就是我們要把差異基因與相應(yīng)的GO terms對(duì)應(yīng)起來(lái);
第二件事情就是需要找到前景基因(也就是差異基因)與背景基因;
第三件事情就是,將對(duì)應(yīng)起來(lái)的GO terms進(jìn)行比較,也就是利用超幾何檢驗(yàn),這些差異基因在某個(gè)通路中的比例是否要高于背景基因;
第四件事情就是繪圖,也就是文獻(xiàn)中經(jīng)常出現(xiàn)的GO條形圖。