一文極速讀懂 Gene Ontology (GO)數(shù)據(jù)庫

一、介紹

官方:基因本體(GO)知識庫是有關(guān)基因功能的全球最大信息來源。 這些知識既是人類可讀的,也是機(jī)器可讀的,并且是生物醫(yī)學(xué)研究中大規(guī)模分子生物學(xué)和遺傳學(xué)實(shí)驗(yàn)的計(jì)算分析的基礎(chǔ)。

在讀懂基因本體論(Gene Ontology)前,我們先看看什么是本體論:

本體論(Ontology )是探究世界的本原或基質(zhì)的哲學(xué)理論 。

本體論通常處理的問題:存在哪些本質(zhì),如何將這些本質(zhì)分組,在層次結(jié)構(gòu)內(nèi)關(guān)聯(lián)以及如何根據(jù)相似性和差異進(jìn)行細(xì)分 。

個人理解:本體=本質(zhì)=本原=基質(zhì)

基因本體論(Gene Ontology)包含生物學(xué)領(lǐng)域知識體系本質(zhì)的表示形式,本體通常由一組類(或術(shù)語或概念)組成,它們之間具有關(guān)系。 基因本體論(GO)從三個方面(GO domains)描述了我們對生物學(xué)領(lǐng)域的了解:

mark
  • 分子功能(Molecular Function,MF )

    單個的基因產(chǎn)物(包括蛋白質(zhì)和RNA)或多個基因產(chǎn)物的復(fù)合物在分子水平上的活動,比如“催化”,“轉(zhuǎn)運(yùn)”

    需要注意,這里的描述只表示活動,而不指定執(zhí)行功能的實(shí)體(分子或復(fù)合物),動作發(fā)生的地點(diǎn),時間或背景

    廣義上的例子是催化活性和轉(zhuǎn)運(yùn)蛋白活性。具體的例子是腺苷酸環(huán)化酶活性或Toll樣受體結(jié)合

    為避免基因產(chǎn)物名稱與其分子功能之間的混淆,GO分子功能通常附加“活性(activity)”一詞。比如,蛋白激酶(protein kinase)具有GO分子功能:蛋白激酶活性( protein kinase activity)

  • 細(xì)胞組分(Cellular Component ,CC)

    基因產(chǎn)物在執(zhí)行功能時所處的細(xì)胞結(jié)構(gòu)位置,比如在線粒體,核糖體

    需要注意:細(xì)胞組分是細(xì)胞解刨結(jié)構(gòu),不指代過程

  • 生物過程(Biological Process ,BP)

    通過多種分子活動完成的生物學(xué)過程

    廣義上的例子是DNA修復(fù)或信號轉(zhuǎn)導(dǎo)。更加具體的例子是嘧啶核苷生物合成過程或葡萄糖跨膜轉(zhuǎn)運(yùn)

    需要注意:生物學(xué)過程不等同于通路。目前,GO沒有表示完整的通路信息所需的動力學(xué)或依賴性的描述信息

理解了上述的概念,現(xiàn)在舉個例子,如果站在基因本體論GO的角度來解釋一個基因的話:

基因產(chǎn)物:細(xì)胞色素C(cytochrome c)

分子功能:氧化還原酶活性

細(xì)胞組分:線粒體基質(zhì)

生物過程:氧化磷酸化

GO術(shù)語的構(gòu)成

基本要素
  • 唯一標(biāo)識符(GO ID)和名稱:比如GO:0005739,GO:1904659,GO:0016597和線粒體,葡萄糖跨膜轉(zhuǎn)運(yùn),氨基酸結(jié)合
  • 方面:該術(shù)語屬于細(xì)胞成分,生物過程或分子功能的哪一個。
  • 定義:術(shù)語的文字描述,以及信息來源的引用。
  • 關(guān)系:該術(shù)語與本體中其他術(shù)語的關(guān)系。 例如,葡萄糖跨膜轉(zhuǎn)運(yùn)(GO:1904659)是單糖轉(zhuǎn)運(yùn)(GO:0015749)。
可選要素
  • 次級ID(備用ID):當(dāng)兩個或多個術(shù)語的含義相同并且合并為一個術(shù)語時,就會出現(xiàn)輔助ID。 所有術(shù)語ID都會保留下來,因此不會丟失任何信息(例如,合并ID的注釋)。
  • 同義字:含義與術(shù)語名稱緊密相關(guān)的替代字詞或短語,表示名稱與同義詞范圍所賦予的同義詞之間的關(guān)系。 GO同義詞的范圍是:
    • 相同 Exact : 術(shù)語名稱可以互換; 例如 鳥氨酸循環(huán)是尿素循環(huán)的確切同義詞
    • 廣義Broad** :同義詞比術(shù)語名稱更廣泛; 例如 細(xì)胞分裂是胞質(zhì)分裂的廣義同義詞
    • 狹義 Narrow :同義詞比術(shù)語名稱更具體或更精確; 例如 用光裂酶修復(fù)嘧啶二聚體是光反應(yīng)性修復(fù)的狹義同義詞
    • 相關(guān) Related :術(shù)語以不精確的方式相關(guān); 例如 細(xì)胞色素bc1復(fù)合體是泛醇-細(xì)胞色素c還原酶活性的相關(guān)同義詞毒力是發(fā)病機(jī)理的相關(guān)同義詞

自定義同義詞類型也用于本體中。 例如,許多同義詞被指定為系統(tǒng)同義詞。 此類型的同義詞是術(shù)語名稱的確切同義詞。

基因本體論中的關(guān)系

GO以圖的形式構(gòu)建,術(shù)語作為同種的節(jié)點(diǎn),術(shù)語間的關(guān)系(對象屬性)作為連接。

關(guān)系的描述
  • 節(jié)點(diǎn) node:是指GO術(shù)語
  • 父級 parent:是指更靠近圖的根的節(jié)點(diǎn)
  • 子級 child:是指更靠近葉節(jié)點(diǎn)的節(jié)點(diǎn); 對于is_a和part_of關(guān)系,父級是一個更寬泛的GO術(shù)語,而子級是一個更具體的術(shù)語
  • 箭頭 arrowhead:指示關(guān)系的方向
  • 虛線 Dotted lines:表示推斷的關(guān)系,即本體中未明確說明的關(guān)系
節(jié)點(diǎn)的連接

GO圖中的節(jié)點(diǎn)與其他節(jié)點(diǎn)可以具有任意數(shù)量和類型的關(guān)系, 就像層次結(jié)構(gòu),例如,家譜或一個物種的分類法

一個節(jié)點(diǎn)可能與多個子節(jié)點(diǎn)(更特定的節(jié)點(diǎn))具有連接,也可以具有多個父節(jié)點(diǎn)(較寬的節(jié)點(diǎn))

利用關(guān)系與關(guān)系間的連接可以推斷相應(yīng)的分組注釋,節(jié)點(diǎn)間關(guān)系的推斷,這個會在后面詳細(xì)研究:

mark

上圖表示:A is a B,B is part of C,所以可以推斷 A is part of C

節(jié)點(diǎn)間總體與部分關(guān)系:

一個節(jié)點(diǎn)可能與一個節(jié)點(diǎn)有一部分關(guān)系。 下圖說明了這一點(diǎn):

mark

上圖:mitochondrion 是兩個節(jié)點(diǎn)的父節(jié)點(diǎn):it is an organelle and it is part of the cytoplasm ;organelle 有兩個子節(jié)點(diǎn): mitochondrion is an organelle, and organelle membrane is part of organelle

GO的主要關(guān)系

我們將上面的關(guān)系圖簡化表示為箭頭導(dǎo)向性圖,這是圖中常見的關(guān)系表示:

縮寫 關(guān)系 符號 示例
i is a A
mark
B
有絲分裂細(xì)胞周期 is a 細(xì)胞周期
P part of A
mark
B
線粒體內(nèi)膜 part of 線粒體
hP has part A
mark
B
受體酪氨酸激酶活性 has part 激酶活性
R regulates A
mark
B
抗凋亡 regulates 細(xì)胞程序性死亡
R+ positively regulates A
mark
B
減數(shù)分裂激活 positively regulates 減數(shù)分裂
R- negatively regulates A
mark
B
脊髓平滑信號通路 negatively regulates 脊髓腹側(cè)

接下我們詳細(xì)看看GO是怎樣來描述這幾種關(guān)系的:

1.is a

如果我們說 A is a B,則意味著節(jié)點(diǎn)A是節(jié)點(diǎn)B的子類型。例如,有絲分裂細(xì)胞周期是細(xì)胞周期,或者裂解酶活性是催化活性。

應(yīng)該注意的是,a并不代表是實(shí)例。 從本體論上來說,一個實(shí)例是某個事物的具體示例。 例如 貓是哺乳動物,但加菲貓是貓的實(shí)例,而不是貓的亞型。 GO中的術(shù)語表示實(shí)體或現(xiàn)象的類別,而不是特定的表現(xiàn)形式(或?qū)嵗?但是,如果我們知道貓是哺乳動物,則可以說貓的每個實(shí)例都是哺乳動物。

使用 is a 對批注進(jìn)行分組是安全的。例如,如果將基因產(chǎn)物X注釋為具有酪氨酸激酶活性,并且本體論證明酪氨酸激酶活性是激酶活性的一種(類型),那么我們可以安全地得出結(jié)論,基因產(chǎn)物X具有激酶活性。

利用上面得到結(jié)論,我們可以將is a關(guān)系和其他關(guān)系類型結(jié)合來推斷,下圖表示了可以推斷的關(guān)系:

mark
2.part of

關(guān)系的一部分用于表示整個部分的關(guān)系。 part of 只有當(dāng)B一定是A的一部分時,才會在A和B之間部分關(guān)系:無論B存在于何處,它都是A的一部分,B的存在意味著A的存在。但是,考慮到A的出現(xiàn),我們不能肯定地說B的存在。

使用的 part of 進(jìn)行分組注釋是安全的。 例如,如果將基因產(chǎn)物X標(biāo)注為位于線粒體內(nèi)膜上,而本體論記錄了線粒體內(nèi)膜與線粒體之間的關(guān)系的一部分,則可以安全地得出結(jié)論X位于線粒體內(nèi)。

利用上面得到結(jié)論,我們可以將part of關(guān)系和其他關(guān)系類型結(jié)合來推斷,下圖表示了可以推斷的關(guān)系:

mark
3.has part

has part是對關(guān)系部分的邏輯補(bǔ)充,它從父級的角度代表了“部分-整體”關(guān)系。

part of 一樣,GO關(guān)系 has part 僅在A始終將B作為一部分的情況下使用,即A必定具有B的部分。 但是,如果B存在,我們不能肯定地說A存在。 即所有A都有B部分,但是A只是B的一部分。

使用has part注釋進(jìn)行分組是不正確的。 例如,我們可以在本體論中斷言受體酪氨酸激酶活性具有部分激酶活性。 然而,將所有注釋歸類到受體酪氨酸激酶活性下的激酶活性將是不正確的。

利用上面得到結(jié)論,我們可以將has part關(guān)系和其他關(guān)系類型結(jié)合來推斷,下圖表示了可以推斷的關(guān)系:

mark
4.regulates

一種過程直接影響另一種過程或質(zhì)量的表現(xiàn),即前者調(diào)節(jié)后者。 調(diào)節(jié)的目標(biāo)可以是另一種過程,例如調(diào)節(jié)途徑或酶促反應(yīng),或者可以是質(zhì)量,例如細(xì)胞大小或pH。 與 part of 關(guān)系類似,該關(guān)系專門用于表示必定的調(diào)節(jié):如果同時存在A和B,則B總是調(diào)節(jié)A,但是A可能不總是受B調(diào)節(jié),即所有B都調(diào)節(jié)A; 一些A受B調(diào)節(jié)。

如果將基因產(chǎn)物X注釋為參與調(diào)節(jié)糖酵解的過程,則不能得出結(jié)論X參與糖酵解是不正確的。 但是,某些工具使用調(diào)節(jié)關(guān)系來對批注進(jìn)行分組, 這可用于基因集富集, 所得的基因集包括與分組術(shù)語有因果關(guān)系的過程中涉及的基因。

利用上面得到結(jié)論,我們可以將regulates關(guān)系和其他關(guān)系類型結(jié)合來推斷,下圖表示了可以推斷的關(guān)系:

mark

GO 圖(有向無環(huán)圖)

GO的結(jié)構(gòu)可以用下圖來表示,這個圖也叫有向無環(huán)圖(Directed Acyclic Graph ,DAG)。

在圖論中,如果一個有向圖無法從某個頂點(diǎn)出發(fā)經(jīng)過若干條邊回到該點(diǎn),那么這個圖就是有向無環(huán)圖。

因?yàn)橛邢驁D中一個點(diǎn)經(jīng)過兩種路線到達(dá)另一個點(diǎn)未必形成環(huán),因此有向無環(huán)圖未必能轉(zhuǎn)化成樹,但任何有向樹均為有向無環(huán)圖。

下圖中從左到右依次是有向樹,有向無環(huán)圖,有向圖

[圖片上傳失敗...(image-86992e-1577605977480)]

link description

如上圖所示,三個GO域(細(xì)胞成分,生物學(xué)過程和分子功能)分別由一個單獨(dú)的根本體術(shù)語表示。

一個域中的所有術(shù)語都可以將其父源追溯到一個根術(shù)語,通過到本體根的中間術(shù)語可能存在許多不同的路徑。

這三個根節(jié)點(diǎn)是不相關(guān)的,并且沒有公共的父節(jié)點(diǎn),這意味著來自不同本體的術(shù)語之間沒有任何關(guān)系。但是,GO本體之間也存在其他關(guān)系,例如,分子功能術(shù)語“細(xì)胞周期蛋白依賴性蛋白激酶活性”是生物過程“細(xì)胞周期”的一部分。GO本體間相關(guān)http://geneontology.org/docs/ontology-relations/。

某些基于圖的軟件可能需要一個根節(jié)點(diǎn)。在這種情況下,可以將“假”術(shù)語添加為三個現(xiàn)有根節(jié)點(diǎn)的代。

GO的動態(tài)更新

GO只代表生物學(xué)的當(dāng)前認(rèn)知,因此隨著生物學(xué)知識的積累,它會不斷地被修訂和擴(kuò)展。也就是說目前的GO術(shù)語不一定代表某個基因產(chǎn)物所有的功能,組分或參加的過程,只是現(xiàn)階段對它的認(rèn)知。

每周更新一次,由GOC本體團(tuán)隊(duì)與請求更新的科學(xué)家共同完成的。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 有向無環(huán)圖的了解 基因本體論中的關(guān)系 概觀 GO的本體被構(gòu)造為圖形,其中術(shù)語作為圖形中的節(jié)點(diǎn)以及作為邊緣的術(shù)語之間...
    Amy_Cui閱讀 5,082評論 0 2
  • 為了查找某個研究領(lǐng)域的相關(guān)信息,生物學(xué)家往往要花費(fèi)大量的時間,不同的生物學(xué)數(shù)據(jù)庫可能會使用不同的術(shù)語,好比是一些方...
    看遠(yuǎn)方的星閱讀 18,446評論 0 6
  • 首先,基因本體論(Gene Ontology)和基因文庫不是同一概念。 我從下面幾個方面講一下GO的一些概 念和基...
    wangchuang2017閱讀 39,415評論 2 41
  • 本體是給定域內(nèi)的知識體系的正式表示。本體通常由一組具有在它們之間運(yùn)行的關(guān)系的類(或術(shù)語或概念)組成?;虮倔w論(G...
    Amy_Cui閱讀 2,331評論 0 7
  • 無意中看到了現(xiàn)在的快樂男生的選拔賽,如果是以前的話,我可能根本不會打開,但無聊的我看到了陳粒所以點(diǎn)開了。實(shí)話說,陳...
    longhaiyan閱讀 971評論 0 0

友情鏈接更多精彩內(nèi)容