一文極速讀懂 KEGG 數(shù)據(jù)庫

目錄

image

一、介紹

在進行生物學(xué)實驗或者生物信息的學(xué)習(xí)中,都會聽說KEGG富集分析,而且該方法在高通量測序分析中已然成為數(shù)據(jù)分析中必不可少的一環(huán)。

這種分析方法依托的是由 Kanehisa實驗室 在1995年開發(fā)的KEGG數(shù)據(jù)庫,全稱為 Kyoto Encyclopedia of Genes and Genomes(京都基因與基因組百科全書)。它擁有多個子數(shù)據(jù)庫,包含基因組,生化反應(yīng),生化物質(zhì),疾病與藥物,以及最常用PATHWAY通路信息。

接下來進入KEGG官網(wǎng):https://www.kegg.jp ,它的主頁主要由以下幾部分構(gòu)成:

image

二、KEGG的數(shù)據(jù)庫構(gòu)成

KEGG子庫中存儲的信息是生物系統(tǒng)的計算機表示形式,由基因和蛋白質(zhì)(基因組信息)和化學(xué)物質(zhì)(化學(xué)信息)的分子部件組成,這些部件的相互作用,反應(yīng)和關(guān)系構(gòu)成調(diào)控網(wǎng)絡(luò)圖(系統(tǒng)信息),除此之外,還包含疾病和藥物信息(健康信息)。具體的分類及數(shù)據(jù)庫如下:

image

三、KEGG PATHWAY 數(shù)據(jù)庫

在所有子數(shù)據(jù)庫中最重要也是最常用的就是KEGG PATHWAY,它包括大量由科研人員根據(jù)已有研究文獻,通過手動繪制的KEGG通路圖,代表著代謝過程,環(huán)境信息過程,細胞過程,生物系統(tǒng),人類疾病和藥物開發(fā)。

每個通路都由一個五位數(shù)字標(biāo)識,后跟以下任意一個:map,ko,ec,rn和三字母或四字母生物代碼,它們分別代表五種通路類型:

  • map編號:代表reference pathway,根據(jù)已有的知識繪制的、概括的、詳盡的具有一般參考意義的代謝圖。 一個點同時表示一個基因,這個基因編碼的酶或這個酶參加的反應(yīng)
  • org編號:物種特異性通路,這里就是將K編號基因(直系同源基因,后面會介紹)換為每個物種中對應(yīng)的基因
  • ko編號:KO通路中的點表示直系同源基因
  • ec編號:EC通路中的點表示相關(guān)的酶
  • rn編號:化學(xué)反應(yīng)通路中的點只表示該點參與的某個反應(yīng)、反應(yīng)物及反應(yīng)類型

在了解每種通路之前我們先學(xué)會在KEGG中切換每種通路類型

地址:https://www.kegg.jp/kegg-bin/show_pathway?org_name=map&mapno=00020&mapscale=&show_description=hide

使用過程中切換各種通路類型,比如進入TCA循環(huán) ,可以通過左上角下路菜單來切換:

image

接下來,我們詳細介紹每種通路:

1. 參考通路圖 (map)

這里以 TCA循環(huán) 的通路圖為例,進入?yún)⒖纪穲D(Reference pathway)。這是原始版本的通路,也是后續(xù)幾種通路圖的"模板"。每個白框可以代表直系同源基因,酶,反應(yīng),也可以點擊鏈接至KO,ENZYME和REACTION詳細信息。

image

上述的形狀,箭頭,線段代表如下意義:

image
2. 物種特異性通路 (org)

我們選擇人的物種名Homo sapiens (human),點擊Go??梢钥吹脚cReference pathway 圖(map00020)不同的是有物種特異性基因被標(biāo)注為綠色,而且通路編號為hsa00020

訪問鏈接:https://www.kegg.jp/kegg-bin/show_pathway?org_name=hsa&mapno=00020&mapscale=&show_description=hide

當(dāng)然,如果直接訪問hsa00020的鏈接也可以進入該通路:https://www.kegg.jp/kegg-bin/show_pathway?hsa00020

image

點擊綠色基因,會進入Gene詳細信息

image
3. 直系同源物通路 (ko)

藍色框超鏈接到從原始版本中選擇的KO條目

image

進入PCK的直系同源基因信息

image
4. 酶通路 (ec)

藍色框超鏈接到從原始版本中選擇的ENZYME條目

image

進入ENZYME

image
5. 反應(yīng)通路 (reaction)

藍色框超鏈接到從原始版本中選擇的反應(yīng)條目,

image

點擊后進入對應(yīng)的反應(yīng)信息界面,如下圖

image

四、KEGG ORTHOLOGY(KO)數(shù)據(jù)庫

KEGG ORTHOLOGY (KO)數(shù)據(jù)庫是構(gòu)建Pathway和Module的基礎(chǔ),相當(dāng)于KEGG數(shù)據(jù)庫構(gòu)建的基石,因此理解KO數(shù)據(jù)庫的構(gòu)成對于使用及了解KEGG至關(guān)重要。

然而,這種通用方法不足以理解由物種內(nèi)基因和基因組的變異所引起的更詳細的特征,特別是對于理解與人類基因和基因組的疾病相關(guān)的變異而言。后來他們開發(fā)了 KEGG NETKERK,該數(shù)據(jù)庫不僅涉及基因變異,而且包括病毒和其他因素的網(wǎng)絡(luò)變異方面的疾病和藥物知識。

KEGG的開發(fā)者根據(jù)不同生物之間基因和基因組的保守和變異,引入直系同源物(KO)的概念,使得KEGG通路圖,BRITE層次結(jié)構(gòu)和KEGG模塊的參考數(shù)據(jù)集可以廣泛應(yīng)用于任何細胞生物。

image

概念

1.KO號:表示不分物種的通路,相當(dāng)于所有物種的這一通路的并集,比如ko00020代表的 TCA 循環(huán) (下圖所示),下圖的每個圓角矩形也代表著一個KO通路。

image

2.K號:表示基因,每個號代表的是所有物種的一個同源基因,比如上圖中的K01596代表的是 PCK。

image

進入K01596的詳細頁面,我們會看到它代表的是一個基因列表,這些基因具有一個功能卻來自于不同的物種。

image

3.C號:表示化合物

image

對于分析工具使用和kegg資源下載,會在后續(xù)文章中更新。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容