目錄

一、介紹
在進行生物學(xué)實驗或者生物信息的學(xué)習(xí)中,都會聽說KEGG富集分析,而且該方法在高通量測序分析中已然成為數(shù)據(jù)分析中必不可少的一環(huán)。
這種分析方法依托的是由 Kanehisa實驗室 在1995年開發(fā)的KEGG數(shù)據(jù)庫,全稱為 Kyoto Encyclopedia of Genes and Genomes(京都基因與基因組百科全書)。它擁有多個子數(shù)據(jù)庫,包含基因組,生化反應(yīng),生化物質(zhì),疾病與藥物,以及最常用PATHWAY通路信息。
接下來進入KEGG官網(wǎng):https://www.kegg.jp ,它的主頁主要由以下幾部分構(gòu)成:

二、KEGG的數(shù)據(jù)庫構(gòu)成
KEGG子庫中存儲的信息是生物系統(tǒng)的計算機表示形式,由基因和蛋白質(zhì)(基因組信息)和化學(xué)物質(zhì)(化學(xué)信息)的分子部件組成,這些部件的相互作用,反應(yīng)和關(guān)系構(gòu)成調(diào)控網(wǎng)絡(luò)圖(系統(tǒng)信息),除此之外,還包含疾病和藥物信息(健康信息)。具體的分類及數(shù)據(jù)庫如下:

三、KEGG PATHWAY 數(shù)據(jù)庫
在所有子數(shù)據(jù)庫中最重要也是最常用的就是KEGG PATHWAY,它包括大量由科研人員根據(jù)已有研究文獻,通過手動繪制的KEGG通路圖,代表著代謝過程,環(huán)境信息過程,細胞過程,生物系統(tǒng),人類疾病和藥物開發(fā)。
每個通路都由一個五位數(shù)字標(biāo)識,后跟以下任意一個:map,ko,ec,rn和三字母或四字母生物代碼,它們分別代表五種通路類型:
- map編號:代表reference pathway,根據(jù)已有的知識繪制的、概括的、詳盡的具有一般參考意義的代謝圖。 一個點同時表示一個基因,這個基因編碼的酶或這個酶參加的反應(yīng)
- org編號:物種特異性通路,這里就是將K編號基因(直系同源基因,后面會介紹)換為每個物種中對應(yīng)的基因
- ko編號:KO通路中的點表示直系同源基因
- ec編號:EC通路中的點表示相關(guān)的酶
- rn編號:化學(xué)反應(yīng)通路中的點只表示該點參與的某個反應(yīng)、反應(yīng)物及反應(yīng)類型
在了解每種通路之前我們先學(xué)會在KEGG中切換每種通路類型
地址:https://www.kegg.jp/kegg-bin/show_pathway?org_name=map&mapno=00020&mapscale=&show_description=hide
使用過程中切換各種通路類型,比如進入TCA循環(huán) ,可以通過左上角下路菜單來切換:

接下來,我們詳細介紹每種通路:
1. 參考通路圖 (map)
這里以 TCA循環(huán) 的通路圖為例,進入?yún)⒖纪穲D(Reference pathway)。這是原始版本的通路,也是后續(xù)幾種通路圖的"模板"。每個白框可以代表直系同源基因,酶,反應(yīng),也可以點擊鏈接至KO,ENZYME和REACTION詳細信息。

上述的形狀,箭頭,線段代表如下意義:

2. 物種特異性通路 (org)
我們選擇人的物種名Homo sapiens (human),點擊Go??梢钥吹脚cReference pathway 圖(map00020)不同的是有物種特異性基因被標(biāo)注為綠色,而且通路編號為hsa00020
訪問鏈接:https://www.kegg.jp/kegg-bin/show_pathway?org_name=hsa&mapno=00020&mapscale=&show_description=hide
當(dāng)然,如果直接訪問
hsa00020的鏈接也可以進入該通路:https://www.kegg.jp/kegg-bin/show_pathway?hsa00020

點擊綠色基因,會進入Gene詳細信息

3. 直系同源物通路 (ko)
藍色框超鏈接到從原始版本中選擇的KO條目

進入PCK的直系同源基因信息

4. 酶通路 (ec)
藍色框超鏈接到從原始版本中選擇的ENZYME條目

進入ENZYME

5. 反應(yīng)通路 (reaction)
藍色框超鏈接到從原始版本中選擇的反應(yīng)條目,

點擊后進入對應(yīng)的反應(yīng)信息界面,如下圖

四、KEGG ORTHOLOGY(KO)數(shù)據(jù)庫
KEGG ORTHOLOGY (KO)數(shù)據(jù)庫是構(gòu)建Pathway和Module的基礎(chǔ),相當(dāng)于KEGG數(shù)據(jù)庫構(gòu)建的基石,因此理解KO數(shù)據(jù)庫的構(gòu)成對于使用及了解KEGG至關(guān)重要。
然而,這種通用方法不足以理解由物種內(nèi)基因和基因組的變異所引起的更詳細的特征,特別是對于理解與人類基因和基因組的疾病相關(guān)的變異而言。后來他們開發(fā)了 KEGG NETKERK,該數(shù)據(jù)庫不僅涉及基因變異,而且包括病毒和其他因素的網(wǎng)絡(luò)變異方面的疾病和藥物知識。
KEGG的開發(fā)者根據(jù)不同生物之間基因和基因組的保守和變異,引入直系同源物(KO)的概念,使得KEGG通路圖,BRITE層次結(jié)構(gòu)和KEGG模塊的參考數(shù)據(jù)集可以廣泛應(yīng)用于任何細胞生物。

概念
1.KO號:表示不分物種的通路,相當(dāng)于所有物種的這一通路的并集,比如ko00020代表的 TCA 循環(huán) (下圖所示),下圖的每個圓角矩形也代表著一個KO通路。

2.K號:表示基因,每個號代表的是所有物種的一個同源基因,比如上圖中的K01596代表的是 PCK。

進入K01596的詳細頁面,我們會看到它代表的是一個基因列表,這些基因具有一個功能卻來自于不同的物種。

3.C號:表示化合物

對于分析工具使用和kegg資源下載,會在后續(xù)文章中更新。