
什么是KEGG
KEGG(Kyoto Encyclopedia of Genes and Genomes)是系統(tǒng)分析基因功能、基因組信息數(shù)據(jù)庫(kù),它有助于研究者把基因及表達(dá)信息作為一個(gè)整體網(wǎng)絡(luò)進(jìn)行研究。KEGG將基因組信息和高一級(jí)的功能信息有機(jī)地結(jié)合起來(lái),通過(guò)對(duì)細(xì)胞內(nèi)已知生物學(xué)過(guò)程的計(jì)算機(jī)化處理和將現(xiàn)有的基因功能解釋標(biāo)準(zhǔn)化,對(duì)基因的功能進(jìn)行系統(tǒng)化的分析。KEGG的另一個(gè)任務(wù)是一個(gè)將基因組中的一系列基因用一個(gè)細(xì)胞內(nèi)的分子相互作用的網(wǎng)絡(luò)連接起來(lái)的過(guò)程,如一個(gè)通路或是一個(gè)復(fù)合物,通過(guò)它們來(lái)展現(xiàn)更高一級(jí)的生物學(xué)功能。KEGG主要包含以下數(shù)據(jù)庫(kù):

為什么要用KEGG的代謝通路
KEGG提供的整合代謝途徑(pathway)查詢十分出色,包括碳水化合物、核苷、氨基酸等的代謝及有機(jī)物的生物降解,不僅提供了所有可能的代謝途徑,而且對(duì)催化各步反應(yīng)的酶進(jìn)行了全面的注解,包含有氨基酸序列、PDB庫(kù)的鏈接等等。KEGG是進(jìn)行生物體內(nèi)代謝分析、代謝網(wǎng)絡(luò)研究的強(qiáng)有力工具。與其他數(shù)據(jù)庫(kù)相比,KEGG 的一個(gè)顯著特點(diǎn)就是具有強(qiáng)大的圖形功能,它利用圖形而不是繁縟的文字來(lái)介紹眾多的代謝途徑以及各途徑之間的關(guān)系。
- 從功能出發(fā),研究功能到通路到基因,迅速鎖定某些功能的基因;
- 從基因出發(fā),獲得某個(gè)基因在信號(hào)通路中的角色(上下游關(guān)系)和生物學(xué)功能;
- 發(fā)現(xiàn)涉及通路的差異變化和功能分布
- 形象的圖形使我們直觀地對(duì)某一個(gè)基因有了一個(gè)由點(diǎn)及面的印象。
KEGG代謝通路怎么看
在KEGG中有兩種代謝圖
參考代謝通路圖reference pathway,是根據(jù)已有的知識(shí)繪制的概括的、詳盡的具有一般參考意義的代謝圖,這種圖上就不會(huì)有綠色的小框,而都是無(wú)色的,所有的框都可以點(diǎn)擊查看更詳細(xì)的信息;
特定物種的代謝圖species-specific pathway,會(huì)用綠色來(lái)標(biāo)出這個(gè)物種特有的基因或酶,只有這些綠色的框點(diǎn)擊以后才會(huì)給出更詳細(xì)的信息。
這兩種圖很好區(qū)分,reference pathway 在KEGG中的名字是以map開頭的,比如map00010,就是糖酵解途徑的參考圖;而特定物種的代謝通路圖開頭三個(gè)字符不是map而是種屬英文單詞的縮寫(應(yīng)該就是一個(gè)屬的首字母+2個(gè)種的首字母)比如酵母的糖酵解通路圖,就是sce00010,大腸桿菌的糖酵解通路圖就應(yīng)該是eco00010吧。
代謝通路中各種符號(hào)標(biāo)識(shí) :
- K+num:基因ID號(hào),表示在所有同源物種中具有相似結(jié)構(gòu)或功能的一類同源蛋白
- ko+num: 代謝通路名稱,表示一個(gè)特定的生物路徑
- M+ num: 模塊名稱
- C+ num: 化合物名稱
- E-,-,-,-: 酶名稱
- R + num : 反應(yīng)名
- RC+ num : 反映類型
- RP+num: 反應(yīng)物對(duì)
圖例作用關(guān)系:

如何繪制代謝通路圖
控制通路圖將自己的基因繪制在一個(gè)通路圖中
- 線分析工具—ipath2.0
- R包:pathview
今天簡(jiǎn)單介紹一下這個(gè)包。
#install
source("http://bioconductor.org/biocLite.R")
options(BioC_mirror="http://mirrors.ustc.edu.cn/bioc/")
biocLite("pathview")
library("pathview")
setwd("C:\\Users\\Administrator\\Desktop\\pathview")
rm(list=ls())
#載入數(shù)據(jù)文件
data(gse16873.d)
data(demo.paths)
cpd.data <- read.csv("sim.cpd.data2.csv",row.names=1)
?pathview
View(gse16873.d)
基因表達(dá)變化數(shù)據(jù)框gse16873.d如下所示,行是基因ID,列是樣本ID,變化范圍是-1到1.`

代謝通路數(shù)據(jù)demo.paths結(jié)構(gòu)如下:

基本參數(shù):
#Usage
pathview(gene.data = NULL, cpd.data = NULL, pathway.id,
species = "hsa", kegg.dir = ".", cpd.idtype = "kegg", gene.idtype =
"entrez", gene.annotpkg = NULL, min.nnodes = 3, kegg.native = TRUE,
map.null = TRUE, expand.node = FALSE, split.group = FALSE, map.symbol =
TRUE, map.cpdname = TRUE, node.sum = "sum", discrete=list(gene=FALSE,
cpd=FALSE), limit = list(gene = 1, cpd = 1), bins = list(gene = 10, cpd
= 10), both.dirs = list(gene = T, cpd = T), trans.fun = list(gene =
NULL, cpd = NULL), low = list(gene = "green", cpd = "blue"), mid =
list(gene = "gray", cpd = "gray"), high = list(gene = "red", cpd =
"yellow"), na.col = "transparent", ...)
Note that gene.data and cpd.data can't be NULL simultaneously.
gene.data是需要提供的基因向量,默認(rèn)是Entrez_ID。其由gene.idtype決定
cpd.data 指的藥物分子的名稱向量。
Pathway.id指的是在KEGG中的ID。
kegg.native默認(rèn)是TRUE輸出完整pathway的png格式文件,反之輸出僅是輸入的基因列表的pdf文件。
Map.null默認(rèn)是TRUE,當(dāng)使用FALSE時(shí)其pdf的文件圖像會(huì)更漂亮
Split.group 主要是在kegg.native為FALSE的時(shí)候會(huì)起到一定的作用,主要是將在同一個(gè)反應(yīng)的基因歸在一起。
new.signature=FALSE將會(huì)將標(biāo)簽去掉,只顯示圖像
#原始的kegg.native=TRUE時(shí)的圖像繪制
pv.out <- pathview(gene.data = gse16873.d[, 1], pathway.id =
demo.paths$sel.paths[3], species ="hsa", out.suffix = "gse168731", gene.idtype =
"entrez", gene.annotpkg = NULL,min.nnodes = 3, kegg.native =TRUE,
map.null = FALSE, expand.node =FALSE,split.group =FALSE, map.symbol =
TRUE,new.signature=FALSE)

#kegg.native =FALSE:
pv.out <- pathview(gene.data =gse16873.d[, 1], pathway.id =
demo.paths$sel.paths[3], species ="hsa", out.suffix = "gse168732", gene.idtype =
"entrez", gene.annotpkg = NULL,min.nnodes = 3, kegg.native =FALSE,
map.null = FALSE, expand.node =FALSE,split.group =FALSE, map.symbol =
TRUE,new.signature=FALSE)

#進(jìn)一步如果想將所有同一個(gè)反應(yīng)的基因歸在一起,那么需要設(shè)置參數(shù)split.group =TRUE:
pv.out <- pathview(gene.data =gse16873.d[, 1], pathway.id =
demo.paths$sel.paths[1], species ="hsa", out.suffix = "gse168733", gene.idtype =
"entrez", gene.annotpkg = NULL,min.nnodes = 3, kegg.native =FALSE,
map.null = FALSE, expand.node =FALSE,split.group =TRUE, map.symbol =
TRUE,new.signature=FALSE)

#KEGG view: both gene and compound data
sim.cpd.data=sim.mol.data(mol.type="cpd", nmol=3000)
pv.out <- pathview(gene.data = gse16873.d[, 1], cpd.data = sim.cpd.data,
pathway.id = demo.paths$sel.paths[3], species = "hsa", out.suffix =
"gse16874.cpd", keys.align = "y", kegg.native = TRUE, key.pos = demo.paths$kpos1[3])

#multiple states in one graph
pv.out <- pathview(gene.data = gse16873.d[, 1:6],
cpd.data = cpd.data[, 1:6], pathway.id = demo.paths$sel.paths[3],
species = "hsa", out.suffix = "gse16875", keys.align = "y",
kegg.native = TRUE, match.data = FALSE, multi.state = TRUE, same.layer = TRUE)

pathview在線版
Pathview: An R package for pathway based data integration and visualization
數(shù)據(jù)分析-【KEGG相關(guān)包-clusterProfiler,Pathview的學(xué)習(xí)】
經(jīng)典信號(hào)通路作圖工具包
R語(yǔ)言實(shí)現(xiàn)KEGG通路富集可視化
KEGG信號(hào)通路的展示
KEGG簡(jiǎn)介、如何使用KEGG進(jìn)行通路富集?