KEGG pathway 注釋整理

KEGG pathway 注釋整理

獲得KEGG注釋

通過eggnog-mapperinterproscan兩個(gè)軟件(或數(shù)據(jù)庫),可以獲得KEGG ORTHOLOGY(KO)的注釋,即基因或者轉(zhuǎn)錄本對(duì)應(yīng)的K number, 具體參見兩個(gè)軟件的wiki.

獲得KO與pathway的關(guān)系

進(jìn)入KEGG官網(wǎng),然后點(diǎn)擊KEGG BRITE進(jìn)入該數(shù)據(jù)庫,在這個(gè)數(shù)據(jù)庫中可以下載KEGG數(shù)據(jù)庫中手工創(chuàng)建的層次結(jié)構(gòu)文件(BRITE hierarchy files)。在這里,需要下載包含pathway和KO對(duì)應(yīng)關(guān)系的文件,點(diǎn)擊KEGG Orthology (KO)下載,這里下載json版本。

下面解析該文件,生成表格文件便于使用。

import json
import re

with open("ko00001.json") as f:
    ko_map_data = json.load(f)

with open("KEGG_pathway_ko.txt", "w") as oh:
    line = "level1_pathway_id\tlevel1_pathway_name\tlevel2_pathway_id\tlevel2_pathway_name"
    line += "\tlevel3_pathway_id\tlevel3_pathway_name\tko\tko_name\tko_des\tec\n"
    oh.write(line)
    for level1 in ko_map_data["children"]:
        m = re.match(r"(\S+)\s+([\S\w\s]+)", level1["name"])
        level1_pathway_id = m.groups()[0].strip()
        level1_pathway_name = m.groups()[1].strip()
        for level2 in level1["children"]:
            m = re.match(r"(\S+)\s+([\S\w\s]+)", level2["name"])
            level2_pathway_id = m.groups()[0].strip()
            level2_pathway_name = m.groups()[1].strip()
            for level3 in level2["children"]:
                m = re.match(r"(\S+)\s+([^\[]*)", level3["name"])
                level3_pathway_id = m.groups()[0].strip()
                level3_pathway_name = m.groups()[1].strip()
                if "children" in level3:
                    for ko in level3["children"]:
                        m = re.match(r"(\S+)\s+(\S+);\s+([^\[]+)\s*(\[EC:\S+(?:\s+[^\[\]]+)*\])*", ko["name"])
                        if m is not None:
                            ko_id = m.groups()[0].strip()
                            ko_name = m.groups()[1].strip()
                            ko_des = m.groups()[2].strip()
                            ec = m.groups()[3]
                            if ec==None:
                                ec = "-"
                        line = level1_pathway_id + "\t" + level1_pathway_name + "\t" + level2_pathway_id + "\t" + level2_pathway_name
                        line += "\t" + level3_pathway_id + "\t" + level3_pathway_name + "\t" + ko_id + "\t" + ko_name + "\t" + ko_des + "\t" + ec + "\n"
                        oh.write(line)

這會(huì)生成KEGG_pathway_ko.txt文件,隨后對(duì)行去重。

import pandas as pd

data = pd.read_csv("KEGG_pathway_ko.txt", sep="\t",dtype=str)

data = data.drop_duplicates()

data.to_csv("KEGG_pathway_ko_uniq.txt", index=False, sep="\t")

最后得到KEGG_pathway_ko_uniq.txt文件,這個(gè)文件包含了KO和KEGG pathway的對(duì)應(yīng)關(guān)系信息,也包含了pathway的級(jí)別分類(KEGG pathway分為3級(jí)),如下所示:

level1_pathway_id   level1_pathway_name level2_pathway_id   level2_pathway_name level3_pathway_id   level3_pathway_name ko  ko_name ko_des  ec
9100    Metabolism  9101    Carbohydrate metabolism 10  Glycolysis / Gluconeogenesis    K00844  HK  hexokinase  [EC:2.7.1.1]
9100    Metabolism  9101    Carbohydrate metabolism 10  Glycolysis / Gluconeogenesis    K12407  GCK glucokinase [EC:2.7.1.2]
9100    Metabolism  9101    Carbohydrate metabolism 10  Glycolysis / Gluconeogenesis    K00845  glk glucokinase [EC:2.7.1.2]

合并結(jié)果

現(xiàn)在是表格文件,和容易將上面多種對(duì)應(yīng)關(guān)系合并起來,進(jìn)行后續(xù)的分析,例如可以對(duì)KEGG的注釋結(jié)果按照KEGG中通路類型或者不同的level進(jìn)行分類匯總,又或者對(duì)特定的基因集進(jìn)行KEGG pathway的富集分析等。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 目錄寫在前面功能注釋數(shù)據(jù)庫介紹方法一: 以KEGG的注釋結(jié)果為主, 篩選出每個(gè)品種包含的特異通路及基因方法二: 利...
    bioinfo_boy閱讀 13,578評(píng)論 2 37
  • 歡迎關(guān)注公眾號(hào)oddxix KEGG 簡(jiǎn)介 KEGG全稱: Kyoto Encyclopedia of Genes...
    oddxix閱讀 13,027評(píng)論 1 55
  • 金錢就是一種觀念,你想讓它成為什么東西,它就成為什么東西。 在傳統(tǒng)教育中,我們幾乎不和孩子談錢的話題,...
    瀟瀟姑娘i閱讀 298評(píng)論 0 0
  • 今天和朋友約了吃串串香,愛吃肉肉的我們,至少吃了兩三斤豬皮,你沒看錯(cuò),只是豬皮就吃了這么多。數(shù)下來有180串,我們...
    8e744d4a988c閱讀 173評(píng)論 0 0
  • Topic 1 Amazon’s Empire 1. The former bookseller accounts...
    Blues372閱讀 156評(píng)論 0 0

友情鏈接更多精彩內(nèi)容