具有相同功能的基因被歸類到kegg orthology 中,每個KO 代表具體的一個功能。在生命活動中,往往需要多個功能單位共同發(fā)揮作用,比如多個蛋白質構成復合體來發(fā)揮調(diào)控作用,此時多個KO就整合在了一起。這個例子說明在KO 之上,必然還存在一個分類系統(tǒng),將參與同一過程的多個KO劃分在一起。實際上,KEGG Module 數(shù)據(jù)庫就是存儲這種信息的數(shù)據(jù)庫。
KEGG Module 數(shù)據(jù)庫中的每條記錄代表一個功能單元,是多個KO的集合,叫做kegg module, 通過大寫字母M和數(shù)字進行標識;
module 數(shù)據(jù)庫包含以下4大類別的功能:
pathway modules
structural complexes
functional sets
signature modules
更加詳細的分類信息可以在brite 數(shù)據(jù)庫中找到,見以下鏈接
和pathway 類似,對于每條module 的記錄,都有一張對應的圖片,叫做module map。
M0002對應的map 如下圖
結合其詳細信息,我們來理解下module 的構成
從Definition 字段的信息,我們可以看到每個Module 有多個KO 構成,那么這些KO 之間有什么樣的關系呢,這就要從definition 字段的定義說起!
被空白分隔的每個字段叫做1個block, M0002 可以分成以下5個主要的block
K01803
((K00134,K00150) K00927,K11389)
(K01834,K15633,K15634,K15635)
K01689
(K00873,K12406)
在這里,空格代表的是邏輯與 AND 的關系,表示這5個block 一起發(fā)揮作用;
在(K01834,K15633,K15634,K15635) block 中,逗號代表邏輯或OR的關系,任何一個KO都可以起到這個blcok的作用。
注意在 ((K00134,K00150) K00927,K11389) 中同時出現(xiàn)了逗號和空格,為了正確區(qū)分,還使用了圓括號。圓括號內(nèi)為1個block, 所以K00134,K00150 為1個block, 這個block 和 K00927 用空白分隔,所以是AND關系,而逗號連接的是(K00134,K00150) K00927 和 K11389 兩個block。 所以這個block對應的map 就是上圖展示的那樣。理解了definition 字段的信息,不難發(fā)現(xiàn)根據(jù)該字段的信息,可以計算出這個module 對應的map。
除了空格和逗號之外,definition 還會出現(xiàn) +, - 。比如((K01878+K01879),K14164,K01880), 加號代表兩個KO一起作為一個block發(fā)揮作用,對應的map 圖為
減號代表可選項的意思,表示這個block可有可無。比如K01866 K01873 -K07587 -K11627 -K01884。減號連接的block 雖然可有可無,但是在map圖中還是會出現(xiàn)的。
由于module 由KO 發(fā)展而來,所以module 也是跨物種的概念。對于每個物種而言,也有該物種對應的module, 比如M0000 在human中對應的記錄為hsa_M00002;
在物種的module 中,根據(jù)包含的block的個數(shù),可以劃分成兩類
complete module, 包含reference module 中所有的block;
incomplete module , 只缺少了1個或者2個block;
在物種對應的module map 中,會對該物種對應的KO高亮顯示
總結
KEGG Module 數(shù)據(jù)庫是對KO的整合,每個module 代表1個功能單元,是多個KO的集合;
Module 由block 構成,definition 字段的信息需要理解空格,逗號,加號,減號的不同含義,根據(jù)definition 字段的信息可以計算得到module map;
3.module 是跨物種的概念,最原始的叫做reference module, 定義了block的數(shù)量; 物種對應的module 根據(jù)包含的block的完整性,可以分為complete module 和 incomplete module; 在物種對應的module map 中,對應的KO會高亮顯示