Contigs/Scaffolds序列經(jīng)基因預(yù)測、ORF開放閱讀框識別(Open Reading fr ame)和蛋白翻譯之后,就可以進行功能注釋分析了。我們將基因/蛋白序列在特定的數(shù)據(jù)庫中搜索比對,從而完成功能注釋分析。常用的功能數(shù)據(jù)庫主要包括KEGG、EggNOG、GO、COG和CAZy等。
功能注釋就是我們拿到翻譯的蛋白之后,與不同的功能(蛋白)數(shù)據(jù)庫進行對比。至于選擇哪種數(shù)據(jù)庫要看研究者的目的以及數(shù)據(jù)條件(如真核還是原核)。我們選擇COG數(shù)據(jù)庫,原因是目前單位還沒有相應(yīng)的流程,在一步步的操作中有助于我們的理解,僅此。
不同的功能數(shù)據(jù)庫可以用來解決具體問題,所以先看看COG是干嘛的,然后是怎樣注釋的,最后是注釋結(jié)果的解讀。
COG是干嘛的
COG,即Clusters of Orthologous Groups of proteins??梢岳斫鉃镃OG是NCBI的數(shù)據(jù)庫。COG的中文釋義即“同源蛋白簇”。COG分為兩類,一類是原核生物的,另一類是真核生物。原核生物的一般稱為COG數(shù)據(jù)庫;真核生物的一般稱為KOG數(shù)據(jù)庫。由NCBI創(chuàng)建并維護的蛋白數(shù)據(jù)庫,根據(jù)細菌、藻類和真核生物完整基因組的編碼蛋白系統(tǒng)進化關(guān)系分類構(gòu)建而成。通過比對可以將某個蛋白序列注釋到某一個COG中,每一簇COG由直系同源序列構(gòu)成,從而可以推測該序列的功能。COG數(shù)據(jù)庫按照功能一共可以分為二十六類。
蛋白質(zhì)直系同源簇
- 保守
- 相似的結(jié)構(gòu)和生物學(xué)功能(關(guān)鍵性調(diào)控蛋白)
- 重現(xiàn)物種的進化歷史
COG注釋作用:1. 通過已知蛋白對未知序列進行功能注釋; 2. 通過查看指定的COG編號對應(yīng)的protein數(shù)目,存在及缺失,從而能推導(dǎo)特定的代謝途徑是否存在; 3. 每個COG編號是一類蛋白,將query序列和比對上的COG編號的proteins進行多序列比對,能確定保守位點,分析其進化關(guān)系。當然,這里我們說的是第一種作用。
NCBI COG的數(shù)據(jù)庫主要更新歷史
- 從 1997 年 第一個公布版本,7個完整基因組,720個COG分類, 包含原核基因組和單細胞真核基因組(酵母),2003 年和2014 年進行了版本升級,最后只保留了細菌和古菌,包含了711個基因組以及4,631個COG分類, 26個功能分類。
- 2013 年構(gòu)建真核分支COG(KOG, Eukaryotic orthologous groups);
- 2007 年構(gòu)建古菌分支COG(arCOG, Archaeal Clusters of Orthologous Genes),2012 年和2014 年arCOG進一步升級,arCOG比較適合用于古菌基因組注釋;
- 2011 年構(gòu)建Phage分支COG(POG,phage orthologous groups),2013 年進行了升級;
由于計算資源需求,NCBI COG 構(gòu)建了不同系統(tǒng)分類分支的COG簇,比如arCOG,KOG, POG等,推薦使用這些分支對新測序基因組進行注釋,其實eggNOG 尤其是4.x版本也使用了clade特異的聚類模式。
其實,eggNOG(版本 4.5.1+) 數(shù)據(jù)庫對 NCBI COG 進行擴展,并包含了真核生物信息, 版本 3.0 被廣泛應(yīng)用于(元)基因組數(shù)據(jù)分析, 另外一個類似數(shù)據(jù)是 STRING (版本 10.0) 也可以實現(xiàn)COG/KOG的功能注釋,主要特色是蛋白質(zhì)相互作用注釋,eggNOG 升級到了 4.0 以后提供基于HMM隱馬爾可夫譜的分析,并提供了更細致的 OG 分析,可根據(jù)物種所屬的clade選擇參考數(shù)據(jù)集,可以有效的降低計算量,另一個特色就是提供了 GO以及其它注釋信息(KEGG/COG/SMART)關(guān)聯(lián)分析。
從2003年至2014年NCBI COG一直未更新,EMBL EggNOG(evolutionary genealogy of genes: Non-supervised Orthologous Groups)繼承了NCBI COG的衣缽,極大的擴展了基因組信息。 4.5.1 版本, 把包含了2,031個基因組, 其中 352病毒基因組, 190k個直系同源家族。如果做了eggNOG功能注釋還有必要做COG注釋嗎?
eggNOG 數(shù)據(jù)庫包含了豐富的注釋信息,除了COG/KOG/NOG的分類和注釋信息外,還包含了KEGG/GO/SMART/PFAM信息。
新版本的EggNOG 還提供了自動化注釋工具eggnog-mapper,可很方便的完成基因組的功能注釋,注釋信息可以關(guān)聯(lián)COG/KOG/KEGG/GO/BiGG等。

怎樣注釋的
既然EggNOG數(shù)據(jù)庫比COG數(shù)據(jù)庫更新更全面,那我們還講COG干嘛?要知道,COG老是老了一點,那是人家經(jīng)典。而且目前兩者都可以用同一種比對軟件來注釋,所以不影響閱讀。序列決定結(jié)構(gòu),結(jié)構(gòu)決定功能。功能注釋本質(zhì)是目標蛋白序列同功能蛋白序列數(shù)據(jù)庫的比對過程。
宏基因組數(shù)據(jù)比對神器 DIAMOND(double index alignment of
next-generation sequencing data))
2015年nature methods上發(fā)布了一款新的比對軟件DIAMOND,是一款新的用于短DNA測序reads與蛋白參考數(shù)據(jù)庫比對的工具。以Illumina的100~150 bp的reads為例,在快速模式下,DIAMOND比對速度比BLASTX要快20,000倍,可以報告BLASTX發(fā)現(xiàn)的80-90%的比對數(shù)據(jù),e-value至多為1e-5。如果使用靈敏模式,DIAMOND的比對速度也要比BLASTX快2,500倍,可以報告超過94%的比對數(shù)據(jù)。
1)使用DIAMOND軟件將 Unigenes 與各功能數(shù)據(jù)庫進行比對(blastp,evalue ≤ 1e-5)
2)比對結(jié)果過濾:對于每一條序列的 比對結(jié)果,選取 score 最高的比對結(jié)果(one HSP > 60 bits)進行后續(xù)分析
Function/DIAMOND/diamond blastp -q Unigenes_50.fa -d database/COG/cog_clean.fa -t COG/blastout -p 4 -e 1e-5 -k 50 --sensitive -o Unigenes_50.fa.m8
- double indexing
- spaced seeds
比對結(jié)果,m8格式12列對應(yīng)的含義依次是:

Query id:查詢序列ID標識
Subject id:比對上的目標序列ID標識
% identity:序列比對的一致性百分比
alignment length:符合比對的比對區(qū)域的長度
mismatches:比對區(qū)域的錯配數(shù)
gap openings:比對區(qū)域的gap數(shù)目
q. start:比對區(qū)域在查詢序列(Query id)上的起始位點
q. end:比對區(qū)域在查詢序列(Query id)上的終止位點
s. start:比對區(qū)域在目標序列(Subject id)上的起始位點
s. end:比對區(qū)域在目標序列(Subject id)上的終止位點
e-value:比對結(jié)果的期望值,解釋是大概多少次隨即比對才能出現(xiàn)一次這個score,Evalue越小,表明這種情況,從概率上越不可能發(fā)生,但是現(xiàn)在發(fā)生了,所以這個比對具有很重要的意義
bit score:比對結(jié)果的bit score值
功能層級:
INFORMATION STORAGE AND PROCESSING
[J] Translation, ribosomal structure and biogenesis
[A] RNA processing and modification
[K] Transcription
[L] Replication, recombination and repair
[B] Chromatin structure and dynamics
CELLULAR PROCESSES AND SIGNALING
[D] Cell cycle control, cell division, chromosome partitioning
[Y] Nuclear structure
[V] Defense mechanisms
[T] Signal transduction mechanisms
[M] Cell wall/membrane/envelope biogenesis
[N] Cell motility
[Z] Cytoskeleton
[W] Extracellular structures
[U] Intracellular trafficking, secretion, and vesicular transport
[O] Posttranslational modification, protein turnover, chaperones
[X] Mobilome: prophages, transposons
METABOLISM
[C] Energy production and conversion
[G] Carbohydrate transport and metabolism
[E] Amino acid transport and metabolism
[F] Nucleotide transport and metabolism
[H] Coenzyme transport and metabolism
[I] Lipid transport and metabolism
[P] Inorganic ion transport and metabolism
[Q] Secondary metabolites biosynthesis, transport and catabolism
POORLY CHARACTERIZED
[R] General function prediction only
[S] Function unknown


3)從比對結(jié)果出發(fā),統(tǒng)計不同功能層級的相對豐度(各功能層級的相對豐度等于注釋為該功能層級的基因的相對豐度之和),其中,KEGG 數(shù)據(jù)庫劃分為 5 個層級,eggNOG 數(shù)據(jù)庫劃分為 3 個層級,CAZy 數(shù)據(jù)庫劃分為 3 個層級,各數(shù)據(jù)庫的詳細劃分層級如下所示:

4)從功能注釋結(jié)果及基因豐度表出發(fā),獲得各個樣品在各個分類層級上的基因數(shù)目表,對于某個功能在某個樣品中的基因數(shù)目,等于在注釋為該功能的基因中,豐度不為 0 的基因數(shù)目;

說明 橫坐標表示COG功能類型,縱坐標表示注釋上的基因個數(shù)。
5)從各個分類層級上的豐度表出發(fā),進行注釋基因數(shù)目統(tǒng)計,相對豐度概況展示,豐度聚類熱圖展示,PCA和NMDS降維分析,基于功能豐度的Anosim組間(內(nèi))差異分析,代謝通路比較分析,組間功能差異的Metastat和LEfSe分析。
宏基因組學(xué)那些事之數(shù)據(jù)庫與軟件
每日一生信--COG注釋(終結(jié)版)
diamod安裝及使用說明閱讀筆記
序列功能注釋神器:eggNOG-mapper,KEGG/COG/KOG/GO/BiGG 一網(wǎng)打盡
諾禾致源宏基因組結(jié)題報告
諾禾致源擴增子結(jié)題報告