根據(jù)相似性原理，序列相似，功能相似，所有功能注釋無(wú)非是用比對(duì)工具將輸入序列比對(duì)到數(shù)據(jù)庫(kù)序列，再將輸入ID對(duì)應(yīng)數(shù)據(jù)庫(kù)ID，進(jìn)一步對(duì)應(yīng)到功能條目的關(guān)系。

數(shù)據(jù)庫(kù)要么建到本地，要么聯(lián)網(wǎng)調(diào)用API，一般的軟件或包做注釋都是通過(guò)聯(lián)網(wǎng)來(lái)獲得，或者調(diào)用依賴(lài)的一些專(zhuān)門(mén)注釋的包（文件較大）。工業(yè)生產(chǎn)中，一般需要構(gòu)建本地?cái)?shù)據(jù)庫(kù)。

如果不對(duì)原始數(shù)據(jù)庫(kù)按物種或其他分類(lèi)來(lái)進(jìn)行拆分的話(huà)，整個(gè)數(shù)據(jù)庫(kù)會(huì)很大，比對(duì)和注釋消耗的時(shí)間和資源都會(huì)很大，顯然不經(jīng)濟(jì)，而且也會(huì)有一些假陽(yáng)性的結(jié)果。比如將人特有的功能比對(duì)到了小鼠上，客戶(hù)無(wú)法結(jié)果。所以分庫(kù)是很有必要的，只是怎么分以及分多大的問(wèn)題。

KEGG本地庫(kù)文件

序列數(shù)據(jù)庫(kù)文件
如kegg_all_clean.fa

image.png
ko系列文件（ko與其他ID的對(duì)應(yīng)關(guān)系），ko與不同類(lèi)型數(shù)據(jù)庫(kù)
我們這里要用到的是ko和geneID的對(duì)應(yīng)關(guān)系，其他數(shù)據(jù)庫(kù)類(lèi)似

image.png

image.png

物種文件
misc下的taxonomy文件，按物種分庫(kù)的依據(jù)。

image.png
map目錄，通路圖。
每條通路有三個(gè)文件：png是通路圖，html是網(wǎng)頁(yè)通路，conf是通路的配置

image.png

conf文件內(nèi)容

image.png
map_title.tab文件，是通路的三個(gè)層級(jí)

image.png
ko_map.tab文件，是K與通路的全部物種對(duì)應(yīng)文件
是聯(lián)系注釋結(jié)果之間對(duì)應(yīng)關(guān)系的必需文件。

image.png
komap目錄下，是各個(gè)物種（三個(gè)字母縮寫(xiě)）的通路圖（png）及其配置（conf），以及該物種對(duì)應(yīng)的通路。
如人的komap/hsa目錄：

image.png

當(dāng)然也可以不細(xì)分到單物種，可以劃分物種大類(lèi)，如動(dòng)物、植物等，相對(duì)應(yīng)地文件animal_ko_map.tab、plant_ko_map.tab

利用上面的這些文件，其實(shí)我們就可以進(jìn)行KEGG Pathway功能注釋了，即存在這樣的關(guān)系：蛋白——序列ID（基因）——K號(hào)——ko（pathway）——Level1-3——通路圖。這樣得到的通路圖，都是map開(kāi)頭，即reference pathway；如果是物種特異通路，即ko開(kāi)頭，則用komap目錄結(jié)果。KEGG的5種通路類(lèi)型等基礎(chǔ)知識(shí)這里不講，不懂可去查。

如果要按物種進(jìn)行拆庫(kù)，則需要將上面的文件都按物種進(jìn)行分類(lèi)，使用是一樣的。

KEGG數(shù)據(jù)庫(kù)非常龐大，除了Pathway，genes等數(shù)據(jù)庫(kù)外，還有很多其他的文件，比如：

links目錄，pathway與其他ID的對(duì)應(yīng)關(guān)系

image.png

如pathway_ko.list

image.png
ligand目錄，即配體數(shù)據(jù)庫(kù)，不做介紹。

按物種拆分KEGG數(shù)據(jù)庫(kù)

1.獲得物種分類(lèi)信息

按物種拆分可大可?。鹤畲缶褪窃紟?kù)，最小就是單一物種，中間可以按不同分類(lèi)來(lái)拆。關(guān)鍵取決于你的輸入序列是什么成分，當(dāng)然不大不小恰好能全部包含是最理想的分庫(kù)結(jié)果。比如taxonomy文件（misc目錄下）格式是：

image.png

我們可以按Eukaryotes、Animals、Vertebrates、Mammals中的任一個(gè)層級(jí)來(lái)分。也可以自定義分類(lèi)，將不同物種添加到一起進(jìn)行歸類(lèi)。

這里寫(xiě)一個(gè)簡(jiǎn)單腳本來(lái)用上面文件中的第二層級(jí)物種來(lái)進(jìn)行數(shù)據(jù)庫(kù)分庫(kù)：

#!urs/bin/perl
open F , $ARGV[0];
while (<F>){
        chomp;
        if (/^## (.+)/){
            $spec=$1;
            open OUT, ">>$spec.specie.xls";
        }
        elsif (!/^#/){
            @aa=split/\t/,$_;
            print  OUT "$spec\t$aa[1]\t$aa[3]\n";
        }
    }

拆分后得到Animals.specie.xls、 Archaea.specie.xls、 Bacteria.specie.xls、 Fungi.specie.xls、 Plants.specie.xls、 Protists.specie.xls等系列分類(lèi)文件。如Animals.specie.xls文件如下：

image.png

2.獲得物種分類(lèi)的序列信息并建庫(kù)

從全部物種的原始序列數(shù)據(jù)庫(kù)中拆分出以上分類(lèi)物種的序列，編寫(xiě)如下get_fasta.pl腳本：

#!/usr/bin/perl
use strict;
use warnings;
use diagnostics;

unless(@ARGV>=2){
    print "perl $0 list.txt db.fa specie.fa\n";
    exit(1);
}
my %hash;
open L,"$ARGV[0]" or die "$!\n";
my %list;
while(<L>){
    chomp;
    my @aa=split/\t/,$_;
    $list{$aa[1]}='';
    }
close L;

my $num_need = scalar keys %list;
print("begin fetch $num_need sequence...\n");
open F,"$ARGV[1]" or die "$!\n";
my %seq;
while(<F>){
LINE:   #if(m/^>([^\|]+)/){
    if(/^>([^:]+):([^\s]+)/){
        chomp;
        my $acc = $1;
        my $line=$_;
        my $idd=$1.':'.$2;
        $hash{$idd}=$line;
        next unless exists $list{$acc};
        while(<F>){
            goto LINE if /^>/;
            s/[^a-z]//gsi;
            $seq{$idd} .= $_;
        }
        last;
    }
    elsif (/^>(12122[^\s]+)(.*)/){
        chomp;
        my $acc = $1;
                $hash{$1}=$_;
                next unless exists $list{$acc};
                while(<F>){
                        goto LINE if /^>/;
                        s/[^a-z]//gsi;
                        $seq{$acc} .= $_;
                }
                last;
        }
}
close F;
open O,">$ARGV[2]" or die "$!\n";
foreach my $acc (keys %seq){
        print O "$hash{$acc}\n$seq{$acc}\n";
    }
my $yesn = scalar keys %seq;
my $non = $num_need - $yesn;
if($non>=1){
    print "have $non sequence not found!\n";
}else{
    print "you have successfully got $yesn sequence!\n";
}
close O;

獲得分類(lèi)后的序列：

perl get_fasta.pl Animals.specie.xls kegg_all_clean.fa animals.fa

獲得分類(lèi)后的數(shù)據(jù)庫(kù)后，可用blast/diamond等軟件進(jìn)行建庫(kù)，以便進(jìn)行輸入序列的比對(duì)。

3.獲得物種分類(lèi)的K-ko對(duì)應(yīng)文件

從全部物種的ko_map.tab文件（K與通路的對(duì)應(yīng)關(guān)系文件）中獲取物種分類(lèi)后的子文件。編寫(xiě)腳本get_species_komap.pl：

#!/usr/bin/perl
=pod
this script is subsplit species komap
perl $0  species.xls  ko_genes.list  ko_map.tab species_ko_map.tab
=cut
my $spe=shift;
my $ko_gene=shift;
my $ko_map=shift;
my $map=shift;

my (%spe,%ko);

open F,"<$spe";
while(<F>){
    chomp;
    my @F=split/\t/,$_;
    $spe{$F[1]}=1;
    }
close F;

open F,"<$ko_gene";
while(<F>){
    chomp;
    my @F=split/\t/,$_;
    my $ko=(split/:/,$F[0])[1];
    my $spe=(split/:/,$F[1])[0];
    if(exists $spe{$spe}){
            $ko{$ko}=1;
        }
    }
close F;
open F,"<$ko_map";
open O,">$map";
while(<F>){
    chomp;
    my @F=split/\t/,$_;
    if(exists ($ko{$F[0]})){
            print O "$_\n";
        }
    }
close F;
close O;

得到animal_ko_map.tab文件，其他分類(lèi)物種也是類(lèi)似。

拆分子庫(kù)后比對(duì)獲得該子庫(kù)中的功能信息，后續(xù)注釋的數(shù)據(jù)處理其實(shí)和不分庫(kù)時(shí)是一樣的，都是一些文本的格式轉(zhuǎn)換以及可視化。

比如我們可將KEGG數(shù)據(jù)庫(kù)拆分：動(dòng)物animal.fa、植物plant.fa、真菌fungi.fa、真核eukaryotes.fa、原核prokaryote.fa、原生生物microorganism.fa，以及包含原核、真菌和原生生物三種組合的微生物庫(kù)other.fa，除動(dòng)植物、真菌、原核、原生之外但在KEGG數(shù)據(jù)庫(kù)中的其他生物unknow.fa。

后面比對(duì)注釋時(shí)只需設(shè)置物種參數(shù)即可。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

【數(shù)據(jù)庫(kù)】本地KEGG數(shù)據(jù)庫(kù)如何拆分子庫(kù)？

【數(shù)據(jù)庫(kù)】本地KEGG數(shù)據(jù)庫(kù)如何拆分子庫(kù)？

KEGG本地庫(kù)文件

按物種拆分KEGG數(shù)據(jù)庫(kù)

1.獲得物種分類(lèi)信息

2.獲得物種分類(lèi)的序列信息并建庫(kù)

3.獲得物種分類(lèi)的K-ko對(duì)應(yīng)文件

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

【數(shù)據(jù)庫(kù)】本地KEGG數(shù)據(jù)庫(kù)如何拆分子庫(kù)？

KEGG本地庫(kù)文件

按物種拆分KEGG數(shù)據(jù)庫(kù)

1.獲得物種分類(lèi)信息

2.獲得物種分類(lèi)的序列信息并建庫(kù)

3.獲得物種分類(lèi)的K-ko對(duì)應(yīng)文件

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av