細(xì)菌測(cè)序組裝完成后,想要查找菌株攜帶的已知的毒力基因和耐藥基因,我首推使用ABRicate
推薦使用conda安裝:
conda install abricate
安裝完成后,運(yùn)行
abricate --check
檢查安裝是否完成
Checking dependencies are installed:
Found 'blastn' => /root/miniconda3/bin/blastn
Found 'blastx' => /root/miniconda3/bin/blastx
Found 'makeblastdb' => /root/miniconda3/bin/makeblastdb
Found 'blastdbcmd' => /root/miniconda3/bin/blastdbcmd
Found 'any2fasta' => /root/miniconda3/bin/any2fasta
Found 'gzip' => /bin/gzip
Found 'unzip' => /root/miniconda3/bin/unzip
OK.
運(yùn)行
abricate --list
查看現(xiàn)有數(shù)據(jù)庫(kù)
DATABASE SEQUENCES DBTYPE DATE
argannot 2223 nucl 2020-Feb-20
card 2617 nucl 2020-Feb-20
ecoh 597 nucl 2020-Feb-20
ecoli_vf 2701 nucl 2020-Feb-20
ncbi 5283 nucl 2020-Feb-20
plasmidfinder 460 nucl 2020-Feb-20
resfinder 3077 nucl 2020-Feb-20
vfdb 2597 nucl 2020-Feb-20
確認(rèn)無(wú)誤后,就可以開(kāi)始使用。示例用NCBI數(shù)據(jù)庫(kù)中的一株大腸桿菌GCF_000671295.1為例。
用vfdb數(shù)據(jù)庫(kù)查找該菌株的已知的毒力基因(指定覆蓋度90: --mincov 90,相似度95:--minid 95,覆蓋度和相似度按需調(diào)節(jié),也可以默認(rèn);以CSV文件輸出結(jié)果: --csv 若想要后續(xù)合并統(tǒng)計(jì),則不需要指定,直接輸出.tab文件)
abricate --db vfdb --mincov 90 --minid 95 --csv GCF_000671295.1_ASM67129v1_genomic.fna > vfdb.result.csv
顯示找到102個(gè)符合條件的毒力基因
Using nucl database vfdb: 2597 sequences - 2020-Feb-20
Processing: GCF_000671295.1_ASM67129v1_genomic.fna
Found 102 genes in GCF_000671295.1_ASM67129v1_genomic.fna
具體請(qǐng)查看運(yùn)行命令時(shí)目錄下的輸出文件(vfdb.result.csv)
耐藥基因的查找類(lèi)似,只需要改變所用數(shù)據(jù)庫(kù)就可以了。
倘若abricate自帶的數(shù)據(jù)庫(kù)沒(méi)有合適的,或者自己找到更好的數(shù)據(jù)庫(kù)/利用自己的數(shù)據(jù)做數(shù)據(jù)庫(kù),可以自建數(shù)據(jù)庫(kù)用于比對(duì)。
這里使用Genomic Epidemiology的毒力基因數(shù)據(jù)庫(kù)virulencefinder_db 為例
下載下來(lái)后有若干個(gè)fasta文件,對(duì)應(yīng)不同類(lèi)型的毒力基因。

以其中的listeria.fsa為例
abricate是用conda安裝的話,去到abricate的數(shù)據(jù)庫(kù)文件夾
root@LAPTOP-ASRLQ90C:/mnt/d/ecoli: cd /root/miniconda3/db/ #去到abricate的數(shù)據(jù)庫(kù)文件夾#
root@LAPTOP-ASRLQ90C:~/miniconda3/db: ls #查看當(dāng)前目錄文件#
abricate argannot blast card cm ecoh ecoli_vf genus hmm kingdom ncbi plasmidfinder pubmlst resfinder scheme_species_map.tab vfdb
root@LAPTOP-ASRLQ90C:~/miniconda3/db: mkdir listeria #新建文件夾用于存放數(shù)據(jù)庫(kù)文件#
root@LAPTOP-ASRLQ90C:~/miniconda3/db: cd listeria/
root@LAPTOP-ASRLQ90C:~/miniconda3/db/listeria: cp /mnt/d/ecoli/genomicepidemiology-virulencefinder_db-13d72a837b3c/listeria.fsa sequences #把用于構(gòu)建數(shù)據(jù)庫(kù)的fasta文件復(fù)制到新建的目錄中并且重命名為sequences#
root@LAPTOP-ASRLQ90C:~/miniconda3/db/listeria: ls #查看文件是否命名好了#
sequences
root@LAPTOP-ASRLQ90C:~/miniconda3/db/listeria: makeblastdb -in sequences -title listeria -dbtype nucl #用blast自帶的makeblastdb命令新建blast數(shù)據(jù)庫(kù)#
Building a new DB, current time: 02/25/2020 12:53:48
New DB name: /root/miniconda3/db/listeria/sequences
New DB title: listeria
Sequence type: Nucleotide
Keep MBits: T
Maximum file size: 1000000000B
Adding sequences from FASTA; added 92 sequences in 0.0148768 seconds.
root@LAPTOP-ASRLQ90C:~/miniconda3/db/listeria: abricate --list # 查看數(shù)據(jù)庫(kù)是否建立成功#
DATABASE SEQUENCES DBTYPE DATE
argannot 2223 nucl 2020-Feb-20
card 2617 nucl 2020-Feb-20
ecoh 597 nucl 2020-Feb-20
ecoli_vf 2701 nucl 2020-Feb-20
listeria 92 nucl 2020-Feb-25 #建立成功,共有92個(gè)基因序列#
ncbi 5283 nucl 2020-Feb-20
plasmidfinder 460 nucl 2020-Feb-20
resfinder 3077 nucl 2020-Feb-20
vfdb 2597 nucl 2020-Feb-20
新建的數(shù)據(jù)庫(kù)可以直接用于比對(duì)查找,命令跟前面所說(shuō)的類(lèi)似。
輸出數(shù)據(jù)的統(tǒng)計(jì)
若已經(jīng)對(duì)多個(gè)菌株用同一個(gè)數(shù)據(jù)進(jìn)行查找后,生成的多個(gè)結(jié)果(.tab格式)可以用軟件自帶的歸納命令來(lái)做成一個(gè)統(tǒng)一的表格
abricate --summary 1.tab 2.tab 3.tab > summary.tab #假設(shè)3個(gè)輸出結(jié)果,最后匯總成summary.tab#
注意
abricate運(yùn)行時(shí)不可以一次輸入多個(gè)文件來(lái)批量處理,若要處理多個(gè)文件可以逐個(gè)分析,或者用“&&”一次掛上多條命令,有能力也可以自己寫(xiě)腳本進(jìn)行批量運(yùn)行。
命令詳解
輸入
abricate -h
可以查看軟件各個(gè)參數(shù)設(shè)置及具體意義
USAGE
% abricate --list #列出所有數(shù)據(jù)庫(kù)#
% abricate [options] <contigs.{fasta,gbk,embl}[.gz]> > out.tab #基本用法#
% abricate --summary <out1.tab> <out2.tab> <out3.tab> ... > summary.tab #匯總結(jié)果#
GENERAL
--help This help.
--debug Verbose debug output.
--quiet Quiet mode, no stderr output.
--version Print version and exit.
--check Check dependencies are installed.
--threads [N] Use this many BLAST+ threads [1]. #運(yùn)行所用線程數(shù),一般不設(shè)置#
DATABASES
--setupdb Format all the BLAST databases.
--list List included databases. #列出所有數(shù)據(jù)庫(kù)#
--datadir [X] Databases folder [/root/miniconda3/db]. #數(shù)據(jù)庫(kù)默認(rèn)路徑,一般不用指定#
--db [X] Database to use [ncbi]. #指定用于查找的數(shù)據(jù)庫(kù),默認(rèn)NCBI#
OUTPUT
--noheader Suppress column header row.
--csv Output CSV instead of TSV. #輸出結(jié)果為csv文件#
--nopath Strip filename paths from FILE column.
FILTERING
--minid [n.n] Minimum DNA %identity [75]. #指定最小的覆蓋度 ,默認(rèn)75#
--mincov [n.n] Minimum DNA %coverage [0]. #指定最小的相似度,默認(rèn)0#
MODE
--summary Summarize multiple reports into a table. #匯總統(tǒng)計(jì)多個(gè)結(jié)果成一個(gè).tab文件,可以導(dǎo)入excel#
DOCUMENTATION
https://github.com/tseemann/abricate #軟件的github源地址#
參考
ABRicate源github地址:https://github.com/tseemann/abricate
Center for Genomic Epidemiology:http://www.genomicepidemiology.org/