細(xì)菌測(cè)序后想要查找其攜帶的毒力基因和耐藥基因?ABRicate我覺(jué)得還行

細(xì)菌測(cè)序組裝完成后,想要查找菌株攜帶的已知的毒力基因和耐藥基因,我首推使用ABRicate
推薦使用conda安裝:
conda install abricate
安裝完成后,運(yùn)行
abricate --check
檢查安裝是否完成

Checking dependencies are installed:
Found 'blastn' => /root/miniconda3/bin/blastn
Found 'blastx' => /root/miniconda3/bin/blastx
Found 'makeblastdb' => /root/miniconda3/bin/makeblastdb
Found 'blastdbcmd' => /root/miniconda3/bin/blastdbcmd
Found 'any2fasta' => /root/miniconda3/bin/any2fasta
Found 'gzip' => /bin/gzip
Found 'unzip' => /root/miniconda3/bin/unzip
OK.

運(yùn)行
abricate --list
查看現(xiàn)有數(shù)據(jù)庫(kù)

DATABASE        SEQUENCES       DBTYPE  DATE
argannot        2223    nucl    2020-Feb-20
card    2617    nucl    2020-Feb-20
ecoh    597     nucl    2020-Feb-20
ecoli_vf        2701    nucl    2020-Feb-20
ncbi    5283    nucl    2020-Feb-20
plasmidfinder   460     nucl    2020-Feb-20
resfinder       3077    nucl    2020-Feb-20
vfdb    2597    nucl    2020-Feb-20

確認(rèn)無(wú)誤后,就可以開(kāi)始使用。示例用NCBI數(shù)據(jù)庫(kù)中的一株大腸桿菌GCF_000671295.1為例。
用vfdb數(shù)據(jù)庫(kù)查找該菌株的已知的毒力基因(指定覆蓋度90: --mincov 90,相似度95:--minid 95,覆蓋度和相似度按需調(diào)節(jié),也可以默認(rèn);以CSV文件輸出結(jié)果: --csv 若想要后續(xù)合并統(tǒng)計(jì),則不需要指定,直接輸出.tab文件)
abricate --db vfdb --mincov 90 --minid 95 --csv GCF_000671295.1_ASM67129v1_genomic.fna > vfdb.result.csv
顯示找到102個(gè)符合條件的毒力基因

Using nucl database vfdb:  2597 sequences -  2020-Feb-20
Processing: GCF_000671295.1_ASM67129v1_genomic.fna
Found 102 genes in GCF_000671295.1_ASM67129v1_genomic.fna

具體請(qǐng)查看運(yùn)行命令時(shí)目錄下的輸出文件(vfdb.result.csv)
耐藥基因的查找類(lèi)似,只需要改變所用數(shù)據(jù)庫(kù)就可以了。

倘若abricate自帶的數(shù)據(jù)庫(kù)沒(méi)有合適的,或者自己找到更好的數(shù)據(jù)庫(kù)/利用自己的數(shù)據(jù)做數(shù)據(jù)庫(kù),可以自建數(shù)據(jù)庫(kù)用于比對(duì)。
這里使用Genomic Epidemiology的毒力基因數(shù)據(jù)庫(kù)virulencefinder_db 為例
下載下來(lái)后有若干個(gè)fasta文件,對(duì)應(yīng)不同類(lèi)型的毒力基因。

virulencefinder_db.jpg

以其中的listeria.fsa為例
abricate是用conda安裝的話,去到abricate的數(shù)據(jù)庫(kù)文件夾

root@LAPTOP-ASRLQ90C:/mnt/d/ecoli: cd /root/miniconda3/db/  #去到abricate的數(shù)據(jù)庫(kù)文件夾#
root@LAPTOP-ASRLQ90C:~/miniconda3/db: ls #查看當(dāng)前目錄文件#
abricate  argannot  blast  card  cm  ecoh  ecoli_vf  genus  hmm  kingdom  ncbi  plasmidfinder  pubmlst  resfinder  scheme_species_map.tab  vfdb
root@LAPTOP-ASRLQ90C:~/miniconda3/db: mkdir listeria #新建文件夾用于存放數(shù)據(jù)庫(kù)文件#
root@LAPTOP-ASRLQ90C:~/miniconda3/db: cd listeria/
root@LAPTOP-ASRLQ90C:~/miniconda3/db/listeria: cp /mnt/d/ecoli/genomicepidemiology-virulencefinder_db-13d72a837b3c/listeria.fsa sequences #把用于構(gòu)建數(shù)據(jù)庫(kù)的fasta文件復(fù)制到新建的目錄中并且重命名為sequences#
root@LAPTOP-ASRLQ90C:~/miniconda3/db/listeria: ls #查看文件是否命名好了#
sequences
root@LAPTOP-ASRLQ90C:~/miniconda3/db/listeria: makeblastdb -in sequences -title listeria -dbtype nucl #用blast自帶的makeblastdb命令新建blast數(shù)據(jù)庫(kù)#

Building a new DB, current time: 02/25/2020 12:53:48
New DB name:   /root/miniconda3/db/listeria/sequences
New DB title:  listeria
Sequence type: Nucleotide
Keep MBits: T
Maximum file size: 1000000000B
Adding sequences from FASTA; added 92 sequences in 0.0148768 seconds.

root@LAPTOP-ASRLQ90C:~/miniconda3/db/listeria: abricate --list # 查看數(shù)據(jù)庫(kù)是否建立成功#
DATABASE        SEQUENCES       DBTYPE  DATE
argannot        2223    nucl    2020-Feb-20
card    2617    nucl    2020-Feb-20
ecoh    597     nucl    2020-Feb-20
ecoli_vf        2701    nucl    2020-Feb-20
listeria        92      nucl    2020-Feb-25  #建立成功,共有92個(gè)基因序列#
ncbi    5283    nucl    2020-Feb-20
plasmidfinder   460     nucl    2020-Feb-20
resfinder       3077    nucl    2020-Feb-20
vfdb    2597    nucl    2020-Feb-20

新建的數(shù)據(jù)庫(kù)可以直接用于比對(duì)查找,命令跟前面所說(shuō)的類(lèi)似。

輸出數(shù)據(jù)的統(tǒng)計(jì)
若已經(jīng)對(duì)多個(gè)菌株用同一個(gè)數(shù)據(jù)進(jìn)行查找后,生成的多個(gè)結(jié)果(.tab格式)可以用軟件自帶的歸納命令來(lái)做成一個(gè)統(tǒng)一的表格
abricate --summary 1.tab 2.tab 3.tab > summary.tab #假設(shè)3個(gè)輸出結(jié)果,最后匯總成summary.tab#

注意
abricate運(yùn)行時(shí)不可以一次輸入多個(gè)文件來(lái)批量處理,若要處理多個(gè)文件可以逐個(gè)分析,或者用“&&”一次掛上多條命令,有能力也可以自己寫(xiě)腳本進(jìn)行批量運(yùn)行。

命令詳解
輸入
abricate -h
可以查看軟件各個(gè)參數(shù)設(shè)置及具體意義

USAGE                                                                     
  % abricate --list     #列出所有數(shù)據(jù)庫(kù)#                                                  
  % abricate [options] <contigs.{fasta,gbk,embl}[.gz]> > out.tab    #基本用法#     
  % abricate --summary <out1.tab> <out2.tab> <out3.tab> ... > summary.tab  #匯總結(jié)果#
GENERAL                                                                   
  --help          This help.                                              
  --debug         Verbose debug output.                                   
  --quiet         Quiet mode, no stderr output.                           
  --version       Print version and exit.                                 
  --check         Check dependencies are installed.                       
  --threads [N]   Use this many BLAST+ threads [1].   #運(yùn)行所用線程數(shù),一般不設(shè)置#                
DATABASES                                                                 
  --setupdb       Format all the BLAST databases.                         
  --list          List included databases.   #列出所有數(shù)據(jù)庫(kù)#                              
  --datadir [X]   Databases folder [/root/miniconda3/db].    #數(shù)據(jù)庫(kù)默認(rèn)路徑,一般不用指定#             
  --db [X]        Database to use [ncbi].    #指定用于查找的數(shù)據(jù)庫(kù),默認(rèn)NCBI#                             
OUTPUT                                                                    
  --noheader      Suppress column header row.                             
  --csv           Output CSV instead of TSV.   #輸出結(jié)果為csv文件#                          
  --nopath        Strip filename paths from FILE column.                  
FILTERING                                                                 
  --minid [n.n]   Minimum DNA %identity [75].     #指定最小的覆蓋度  ,默認(rèn)75#                      
  --mincov [n.n]  Minimum DNA %coverage [0].  #指定最小的相似度,默認(rèn)0#                            
MODE                                                                      
  --summary       Summarize multiple reports into a table.   #匯總統(tǒng)計(jì)多個(gè)結(jié)果成一個(gè).tab文件,可以導(dǎo)入excel#             
DOCUMENTATION                                                             
  https://github.com/tseemann/abricate  #軟件的github源地址#    

參考
ABRicate源github地址:https://github.com/tseemann/abricate
Center for Genomic Epidemiology:http://www.genomicepidemiology.org/

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。
禁止轉(zhuǎn)載,如需轉(zhuǎn)載請(qǐng)通過(guò)簡(jiǎn)信或評(píng)論聯(lián)系作者。

友情鏈接更多精彩內(nèi)容