序列相似性搜索是重要的生物信息學研究之一,常常為新測序基因組或序列片段的功能提供參考,而BLAST是這一系列工具中最流行的相似性搜索工具。1989年,美國國家生物技術信息中心(NCBI)首次推出BLAST。自第一版以來,NCBI一直在維護和更新BLAST版本。 2009年,NCBI推出了新版本的獨立式BLAST應用程序(BLAST +),現在的版本已更新到2.7.1。BLAST+與BLAST相比,有很多改進和提高,可以加快搜索速度,并在輸出格式和搜索輸入方面提供更大的靈活性,主要有以下幾點:
- 分割較長的查詢序列以減少內存使用,并且充分利用現代CPU的運算能力;
- 使用數據庫索引來顯著加快搜索的速度;
- 具有保存稍后可用于開始新一輪搜索的“搜索策略”的能力;
- 在表格式結果的格式化方面具有更大的靈活性。
NCBI強烈推薦放棄BLAST,使用BLAST+, 這里說的BLAST和BLAST+,都是本地的,與那個批量BLAST小程序不是一回事。BLAST+下載地址:NCBI BLAST+ 。
BLAST+的一般用法如下:
格式化數據庫
makeblastdb -in db.fasta -dbtype prot -out dbname
參數說明:
-in:待格式化的序列文件
-dbtype:數據庫類型,prot或nucl
-out:數據庫名
蛋白序列比對蛋白數據庫(blastp)
blastp -query seq.fasta -out seq.blast -db dbname -outfmt 6 -evalue 1e-5 -num_threads 4
參數說明:
-query: 輸入文件路徑及文件名
-out:輸出文件路徑及文件名
-db:格式化了的數據庫路徑及數據庫名
-outfmt:輸出文件格式,總共有12種格式,6是tabular格式對應之前BLAST的m8格式
-evalue:設置輸出結果的e-value值
-num_threads:線程數
核酸序列比對核酸數據庫(blastn)以及核酸序列比對蛋白數據庫(blastx)
與上面的blastp用法類似:
blastn -query seq.fasta -out seq.blast -db dbname -outfmt 6 -evalue 1e-5 -num_threads 4
blastx -query seq.fasta -out seq.blast -db dbname -outfmt 6 -evalue 1e-5 -num_threads 4
以上的參數說明只是一些常用的參數,完整的參數說明可以用-help查詢,關于BLAST的詳細介紹可以參考BLAST的官方文檔。
參考:
- 有個博客:BLAST+使用方法
- BLAST? Command Line Applications User Manual [Internet].