本地化BLAST+詳細使用方法

序列相似性搜索是重要的生物信息學研究之一,常常為新測序基因組或序列片段的功能提供參考,而BLAST是這一系列工具中最流行的相似性搜索工具。1989年,美國國家生物技術信息中心(NCBI)首次推出BLAST。自第一版以來,NCBI一直在維護和更新BLAST版本。 2009年,NCBI推出了新版本的獨立式BLAST應用程序(BLAST +),現在的版本已更新到2.7.1。BLAST+與BLAST相比,有很多改進和提高,可以加快搜索速度,并在輸出格式和搜索輸入方面提供更大的靈活性,主要有以下幾點:

  1. 分割較長的查詢序列以減少內存使用,并且充分利用現代CPU的運算能力;
  2. 使用數據庫索引來顯著加快搜索的速度;
  3. 具有保存稍后可用于開始新一輪搜索的“搜索策略”的能力;
  4. 在表格式結果的格式化方面具有更大的靈活性。

NCBI強烈推薦放棄BLAST,使用BLAST+, 這里說的BLAST和BLAST+,都是本地的,與那個批量BLAST小程序不是一回事。BLAST+下載地址:NCBI BLAST+ 。

BLAST+的一般用法如下:

格式化數據庫

makeblastdb -in db.fasta -dbtype prot -out dbname

參數說明:

-in:待格式化的序列文件

-dbtype:數據庫類型,prot或nucl

-out:數據庫名

蛋白序列比對蛋白數據庫(blastp)

blastp -query seq.fasta -out seq.blast -db dbname -outfmt 6 -evalue 1e-5 -num_threads 4

參數說明:

-query: 輸入文件路徑及文件名

-out:輸出文件路徑及文件名

-db:格式化了的數據庫路徑及數據庫名

-outfmt:輸出文件格式,總共有12種格式,6是tabular格式對應之前BLAST的m8格式

-evalue:設置輸出結果的e-value值

-num_threads:線程數

核酸序列比對核酸數據庫(blastn)以及核酸序列比對蛋白數據庫(blastx)

與上面的blastp用法類似:

blastn -query seq.fasta -out seq.blast -db dbname -outfmt 6 -evalue 1e-5 -num_threads 4

blastx -query seq.fasta -out seq.blast -db dbname -outfmt 6 -evalue 1e-5 -num_threads 4

以上的參數說明只是一些常用的參數,完整的參數說明可以用-help查詢,關于BLAST的詳細介紹可以參考BLAST的官方文檔

參考:

  • 有個博客:BLAST+使用方法
  • BLAST? Command Line Applications User Manual [Internet].
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

友情鏈接更多精彩內容