Windows本地化運行NCBI blast+

一、 軟件安裝:

  1. 下載軟件包
    https://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/
  2. 安裝
    選擇指定的路徑,如本人的
    C:\software\NCBI\blast-2.6.0+
  3. 環(huán)境變量設(shè)置
    BLAST環(huán)境變量配置(百度教程一大堆)
  • 右鍵點擊“我的電腦”-“屬性”,然后選擇“高級系統(tǒng)設(shè)置”標簽-“環(huán)境變量”,在用戶變量下方“Path”隨安裝過程已自動添加其變量值,即 “C:\software\NCBI\blast-2.6.0+\bin”。
    現(xiàn)在軟件安裝時,已經(jīng)自動添加到了環(huán)境變量中了。
  • 在C:\software\NCBI\blast-2.6.0+目錄下新建bd文件夾。
    點擊“新建”-變量名“blastdb”,變量值為“C:\software\NCBI\blast-2.6.0+\db”(即數(shù)據(jù)庫路徑,并關(guān)聯(lián)到這個文件夾)。
圖片.png

點擊 Win + R,輸入“cmd”調(diào)出 MS-DOS 命令行,轉(zhuǎn)到 Blast 安裝目錄,輸入命令“blastn -version”即可查看版本

cd C:\software\NCBI\blast-2.6.0+
blastn -version
圖片.png

以上步驟成功安裝了BLAST軟件。

二、本地運行BLAST:

blast+本地數(shù)據(jù)庫的構(gòu)建

直接從 NCBI或者其他數(shù)據(jù)庫網(wǎng)站下載所需序列做成數(shù)據(jù)庫,或者自己已有的測序數(shù)據(jù)(格式為 fasta,可自己命名)。 下載的基因組先用壓縮軟件解壓,然后用makeblastdb.exe格式化。

  1. 數(shù)據(jù)庫下載的數(shù)據(jù)格式化

首先將GCF_000789215.1_ASM78921v2_genomic.fna放到C:\software\NCBI\blast-2.6.0+\db文件夾下,然后調(diào)出MS-DOS命令行,轉(zhuǎn)到E:\blast\db文件夾下運行以下命令:

#blast構(gòu)建索引 :
makeblastdb -in GCF_000789215.1_ASM78921v2_genomic.fna -dbtype nucl -title Bd_scaffold_2014 -out Bd_scaffold_2014 -parse_seqids -hash_index 

會在路徑下生成若干個構(gòu)建索引文件,這些都是之后比對所需的。

  • 圖片.png

-in參數(shù)后面接將要格式化的數(shù)據(jù)庫,
-parse_seqids, -hash_index兩個參數(shù)一般都帶上,主要是為blastdbcmd取子序列時使用,-dbtype 后接所格式化的序列的類型,核酸用 nucl,蛋白質(zhì)用prot

  1. 自己的fasta文件構(gòu)建數(shù)據(jù)庫(拿到的文件是fasta格式)
makeblastdb -in GCA_020283865.1_ASM2028386v1_genomic.fasta -dbtype nucl -parse_seqids -out Bd_chr_2021 -title "Bactrocera dorsalis"
圖片.png
  1. blast的使用方法
    本文以mirna.fasta作為查詢序列,以構(gòu)建的兩個數(shù)據(jù)庫文件為例進行講解。首先將mirna.fasta放到C:\software\NCBI\blast-2.6.0+文件夾下,然后調(diào)出MS-DOS命令行,轉(zhuǎn)到C:\software\NCBI\blast-2.6.0+文件夾下運行以下命令:
# 自己構(gòu)建的數(shù)據(jù)庫
blastn.exe -task blastn -query mirna.fasta -dbBd_scaffold_2014 -out out.txt

-task 后面選擇你所要用的程序,blastn,blatp,tblastx 等;
-query 后接查詢序列的文件名稱;
-db 后接格式化好的數(shù)據(jù)庫名稱;
-out 后接要輸出的文件名稱及格式;
-evalue: 設(shè)置e值cutoff
-max_target_seqs:設(shè)置最多的目標序列匹配數(shù)
-num_threads:指定多少個cpu運行任務(wù)

比對結(jié)束后可在blast文件夾下查看結(jié)果,本文存結(jié)果的文件名為out.txt

*.faa = FASTA Amino Acid file 其內(nèi)容是物種內(nèi)所有基因?qū)?yīng)的fasta格式的蛋白質(zhì)序列信息
*.ffn = FASTA nucleotide coding regions file其內(nèi)容是物種內(nèi)所有基因的DNA序列信息,fasta格式
*.fna = FASTA Nucleic Acid file其內(nèi)容是使用fasta格式表示的物種全序列DNA信息。
.fa 是.fasta的縮寫
一個FNA文件是通過FASTA,一個DNA和蛋白質(zhì)序列比對軟件包中使用的數(shù)據(jù)文件。 FNA文件由FASTA文件格式使用。 FNA文件是基于文本的,并且可以使用通用的文本編輯器進行查看。

參考資料:

  1. Windows10 Blast本地化構(gòu)建、本地數(shù)據(jù)庫構(gòu)建及序列檢索
  2. Windows平臺下新版blast(2.2.24+)本地化構(gòu)建+數(shù)據(jù)庫下載+序列間的相似性檢索
  3. 構(gòu)建NCBI本地BLAST數(shù)據(jù)庫 (NR NT等) | blastx/diamond使用方法 | blast構(gòu)建索引 | makeblastdb
  4. window系統(tǒng)下本地blast+安裝與使用教程
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容