一、 軟件安裝:
- 下載軟件包
https://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/ - 安裝
選擇指定的路徑,如本人的
C:\software\NCBI\blast-2.6.0+ - 環(huán)境變量設(shè)置
BLAST環(huán)境變量配置(百度教程一大堆)
- 右鍵點擊“我的電腦”-“屬性”,然后選擇“高級系統(tǒng)設(shè)置”標簽-“環(huán)境變量”,在用戶變量下方“Path”隨安裝過程已自動添加其變量值,即 “C:\software\NCBI\blast-2.6.0+\bin”。
現(xiàn)在軟件安裝時,已經(jīng)自動添加到了環(huán)境變量中了。- 在C:\software\NCBI\blast-2.6.0+目錄下新建bd文件夾。
點擊“新建”-變量名“blastdb”,變量值為“C:\software\NCBI\blast-2.6.0+\db”(即數(shù)據(jù)庫路徑,并關(guān)聯(lián)到這個文件夾)。

點擊 Win + R,輸入“cmd”調(diào)出 MS-DOS 命令行,轉(zhuǎn)到 Blast 安裝目錄,輸入命令“blastn -version”即可查看版本
cd C:\software\NCBI\blast-2.6.0+
blastn -version

以上步驟成功安裝了BLAST軟件。
二、本地運行BLAST:
blast+本地數(shù)據(jù)庫的構(gòu)建
直接從 NCBI或者其他數(shù)據(jù)庫網(wǎng)站下載所需序列做成數(shù)據(jù)庫,或者自己已有的測序數(shù)據(jù)(格式為 fasta,可自己命名)。 下載的基因組先用壓縮軟件解壓,然后用makeblastdb.exe格式化。
- 數(shù)據(jù)庫下載的數(shù)據(jù)格式化
首先將GCF_000789215.1_ASM78921v2_genomic.fna放到C:\software\NCBI\blast-2.6.0+\db文件夾下,然后調(diào)出MS-DOS命令行,轉(zhuǎn)到E:\blast\db文件夾下運行以下命令:
#blast構(gòu)建索引 :
makeblastdb -in GCF_000789215.1_ASM78921v2_genomic.fna -dbtype nucl -title Bd_scaffold_2014 -out Bd_scaffold_2014 -parse_seqids -hash_index
會在路徑下生成若干個構(gòu)建索引文件,這些都是之后比對所需的。
- 圖片.png
-in參數(shù)后面接將要格式化的數(shù)據(jù)庫,
-parse_seqids, -hash_index兩個參數(shù)一般都帶上,主要是為blastdbcmd取子序列時使用,-dbtype 后接所格式化的序列的類型,核酸用 nucl,蛋白質(zhì)用prot
- 自己的fasta文件構(gòu)建數(shù)據(jù)庫(拿到的文件是fasta格式)
makeblastdb -in GCA_020283865.1_ASM2028386v1_genomic.fasta -dbtype nucl -parse_seqids -out Bd_chr_2021 -title "Bactrocera dorsalis"

- blast的使用方法
本文以mirna.fasta作為查詢序列,以構(gòu)建的兩個數(shù)據(jù)庫文件為例進行講解。首先將mirna.fasta放到C:\software\NCBI\blast-2.6.0+文件夾下,然后調(diào)出MS-DOS命令行,轉(zhuǎn)到C:\software\NCBI\blast-2.6.0+文件夾下運行以下命令:
# 自己構(gòu)建的數(shù)據(jù)庫
blastn.exe -task blastn -query mirna.fasta -dbBd_scaffold_2014 -out out.txt
-task 后面選擇你所要用的程序,blastn,blatp,tblastx 等;
-query 后接查詢序列的文件名稱;
-db 后接格式化好的數(shù)據(jù)庫名稱;
-out 后接要輸出的文件名稱及格式;
-evalue: 設(shè)置e值cutoff
-max_target_seqs:設(shè)置最多的目標序列匹配數(shù)
-num_threads:指定多少個cpu運行任務(wù)
比對結(jié)束后可在blast文件夾下查看結(jié)果,本文存結(jié)果的文件名為out.txt
*.faa = FASTA Amino Acid file 其內(nèi)容是物種內(nèi)所有基因?qū)?yīng)的fasta格式的蛋白質(zhì)序列信息
*.ffn = FASTA nucleotide coding regions file其內(nèi)容是物種內(nèi)所有基因的DNA序列信息,fasta格式
*.fna = FASTA Nucleic Acid file其內(nèi)容是使用fasta格式表示的物種全序列DNA信息。
.fa 是.fasta的縮寫
一個FNA文件是通過FASTA,一個DNA和蛋白質(zhì)序列比對軟件包中使用的數(shù)據(jù)文件。 FNA文件由FASTA文件格式使用。 FNA文件是基于文本的,并且可以使用通用的文本編輯器進行查看。
參考資料:
