一:安裝blast
1. 下載blast:
$wget ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/ncbi-blast-2.9.0+-x64-linux.tar.gz
2. 解壓:?
$tar zxvf ncbi-blast-2.6.0+-x64-linux.tar.gz
3. 將blast添加進(jìn)環(huán)境
$vim ~/.bashrc
$export PATH=/data1/spider/ytbiosoft/ncbi-blast-2.8.1+/bin:$PATH (不加的話就全路徑調(diào)用)
4. 調(diào)用.bashrc
source??~/.bashrc
blast安裝完成,可以blastn -version查看你的版本。
二:建database
確保安裝好了本地blast之后,下載想要的序列建庫(以下以nr,nt建庫為例).
1. 建庫:
核酸
$nohup makeblastdb -in nt -input_type fasta -dbtype nucl -parse_seqids -out nt -logfile nt.log &? ? ?建議掛后臺
蛋白序列
$nohup makeblastdb -in nr -input_type fasta -dbtype prot -parse_seqids -out nr -logfile nr.log &? ??建議掛后臺
2. 比對
$blastx -query *.fasta -db nr -out out.file.name
$blastn -query *.fasta -db nt -out out.file.name
一些比對的參數(shù):
-query <File_In>? ? 需要比對的序列
-db <String>? ? 建立好的數(shù)據(jù)庫名
-out <File_Out>? ? 輸出文件的名字
-evalue <Real>? ? evalue值(默認(rèn)10)
-outfmt <String>【6=Tabular,11= BLAST archive (ASN.1)】? 輸出文件格式【一般選6或11】
-num_threads ?線程數(shù)
輸出的文件形式也可以選擇其他:

##用diamond建庫比對更快(只限于比對蛋白數(shù)據(jù)庫)
$diamond makedb --in nr.fa -d nr
$diamond blastx -d nr -q *.fasta -o out.file.name
3. 查看輸出結(jié)果(我輸出的是11,asn格式)

4. 如果你輸出6的話如下:

會生成12列的tabular格式文件,每一列代表的是啥如下:
?1.?qseqid?query (e.g., gene) sequence id
?2.?sseqid?subject (e.g., reference genome) sequence id
?3.?pident?percentage of identical matches
?4.?length?alignment length
?5.?mismatch?number of mismatches
?6.?gapopen?number of gap openings
?7.?qstart?start of alignment in query
?8.?qend?end of alignment in query
?9.?sstart?start of alignment in subject
?10.?send?end of alignment in subject
?11.?evalue?expect value
?12.?bitscore?bit score
5. 最后你可以把你想要的那一列或幾列提取出來:
$cat file.name |awk '{print $n}' > new.file.name????[$n: 你需要那列n就是幾]
6. 你也可以對生成的文件按第4列長度排序:
$cat?file.name |sort -n -r -k4 > new.file.name.sort? [k4:代表第四列alignment length]??
最后歡迎聯(lián)系我互相交流,我也是學(xué)習(xí)。909474045@qq.com