BLAST采用了一種局部序列比對(duì)的算法分析兩個(gè)序列中的相似區(qū)域,并計(jì)算統(tǒng)計(jì)顯著性。主要包括四大類:
1. Nucleotide BLAST
blastn: 將待查詢的核酸序列及其互補(bǔ)序列放到核酸庫(kù)中的一種查詢,庫(kù)中存在的每條已知序列都將同所查序列作一對(duì)一的核酸序列比對(duì)
2. Protein BLAST
blastp: 蛋白序列到蛋白庫(kù)中進(jìn)行查詢,庫(kù)中存在的每條已知序列將逐一地同每條所查序列作一對(duì)一的序列比對(duì)
3. BLASTX
核酸序列到蛋白庫(kù)中進(jìn)行查詢:先將待查詢的核酸序列按六種可讀框架(逐個(gè)向前三個(gè)堿基和逐個(gè)向后三個(gè)堿基讀碼)翻譯成蛋白質(zhì)序列,再去蛋白庫(kù)對(duì)翻譯成的每一條序列作一對(duì)一的蛋白序列比對(duì)
4. TBLASTN
蛋白序列到核酸庫(kù)查詢:先將核酸序列數(shù)據(jù)庫(kù)中的核酸序列按六種可讀框架翻譯成蛋白質(zhì)序列,然后將待測(cè)蛋白序列再與翻譯后的核算數(shù)據(jù)庫(kù)比對(duì)
在線比對(duì)



本地比對(duì)
一、下載blast+軟件
ftp://ftp.ncbi.nlm.nih.gov/blast/executables/LATEST/ncbi-blast-2.7.1+-x64-linux.tar.gz
二、下載nt、nr庫(kù)(300G+)
使用blast+ 自帶的update_blastdb.pl 直接運(yùn)行【優(yōu)點(diǎn):簡(jiǎn)單、日后升級(jí)數(shù)據(jù)庫(kù)方便;缺點(diǎn):速度慢,容易卡死】;
wget手動(dòng)下載,地址ftp://ftp.ncbi.nih.gov/blast/db 【優(yōu)點(diǎn):速度快,可斷點(diǎn)續(xù)傳;缺點(diǎn):日后更新的話需要再次下載】
三、配置本地.ncbirc文件
# 意思就是指引blast程序去哪里尋找你的數(shù)據(jù)庫(kù)
; Start the section for BLAST configuration
[BLAST]
; Specifies the path where BLAST databases are installed
BLASTDB=/home/ncbi/blast/db_nt
; Specifies the data sources to use for automatic resolution
; for sequence identifiers
DATA_LOADERS=blastdb
; Specifies the BLAST database to use resolve protein sequences
BLASTDB_PROT_DATA_LOADER=/home/ncbi/blast/db_nr/nr
; Specifies the BLAST database to use resolve protein sequences
BLASTDB_NUCL_DATA_LOADER=/home/ncbi/blast/db_nt/nt
; Specifies the BLAST database to use resolve protein sequences
BLASTDB_NUCL_DATA_LOADER=/home/ncbi/blast/mydb
BATCH_SIZE=10G
; Windowmasker settings
[WINDOW_MASKER]
WINDOW_MASKER_PATH=//home/ncbi/blast
; end of file
四、轉(zhuǎn)換數(shù)據(jù)格式
cat *.fasta > all_std.fasta
五、運(yùn)行
blast+提供了5個(gè)程序
| blastn | 進(jìn)行完全匹配的傳統(tǒng)blast |
|---|---|
| blastn-short | 查詢短于50個(gè)堿基的 |
| megablast | :查詢十分相似序列(如物種內(nèi)或者有關(guān)物種): |
| dc-megeblast | :查詢關(guān)系較遠(yuǎn)的序列(如物種間): |
| rmblastn | :兼容RepeatMasker: |
blastn -query all_std.fasta -db nt -outfmt 11 -out "all_std_fm11.blastn@nt.asn" -evalue 1e-5 -perc_identity 99 -num_alignments 10 -num_threads 10
-query: 要比對(duì)的序列
-db:比對(duì)的數(shù)據(jù)庫(kù)
-outfmt:輸出格式(共11種)
# 建議先使用-outfmt 11格式,之后可以任意轉(zhuǎn)換成1-10格式【具體格式信息命令行輸入blastn -h outfmt】
# 默認(rèn)是格式0,比較常用的是5、6、7,其中7是帶有注釋的表格形式
-out: 輸出文件名(可以自定義)
-evalue:輸出結(jié)果的e-value值,一般1e-5
-perc_identity:比對(duì)的最低相似度
-num_alignments:輸出比對(duì)上的數(shù)目(默認(rèn)200),不過(guò)一般幾百條序列,每一條比對(duì)結(jié)果有200個(gè),那也看不完,所以這里可以設(shè)置前10條
-num_threads:線程數(shù)
設(shè)置輸出格式為11后的格式轉(zhuǎn)換:
blast_formatter -archive "all_std_fm11.blastn@nt.asn" -outfmt "7" > "new_all_std_fm7.blastn@nt.asn"
六、查看結(jié)果

來(lái)源:劉小澤