BLAST

BLAST采用了一種局部序列比對(duì)的算法分析兩個(gè)序列中的相似區(qū)域,并計(jì)算統(tǒng)計(jì)顯著性。主要包括四大類:
1. Nucleotide BLAST
blastn: 將待查詢的核酸序列及其互補(bǔ)序列放到核酸庫(kù)中的一種查詢,庫(kù)中存在的每條已知序列都將同所查序列作一對(duì)一的核酸序列比對(duì)
2. Protein BLAST
blastp: 蛋白序列到蛋白庫(kù)中進(jìn)行查詢,庫(kù)中存在的每條已知序列將逐一地同每條所查序列作一對(duì)一的序列比對(duì)
3. BLASTX
核酸序列到蛋白庫(kù)中進(jìn)行查詢:先將待查詢的核酸序列按六種可讀框架(逐個(gè)向前三個(gè)堿基和逐個(gè)向后三個(gè)堿基讀碼)翻譯成蛋白質(zhì)序列,再去蛋白庫(kù)對(duì)翻譯成的每一條序列作一對(duì)一的蛋白序列比對(duì)
4. TBLASTN
蛋白序列到核酸庫(kù)查詢:先將核酸序列數(shù)據(jù)庫(kù)中的核酸序列按六種可讀框架翻譯成蛋白質(zhì)序列,然后將待測(cè)蛋白序列再與翻譯后的核算數(shù)據(jù)庫(kù)比對(duì)

在線比對(duì)

在線比對(duì)方法

在線結(jié)果

在線結(jié)果

本地比對(duì)

一、下載blast+軟件

ftp://ftp.ncbi.nlm.nih.gov/blast/executables/LATEST/ncbi-blast-2.7.1+-x64-linux.tar.gz

二、下載nt、nr庫(kù)(300G+)

使用blast+ 自帶的update_blastdb.pl 直接運(yùn)行【優(yōu)點(diǎn):簡(jiǎn)單、日后升級(jí)數(shù)據(jù)庫(kù)方便;缺點(diǎn):速度慢,容易卡死】;
wget手動(dòng)下載,地址ftp://ftp.ncbi.nih.gov/blast/db 【優(yōu)點(diǎn):速度快,可斷點(diǎn)續(xù)傳;缺點(diǎn):日后更新的話需要再次下載】

三、配置本地.ncbirc文件

# 意思就是指引blast程序去哪里尋找你的數(shù)據(jù)庫(kù)
; Start the section for BLAST configuration

[BLAST]

; Specifies the path where BLAST databases are installed
BLASTDB=/home/ncbi/blast/db_nt

; Specifies the data sources to use for automatic resolution

; for sequence identifiers
DATA_LOADERS=blastdb

; Specifies the BLAST database to use resolve protein sequences
BLASTDB_PROT_DATA_LOADER=/home/ncbi/blast/db_nr/nr

; Specifies the BLAST database to use resolve protein sequences
BLASTDB_NUCL_DATA_LOADER=/home/ncbi/blast/db_nt/nt

; Specifies the BLAST database to use resolve protein sequences
BLASTDB_NUCL_DATA_LOADER=/home/ncbi/blast/mydb

BATCH_SIZE=10G

; Windowmasker settings

[WINDOW_MASKER]
WINDOW_MASKER_PATH=//home/ncbi/blast

; end of file

四、轉(zhuǎn)換數(shù)據(jù)格式

cat *.fasta > all_std.fasta

五、運(yùn)行

blast+提供了5個(gè)程序

blastn 進(jìn)行完全匹配的傳統(tǒng)blast
blastn-short 查詢短于50個(gè)堿基的
megablast :查詢十分相似序列(如物種內(nèi)或者有關(guān)物種):
dc-megeblast :查詢關(guān)系較遠(yuǎn)的序列(如物種間):
rmblastn :兼容RepeatMasker:
blastn -query all_std.fasta -db nt -outfmt 11 -out "all_std_fm11.blastn@nt.asn" -evalue 1e-5 -perc_identity 99 -num_alignments 10 -num_threads 10

-query: 要比對(duì)的序列
-db:比對(duì)的數(shù)據(jù)庫(kù)
-outfmt:輸出格式(共11種)
# 建議先使用-outfmt 11格式,之后可以任意轉(zhuǎn)換成1-10格式【具體格式信息命令行輸入blastn -h outfmt】
# 默認(rèn)是格式0,比較常用的是5、6、7,其中7是帶有注釋的表格形式
-out: 輸出文件名(可以自定義)
-evalue:輸出結(jié)果的e-value值,一般1e-5
-perc_identity:比對(duì)的最低相似度
-num_alignments:輸出比對(duì)上的數(shù)目(默認(rèn)200),不過(guò)一般幾百條序列,每一條比對(duì)結(jié)果有200個(gè),那也看不完,所以這里可以設(shè)置前10條
-num_threads:線程數(shù)

設(shè)置輸出格式為11后的格式轉(zhuǎn)換:

blast_formatter -archive "all_std_fm11.blastn@nt.asn" -outfmt "7" > "new_all_std_fm7.blastn@nt.asn"

六、查看結(jié)果

本地結(jié)果

來(lái)源:劉小澤

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容