最近想要用blast找一些同源蛋白,由于網(wǎng)站上的blast給出的信息實(shí)在是很難提取啊,萌生了入坑本地blast的想法,之前已經(jīng)下載過blast本地軟件了,因此這次需要用到的東西就只有NR庫。
1.根據(jù)blast+中提供的腳本 update_blastdb.pl 可以查看和下載能夠下載的庫
update_blastdb.pl --showall

image.png
這里我選擇了nr庫(非冗余的蛋白庫)。
2.然后就是下載了,同樣也是使用blast+中的update_blastdb.pl 腳本
nohup update_blastdb.pl --decompress nr &> updata.log &
但是出現(xiàn)問題了。。。。查看log文件可以看到以下問題

image.png
對(duì)我這個(gè)菜鳥來說實(shí)在是看不懂,于是最簡(jiǎn)單的方法就是去看md5文件是否下載完整,可惜它同樣提示的Failed to download nr.00.tar.gz.md5 說明md5文件也沒有下載下來。
于是呢就用最笨的方法去看下載的結(jié)果
du -sh nr.00.tar.gz

image.png
ftp網(wǎng)站上給的大小是26G,這個(gè)文件應(yīng)該是下載完全了但是為什么只下了00一個(gè)文件呢,他有那么多文件

image.png
https://ftp.ncbi.nlm.nih.gov/blast/db/
自己下的好像少了些文件 不知道是不是因?yàn)槲蚁碌膎r.21的原因

image.png

image.png
3.重新?lián)Q了一個(gè)version,在log中沒有看到下的版本是哪個(gè),并且打開--passive(Use passive FTP, useful when behind a firewall or working in the cloud(default: true)
update_blastdb.pl --blastdb_version 5 --decompress nr --passive
還是出現(xiàn)了同樣的錯(cuò)誤

image.png
4.再換一個(gè)source嘗試一下,gcp(從Google Cloud Platform上下載)這個(gè)可能會(huì)占用大量資源,慎用!
update_blastdb.pl --blastdb_version 5 --decompress nr --passive --source gcp
5.其他方法:wget命令下載ftp鏈接:
https://ftp.ncbi.nlm.nih.gov/blast/db/nr-prot-metadata.json
下面鏈接中給出了nr數(shù)據(jù)庫的所有壓縮包,構(gòu)建下載文本,即需要將上述鏈接中的ftp鏈接放在一個(gè)文本中,然后可以在ftp文本每個(gè)ftp鏈接前加上wget指令:
例如
awk '{print "wget -c -nd -r -np -k -L -p -nd -P NR_database " $0}' nr_ftp.txt> nr_download_ftp.sh
整合結(jié)果如下

image.png
然后就是放后臺(tái)慢慢下載就好了
nohup bash nr_download_ftp.sh &