NR數(shù)據(jù)庫的下載

最近想要用blast找一些同源蛋白,由于網(wǎng)站上的blast給出的信息實(shí)在是很難提取啊,萌生了入坑本地blast的想法,之前已經(jīng)下載過blast本地軟件了,因此這次需要用到的東西就只有NR庫。

1.根據(jù)blast+中提供的腳本 update_blastdb.pl 可以查看和下載能夠下載的庫

 update_blastdb.pl --showall
image.png

這里我選擇了nr庫(非冗余的蛋白庫)。

2.然后就是下載了,同樣也是使用blast+中的update_blastdb.pl 腳本

nohup update_blastdb.pl --decompress nr &> updata.log &

但是出現(xiàn)問題了。。。。查看log文件可以看到以下問題


image.png

對(duì)我這個(gè)菜鳥來說實(shí)在是看不懂,于是最簡(jiǎn)單的方法就是去看md5文件是否下載完整,可惜它同樣提示的Failed to download nr.00.tar.gz.md5 說明md5文件也沒有下載下來。
于是呢就用最笨的方法去看下載的結(jié)果

du  -sh nr.00.tar.gz
image.png

ftp網(wǎng)站上給的大小是26G,這個(gè)文件應(yīng)該是下載完全了但是為什么只下了00一個(gè)文件呢,他有那么多文件


image.png

https://ftp.ncbi.nlm.nih.gov/blast/db/
自己下的好像少了些文件 不知道是不是因?yàn)槲蚁碌膎r.21的原因

image.png
image.png

3.重新?lián)Q了一個(gè)version,在log中沒有看到下的版本是哪個(gè),并且打開--passive(Use passive FTP, useful when behind a firewall or working in the cloud(default: true)

update_blastdb.pl --blastdb_version 5 --decompress nr --passive

還是出現(xiàn)了同樣的錯(cuò)誤


image.png

4.再換一個(gè)source嘗試一下,gcp(從Google Cloud Platform上下載)這個(gè)可能會(huì)占用大量資源,慎用!

    update_blastdb.pl --blastdb_version 5 --decompress nr --passive --source gcp 

5.其他方法:wget命令下載ftp鏈接:

https://ftp.ncbi.nlm.nih.gov/blast/db/nr-prot-metadata.json
下面鏈接中給出了nr數(shù)據(jù)庫的所有壓縮包,構(gòu)建下載文本,即需要將上述鏈接中的ftp鏈接放在一個(gè)文本中,然后可以在ftp文本每個(gè)ftp鏈接前加上wget指令:
例如

awk '{print "wget -c -nd -r -np -k -L -p -nd -P NR_database "  $0}'   nr_ftp.txt> nr_download_ftp.sh

整合結(jié)果如下


image.png

然后就是放后臺(tái)慢慢下載就好了

nohup bash nr_download_ftp.sh &
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容