NCBI數(shù)據(jù)快速下載工具:aspera的安裝與使用

前言
生物信息分析總是避不開從NCBI上下載數(shù)據(jù),但是很多時(shí)候通過瀏覽器登錄NCBI都費(fèi)勁,更別說下載大量的數(shù)據(jù)了。
NR和NT數(shù)據(jù)庫是做序列比對(duì)經(jīng)常用到的數(shù)據(jù)庫
下載鏈接: Index of /blast/db/FASTA
這兩個(gè)數(shù)據(jù)庫一直在不斷地更新,數(shù)據(jù)也越來越大,截止到2021年4月,這兩數(shù)據(jù)庫壓縮包一個(gè)95G,一個(gè)104G,想要通過網(wǎng)頁下載比較困難,所以推薦使用下載工具aspera
所以很必要了解一下NCBI數(shù)據(jù)下載工具aspera,該軟件是由IBM開發(fā),能夠最大程度利用寬帶速度,下載NR和NT數(shù)據(jù)庫的時(shí)候速度能飚到400Mb/s,下載基因組的時(shí)候能飚到20Mb/s。
<meta charset="utf-8">

下載安裝

下載鏈接

ascp 官方說明:https://www.ncbi.nlm.nih.gov/books/NBK242625/
選擇自己需要的版本,這里選擇aspera-connect-3.7.4.147727-linux版本為例。

下載:wget http://download.asperasoft.com/download/sw/connect/3.7.4/aspera-connect-3.7.4.147727-linux-64.tar.gz

解壓:tar -xzvf aspera-connect-3.7.4.147727-linux-64.tar.gz

安裝:sh aspera-connect-3.7.4.147727-linux-64.sh 
#此時(shí)安裝已經(jīng)完成,去到用戶的home目錄里能看到一個(gè).aspera目錄

秘鑰復(fù)制: cd;cp ./.aspera/connect/etc/asperaweb_id_dsa.putty .;
cp ./.aspera/connect/etc/asperaweb_id_dsa.openssh ./
# 切換到home路徑,將兩個(gè)重要的配置文件復(fù)制到home路徑

添加環(huán)境變量:echo 'export PATH=~/.aspera/connect/bin:$PATH' >> ~/.bashrc ;source ~/.bashrc

ascp --help
就可以正常使用啦

NCBI數(shù)據(jù)下載示例

##NR下載鏈接:
https://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/nr.gz

##ascp 官方說明:https://www.ncbi.nlm.nih.gov/books/NBK242625/
安裝完成后可以使用ascp --help查看幫助,Aspera需要私鑰asperaweb_id_dsa.openssh

# 然后在/vol1/agis/gaofei_group/zhangxin/software/NR_database目錄下下載nr.gz
cd /vol1/agis/gaofei_group/zhangxin/software/NR_database
ascp -v -k 1 -T -l 400m -i ~/asperaweb_id_dsa.openssh anonftp@ftp.ncbi.nlm.nih.gov:/blast/db/FASTA/nr.gz ./

下載NT
ascp -v -k 1 -T -l 400m -i ~/asperaweb_id_dsa.openssh anonftp@ftp.ncbi.nlm.nih.gov:/blast/db/FASTA/nt.gz ./
參數(shù)-i表示限制的最大下載速度,一般200m到500m
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容