依據(jù)大家上傳數(shù)據(jù)的習(xí)慣,絕大多數(shù)生物信息學(xué)數(shù)據(jù)都是可以從NCBI上下載到,當(dāng)然也可以通過(guò)DDBJ,EBI去下載。另外,部分科研人員也將數(shù)據(jù)傳到github等其他平臺(tái)。
本期介紹以下幾種常用的數(shù)據(jù)下載方法和工具。
- prefetch
- Aspera
- SRA Explorer
prefetch
SRA(Sequence ReadArchive)數(shù)據(jù)庫(kù)用于存儲(chǔ)二代測(cè)序的原始數(shù)據(jù),包括 454,Illumina,SOLiD等。除原始序列數(shù)據(jù)外,SRA現(xiàn)在也存在raw reads在參考基因的比對(duì)信息。
SRA Toolkit[1]可以直接下載NCBI中的SRA數(shù)據(jù)文件和參考序列并轉(zhuǎn)換為fastq格式。
為了能夠正常訪問(wèn)NCBI服務(wù)器和下載數(shù)據(jù),SRA Toolkit必須進(jìn)行適當(dāng)?shù)呐渲?。其最新版本的默認(rèn)配置,適用于大多數(shù)用戶。如果默認(rèn)配置不起作用,或者希望自定義Toolkit的文件處理(如默認(rèn)下載存儲(chǔ)位置),您需要配置Toolkit,然后測(cè)試它以確認(rèn)它按預(yù)期運(yùn)行。

配置安裝
conda配置
conda?install?-y?sra-tools官網(wǎng)下載
除了使用conda直接配置安裝以外,我們還可以通過(guò)其官網(wǎng)[2]選定適合自己的操作系統(tǒng)下載。

wget?http://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/current/sratoolkit.current-ubuntu64.tar.gz
tar?-zxvf?sratoolkit.current-ubuntu64.tar.gz?#?解壓縮
echo?'export?PATH=$PATH:$HOME/sratoolkit.2.11.2-ubuntu64/bin?'?>>?~/.bashrc?#?配置環(huán)境變量
source?.bashrc
vdb-config?--interactive?#?配置(按X退出后即可正常使用)
使用
prefetch的用法非常簡(jiǎn)單,直接prefetch加SRA號(hào)即可,下面我們以一個(gè)實(shí)際例子演示。
Usage:?prefetch?[?options?]?[?accessions(s)...?]文章為《Single-Cell RNA-Seq Revealed the Gene Expression Pattern during the In Vitro Maturation of Donkey Oocytes》[3]

示例中,數(shù)據(jù)量較少,可以直接通過(guò)以下命令串行下載。
prefetch?--option-file?SRR_Acc_List.txt如果數(shù)據(jù)量較多可以結(jié)合我之前的《多行命令并行管理,只需要一個(gè)腳本》[4]
cat?Accession?List?|?while?read?id;do;echo?prefetch?-O?./?${id};done?>?prefetch.sh
#?把命令分為5份并行
for?i?in?{0..4};do?(nohup?bash?submit.sh?prefetch.sh?5?$i?2>&1);done然后對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)單的處理并轉(zhuǎn)換為fastq。
cat?Accession?List?|?while?read?id?;?do?mv?./${id}/*?./?;?done?#?將數(shù)據(jù)從文件夾中拿出來(lái)
cat?Accession?List?|?while?read?id;?do?rm?-r?${id};?done?#?刪掉文件夾
#?需要安裝pigz
cat?Accession?List?|?while?read?id;do?echo?"fasterq-dump?-e?8?--split-files?-O?./?--outfile?${id}.fastq?${id}.sra";echo?"pigz?-p?8?-f?./${id}_1.fastq";echo?"pigz?-p?8?-f?./${id}_2.fastq";done?>?sra2fq.sh
nohup?bash?sra2fq.sh?&wget
我們以示例文章中的一個(gè)數(shù)據(jù)為例(SRR15927225),首先需要找到該數(shù)據(jù)的下載鏈接。在NCBI的SRA數(shù)據(jù)庫(kù)搜索SRR15927225。



最后直接使用wget命令下載即可。
wget?-c?https://sra-download.ncbi.nlm.nih.gov/traces/sra35/SRR/015553/SRR15927225Aspera
Aspera[5]是IBM公司的一款高速傳輸軟件,創(chuàng)造了新一代的傳輸技術(shù)(faspTM),并能不受文件大小、形態(tài)、傳輸距離、網(wǎng)絡(luò)條件限制,以最高效的速度來(lái)協(xié)助用戶遷移各地的數(shù)據(jù)。使用 fasp傳輸專利技術(shù),充分利用現(xiàn)有的 WAN 基礎(chǔ)設(shè)施和通用硬件,傳輸速度比 FTP 和 HTTP 快達(dá)數(shù)百倍。

prefetch有一個(gè)-t參數(shù),當(dāng)安裝了aspera時(shí),prefetch會(huì)優(yōu)先使用fasp(ascp)進(jìn)行數(shù)據(jù)傳輸。
??-t|--transport?<value>???????????transport:?one?of:?fasp;?http;?both.?(fasp
???????????????????????????????????only;?http?only;?first?try?fasp?(ascp),?use
???????????????????????????????????http?if?cannot?download?using?fasp).
???????????????????????????????????Default:?both
配置安裝
conda配置
conda?install?-c?hcc?aspera-cli?-y?#?-c設(shè)置channel為hcc官網(wǎng)下載
除了使用conda直接配置安裝以外,我們還可以通過(guò)其官網(wǎng)選定適合自己的操作系統(tǒng)下載。
wget?https://download.asperasoft.com/download/sw/connect/3.9.1/ibm-aspera-connect-3.9.1.171801-linux-g2.12-64.tar.gz
tar?-zxvf?ibm-aspera-connect-3.9.1.171801-linux-g2.12-64.tar.gz
bash?ibm-aspera-connect-3.9.1.171801-linux-g2.12-64.sh
echo?'export?PATH=$PATH:$HOME/.aspera/connect/bin?'?>>?~/.bashrc?#?配置環(huán)境變量
source?.bashrc使用
aspera的用法會(huì)比prefetch稍微復(fù)雜一點(diǎn),使用之前首先需要知道其私匙(private-key) 的路徑。
使用conda安裝的aspera私匙位置通常在anaconda3/etc/目錄下(miniconda同),官網(wǎng)手動(dòng)安裝的私匙位置通常在~/.aspera/connect/etc/。

Usage:?ascp?[OPTION]?SRC...?DEST
??????????SRC?to?DEST,?or?multiple?SRC?to?DEST?dir
??????????SRC,?DEST?format:?[[user@]host:]PATH常用參數(shù)
- -p 顯示下載的時(shí)間
- -T 不進(jìn)行加密。若不添加此參數(shù),可能會(huì)下載不了。
- -i 輸入私鑰,服務(wù)器一般使用asperaweb_id_dsa.openssh # 文件作為私鑰。
- -k 斷點(diǎn)續(xù)傳,一般設(shè)置為值1
- -l 設(shè)置最大傳輸速度,如設(shè)置為10M 則表示最大傳輸速度為10M/s
- -m 設(shè)置最小傳輸速度
仍以SRR15927225為例
ascp?-T?-i?~/anaconda3/etc/asperaweb_id_dsa.openssh?-k?1?-l?200m?anonftp@ftp-private.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByRun/sra/SRR/SRR159/SRR15927225/SRR15927225.sra?./如果要換成NCBI上的其他SRA數(shù)據(jù),只需要修改【SRR159/SRR15927225/SRR15927225.sra】即可。
如果想通過(guò)EBI下載數(shù)據(jù),需要修改前半部分為era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/
ascp?-T?-i?~/anaconda3/etc/asperaweb_id_dsa.openssh?-k?1?-l?200m?era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR159/SRR15927225/SRR15927225.sra?./SRA-Explorer
SRA-Explorer[6]是一個(gè)為了讓SRA更易檢索、更易下載的網(wǎng)頁(yè)端應(yīng)用。


以前面的示例文獻(xiàn)的項(xiàng)目號(hào)(PRJNA763991)為例,輸入后檢索,添加到“購(gòu)物車”中

可以看到可以直接下載FastQ和SRA數(shù)據(jù),也可以分開下載,下載的方式多種多樣。

以Aspera commands for downloading FastQ files為例,SRA-Explorer提供可以直接復(fù)制使用的代碼(或腳本),但需要注意的是需要提前對(duì)私匙路徑進(jìn)行修改,最后到Linux中運(yùn)行即可。

參考資料
[1]SRA Toolkit Documentation: https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=toolkit_doc
[2]SRA Toolkit下載地址: https://github.com/ncbi/sra-tools/wiki/02.-Installing-SRA-Toolkit
[3]示例數(shù)據(jù): https://www.ncbi.nlm.nih.gov/sra?LinkName=bioproject_sra_all&from_uid=763991
[4]submit.sh: https://mp.weixin.qq.com/s/NzcH5_DWcXUN2k7NF5czhw
[5]Aspera: https://www.ibm.com/products/aspera/downloads?list
[6]SRA-Explorer: https://sra-explorer.info/