SRA數(shù)據(jù)幾種常用的下載方法

依據(jù)大家上傳數(shù)據(jù)的習(xí)慣,絕大多數(shù)生物信息學(xué)數(shù)據(jù)都是可以從NCBI上下載到,當(dāng)然也可以通過(guò)DDBJ,EBI去下載。另外,部分科研人員也將數(shù)據(jù)傳到github等其他平臺(tái)。

本期介紹以下幾種常用的數(shù)據(jù)下載方法和工具。

  • prefetch
  • Aspera
  • SRA Explorer

prefetch

SRA(Sequence ReadArchive)數(shù)據(jù)庫(kù)用于存儲(chǔ)二代測(cè)序的原始數(shù)據(jù),包括 454,Illumina,SOLiD等。除原始序列數(shù)據(jù)外,SRA現(xiàn)在也存在raw reads在參考基因的比對(duì)信息。

SRA Toolkit[1]可以直接下載NCBI中的SRA數(shù)據(jù)文件和參考序列并轉(zhuǎn)換為fastq格式。

為了能夠正常訪問(wèn)NCBI服務(wù)器和下載數(shù)據(jù),SRA Toolkit必須進(jìn)行適當(dāng)?shù)呐渲?。其最新版本的默認(rèn)配置,適用于大多數(shù)用戶。如果默認(rèn)配置不起作用,或者希望自定義Toolkit的文件處理(如默認(rèn)下載存儲(chǔ)位置),您需要配置Toolkit,然后測(cè)試它以確認(rèn)它按預(yù)期運(yùn)行。

配置安裝

conda配置

conda?install?-y?sra-tools

官網(wǎng)下載

除了使用conda直接配置安裝以外,我們還可以通過(guò)其官網(wǎng)[2]選定適合自己的操作系統(tǒng)下載。

wget?http://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/current/sratoolkit.current-ubuntu64.tar.gz
tar?-zxvf?sratoolkit.current-ubuntu64.tar.gz?#?解壓縮
echo?'export?PATH=$PATH:$HOME/sratoolkit.2.11.2-ubuntu64/bin?'?>>?~/.bashrc?#?配置環(huán)境變量
source?.bashrc
vdb-config?--interactive?#?配置(按X退出后即可正常使用)

使用

prefetch的用法非常簡(jiǎn)單,直接prefetch加SRA號(hào)即可,下面我們以一個(gè)實(shí)際例子演示。

Usage:?prefetch?[?options?]?[?accessions(s)...?]

文章為《Single-Cell RNA-Seq Revealed the Gene Expression Pattern during the In Vitro Maturation of Donkey Oocytes》[3]

示例中,數(shù)據(jù)量較少,可以直接通過(guò)以下命令串行下載。

prefetch?--option-file?SRR_Acc_List.txt

如果數(shù)據(jù)量較多可以結(jié)合我之前的《多行命令并行管理,只需要一個(gè)腳本》[4]

cat?Accession?List?|?while?read?id;do;echo?prefetch?-O?./?${id};done?>?prefetch.sh
#?把命令分為5份并行
for?i?in?{0..4};do?(nohup?bash?submit.sh?prefetch.sh?5?$i?2>&1);done

然后對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)單的處理并轉(zhuǎn)換為fastq。

cat?Accession?List?|?while?read?id?;?do?mv?./${id}/*?./?;?done?#?將數(shù)據(jù)從文件夾中拿出來(lái)
cat?Accession?List?|?while?read?id;?do?rm?-r?${id};?done?#?刪掉文件夾
#?需要安裝pigz
cat?Accession?List?|?while?read?id;do?echo?"fasterq-dump?-e?8?--split-files?-O?./?--outfile?${id}.fastq?${id}.sra";echo?"pigz?-p?8?-f?./${id}_1.fastq";echo?"pigz?-p?8?-f?./${id}_2.fastq";done?>?sra2fq.sh
nohup?bash?sra2fq.sh?&

wget

我們以示例文章中的一個(gè)數(shù)據(jù)為例(SRR15927225),首先需要找到該數(shù)據(jù)的下載鏈接。在NCBI的SRA數(shù)據(jù)庫(kù)搜索SRR15927225。

最后直接使用wget命令下載即可。

wget?-c?https://sra-download.ncbi.nlm.nih.gov/traces/sra35/SRR/015553/SRR15927225

Aspera

Aspera[5]是IBM公司的一款高速傳輸軟件,創(chuàng)造了新一代的傳輸技術(shù)(faspTM),并能不受文件大小、形態(tài)、傳輸距離、網(wǎng)絡(luò)條件限制,以最高效的速度來(lái)協(xié)助用戶遷移各地的數(shù)據(jù)。使用 fasp傳輸專利技術(shù),充分利用現(xiàn)有的 WAN 基礎(chǔ)設(shè)施和通用硬件,傳輸速度比 FTP 和 HTTP 快達(dá)數(shù)百倍。

prefetch有一個(gè)-t參數(shù),當(dāng)安裝了aspera時(shí),prefetch會(huì)優(yōu)先使用fasp(ascp)進(jìn)行數(shù)據(jù)傳輸。

??-t|--transport?<value>???????????transport:?one?of:?fasp;?http;?both.?(fasp
???????????????????????????????????only;?http?only;?first?try?fasp?(ascp),?use
???????????????????????????????????http?if?cannot?download?using?fasp).
???????????????????????????????????Default:?both

配置安裝

conda配置

conda?install?-c?hcc?aspera-cli?-y?#?-c設(shè)置channel為hcc

官網(wǎng)下載

除了使用conda直接配置安裝以外,我們還可以通過(guò)其官網(wǎng)選定適合自己的操作系統(tǒng)下載。

wget?https://download.asperasoft.com/download/sw/connect/3.9.1/ibm-aspera-connect-3.9.1.171801-linux-g2.12-64.tar.gz
tar?-zxvf?ibm-aspera-connect-3.9.1.171801-linux-g2.12-64.tar.gz
bash?ibm-aspera-connect-3.9.1.171801-linux-g2.12-64.sh

echo?'export?PATH=$PATH:$HOME/.aspera/connect/bin?'?>>?~/.bashrc?#?配置環(huán)境變量
source?.bashrc

使用

aspera的用法會(huì)比prefetch稍微復(fù)雜一點(diǎn),使用之前首先需要知道其私匙(private-key) 的路徑。

使用conda安裝的aspera私匙位置通常在anaconda3/etc/目錄下(miniconda同),官網(wǎng)手動(dòng)安裝的私匙位置通常在~/.aspera/connect/etc/。

Usage:?ascp?[OPTION]?SRC...?DEST
??????????SRC?to?DEST,?or?multiple?SRC?to?DEST?dir
??????????SRC,?DEST?format:?[[user@]host:]PATH

常用參數(shù)

  • -p 顯示下載的時(shí)間
  • -T 不進(jìn)行加密。若不添加此參數(shù),可能會(huì)下載不了。
  • -i 輸入私鑰,服務(wù)器一般使用asperaweb_id_dsa.openssh # 文件作為私鑰。
  • -k 斷點(diǎn)續(xù)傳,一般設(shè)置為值1
  • -l 設(shè)置最大傳輸速度,如設(shè)置為10M 則表示最大傳輸速度為10M/s
  • -m 設(shè)置最小傳輸速度

仍以SRR15927225為例

ascp?-T?-i?~/anaconda3/etc/asperaweb_id_dsa.openssh?-k?1?-l?200m?anonftp@ftp-private.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByRun/sra/SRR/SRR159/SRR15927225/SRR15927225.sra?./

如果要換成NCBI上的其他SRA數(shù)據(jù),只需要修改【SRR159/SRR15927225/SRR15927225.sra】即可。

如果想通過(guò)EBI下載數(shù)據(jù),需要修改前半部分為era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/

ascp?-T?-i?~/anaconda3/etc/asperaweb_id_dsa.openssh?-k?1?-l?200m?era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR159/SRR15927225/SRR15927225.sra?./

SRA-Explorer

SRA-Explorer[6]是一個(gè)為了讓SRA更易檢索、更易下載的網(wǎng)頁(yè)端應(yīng)用。

以前面的示例文獻(xiàn)的項(xiàng)目號(hào)(PRJNA763991)為例,輸入后檢索,添加到“購(gòu)物車”中

可以看到可以直接下載FastQ和SRA數(shù)據(jù),也可以分開下載,下載的方式多種多樣。

以Aspera commands for downloading FastQ files為例,SRA-Explorer提供可以直接復(fù)制使用的代碼(或腳本),但需要注意的是需要提前對(duì)私匙路徑進(jìn)行修改,最后到Linux中運(yùn)行即可。

參考資料

[1]

SRA Toolkit Documentation: https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=toolkit_doc

[2]

SRA Toolkit下載地址: https://github.com/ncbi/sra-tools/wiki/02.-Installing-SRA-Toolkit

[3]

示例數(shù)據(jù): https://www.ncbi.nlm.nih.gov/sra?LinkName=bioproject_sra_all&from_uid=763991

[4]

submit.sh: https://mp.weixin.qq.com/s/NzcH5_DWcXUN2k7NF5czhw

[5]

Aspera: https://www.ibm.com/products/aspera/downloads?list

[6]

SRA-Explorer: https://sra-explorer.info/

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容