fastq-dump、fasterq-dump和parallel-fastq-dump處理SRA文件的速度比較

最近新發(fā)現(xiàn)一個工具——parallel-fastq-dump,能多線程運(yùn)行fastq-dump處理SRA文件,而且與另一個常用的多線程工具fasterq-dump相比,還有--gzip選項(xiàng)可以直接生成壓縮格式文件,因此下面簡單對比一下這三種工具處理SRA文件的速度

一、parallel-fastq-dump基本信息

parallel-fastq-dump的Github地址:https://github.com/rvalieris/parallel-fastq-dump

  • 注意,parallel-fastq-dump的使用依賴于fastq-dump,需要預(yù)先安裝sra-tools:
conda install -c bioconda sra-tools
  • conda命令安裝parallel-fastq-dump:
conda install -c bioconda parallel-fastq-dump 

parallel-fastq-dump參數(shù)如下
(由于是直接依賴于fastq-dump命令,因此fastq-dump的參數(shù)也可使用,如--split-files、--gzip、--split-3等):



二、各命令處理SRA文件用時比較

1. 先測試處理一個450MB的單端測序SRA文件所用時間

① fastq-dump

  • (非--gzip模式)
    用時:1m49s
time (fastq-dump -O ./ --split-3  SRR3414630.sra)

  • (--gzip模式)
    用時:8m35s
time (fastq-dump -O ./ --split-3  --gzip  SRR3414630.sra)


② fasterq-dump

fasterq-dump工具已經(jīng)是包含在sra-tools中了,不需要額外再下載。
fasterq-dump沒有--gzip的選項(xiàng),若想生成壓縮格式文件,常與多線程壓縮工具pigz聯(lián)合使用

  • (非--gzip模式)
    用時:1m21s
time (fasterq-dump --split-3 -e 12 -O ./ SRR3414630.sra)
  • fasterq-dump + pigz :
    用時:2m14s
time (fasterq-dump --split-3 -e 12 -O ./ SRR3414630.sra ; pigz -p 12 SRR3414630.fastq)

③ parallel-fastq-dump

  • (非--gzip模式)
    用時:53s
time (parallel-fastq-dump -t 12 -O ./ --split-3  -s SRR3414630.sra)
  • (--gzip模式):
    用時:1m1s
time (parallel-fastq-dump -t 12 -O ./ --split-3  --gzip -s SRR3414630.sra)

2. 再測試處理一個2.6G的10X測序SRA文件所用時間

① fastq-dump (--gzip)

用時:38m23s ( 這也太慢了吧。。。)

time ( fastq-dump -O ./ --split-files --gzip SRR7722937.sra )


② fasterq-dump + pigz

用時:11m12s
(注意fasterq-dump處理10x數(shù)據(jù)的參數(shù)是--split-files --include-technical,僅加--split-files得不到三個文件 )

time ( fasterq-dump -e 12  -O ./ --split-files --include-technical SRR7722937.sra  ; pigz -p 12  *fastq)


③ parallel-fastq-dump(--gzip)

用時:4m2s
(處理10x數(shù)據(jù)的參數(shù)與fastq-dump一致,僅用--split-files即可)

time ( parallel-fastq-dump -t 12  -O ./ --split-files --gzip -s SRR7722937.sra ) 


通過以上測試,可以看到parallel-fastq-dump是處理SRA文件最為快速的?。?!
在本例中,調(diào)用12線程,parallel-fastq-dump處理SRA文件比fasterq-dump+pigz快2-3倍, 比fastq-dump快8-10倍!
那之后就多嘗試用parallel-fastq-dump代替我常用的fasterq-dump+pigz吧

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容