都8102年了,還用fastq-dump,快換fasterq-dump吧

之前寫過一篇文章Fastq-dump: 一個神奇的軟件, 詳細介紹了fastq-dump的用法。
雖然fastq-dump參數(shù)很多,而且一直被吐槽參數(shù)說明寫的太差,但是如果真的要用起來其實也就是一行代碼

fastq-dump --gzip --split-3 --defline-qual '+' --defline-seq '@$ac-$si/$ri' SRRXXXXX| SRRXXXX.sra
# 加上--gzip后需要時間進行文件壓縮

當然除了參數(shù)問題,還有一個讓人詬病的地方就是他只能單個線程,所以速度特別的慢。盡管相對于下游分析要分析好幾天而言,這點時間還能能等的。但是能快一點總是好的,所以在2018年的6月份,sra-tools更新了一個新的sra解壓工具,fasterq-dump, a faster fastq-dump,它能利用臨時文件和多線程加速從SRA文件提取FASTQ。

fasterq-dump的用法和fastq-dump一樣,如下所示

fasterq-dump --split-3 SRR5318040.sra 

如上代碼運行時如果出現(xiàn)報錯 err: invalid accession 'SRR5318040.sra ',請改用如下代碼

fasterq-dump --split-3 ./SRR5318040 

注意,這個 ./ 非常重要,這意味著我們使用的是下載到本地的sra數(shù)據(jù)。

此外還有建立了GitHub Wiki提供使用教程,參見https://github.com/ncbi/sra-tools/wiki/HowTo:-fasterq-dump。

重點參數(shù)是-e|threads, 用于選擇使用多少線程進行運行,默認是6個線程。 同時考慮到有些人容易著急,還提供了-p選項用于顯示當前進度。

我用一個9G大小的SRA文件,分別以fastq-dumpfasterq-dump進行了測試。

time fastq-dump --split-3 -O test SRR5318040.sra
# 558.76s user 41.36s system 101% cpu 9:51.82 total
time fasterq-dump --split-3 SRR5318040.sra -e 20 -o SRR5318040
# 582.70s user 121.06s system 1130% cpu 1:02.25 total

同樣的如果上面的fastqer-dump運行報錯,請把 SRR5318040.sra 改成 ./SRR5318040.

從用戶模式(user mode)來看, 兩者的總CPU使用時間都差不多是560秒,從內(nèi)核模式來看(Kernel Mode)來看,fasterq-dump花了更多時間在調(diào)用底層硬件上,例如分配內(nèi)存地址。fastq-dump基本上穩(wěn)定在一個線程,而fasterq-dump盡管指定了20個線程,但平均只用了11.5個線程吧。

對于我們而言,我們只要看最后的total部分,也就是實際花了多少時間。fastq-dump花了快10分鐘,而fasterq-dump只需要1分鐘,快了9倍多。

最后還有一點不足之處:輸出的fastq的ID目前暫時沒有選項可以調(diào)整,需要自己寫個腳本解決。

ID
最后編輯于
?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

  • NCBI-SRA和EBI-ENA數(shù)據(jù)庫 SRA數(shù)據(jù)庫: Sequence Read Archive:隸屬NCBI ...
    dulunar閱讀 33,573評論 6 74
  • Android 自定義View的各種姿勢1 Activity的顯示之ViewRootImpl詳解 Activity...
    passiontim閱讀 179,094評論 25 709
  • 用兩張圖告訴你,為什么你的 App 會卡頓? - Android - 掘金 Cover 有什么料? 從這篇文章中你...
    hw1212閱讀 14,014評論 2 59
  • 經(jīng)常會遇到奇葩顧客,真是又可氣又無語??! 因為我們是銷售電子產(chǎn)品的,所賣產(chǎn)品的價格都比較高,端午節(jié)放假三天,遇到三...
    靜怡和然閱讀 1,221評論 19 17
  • 《親子日記》第六天 3月23日 星期五 晴 昨天晚上二寶睡的早,今天早早起床了,我被鬧鐘驚醒,起來...
    程文穎閱讀 186評論 0 0

友情鏈接更多精彩內(nèi)容