生信工具1: SRAToolkit

SRA(Sequence ReadArchive)數(shù)據(jù)庫是用于存儲二代測序的原始數(shù)據(jù),包括 454,Illumina,SOLiD,IonTorrent,Helicos 和 CompleteGenomics。除了原始序列數(shù)據(jù)外,SRA現(xiàn)在也存在raw reads在參考基因的比對信息。

根據(jù)SRA數(shù)據(jù)產(chǎn)生的特點(diǎn),將SRA數(shù)據(jù)分為\color{green}{四類},并采用不同的前綴加以區(qū)分:
\ \ \ \ 1) Studies-- 研究課題 (ERP或SRP):就實(shí)驗(yàn)?zāi)繕?biāo)而言的,一個study 可能包含多個Experiment
\ \ \ \ 2) Experiments-- 實(shí)驗(yàn)設(shè)計(jì) (SRX):包含了Sample、DNA source、測序平臺、數(shù)據(jù)處理等信息
\ \ \ \ 3) Runs-- 測序結(jié)果集 (SRR):表示測序儀運(yùn)行所產(chǎn)生的reads
\ \ \ \ 4) Samples-- 樣品信息 (SRS)

SRA中數(shù)據(jù)結(jié)構(gòu)的層次關(guān)系為:Studies -> Experiments -> Samples -> Runs.

1. SRA數(shù)據(jù)庫下載

SRA Toolkit是ncbi下載.sra文件和轉(zhuǎn)換.fastq文件的極好工具

1.1 下載、安裝及環(huán)境配置

# 下載壓縮包
cd ~/software # 進(jìn)入存放工具的文件夾
wget https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.11.0/sratoolkit.2.11.0-ubuntu64.tar.gz

# 解壓
tar xzvf sratoolkit.2.11.0-ubuntu64.tar.gz

# 配置環(huán)境
echo 'export PATH=$PATH:$HOME/software/sratoolkit.2.11.0-ubuntu64/bin ' >> ~/.bashrc
source ~/.bashrc
vdb-config --interactive    # 出現(xiàn)一個框架,按字母x鍵退出即可

# 檢查sratoolkit 的配置
prefetch -V
## "prefetch" version 2.11.0

1.2 下載.sra文件

# 直接輸入SRR號(適用于單個或少數(shù))
prefetch SRR8956146  --max-size 400G  #下載.sra文件

# 批量下載數(shù)據(jù)
cat SRR_Acc_List.txt (可通過Run Accessions直接獲取或自己編輯txt文件)
## SRR8956146
## SRR8956147
## SRR8956148
## SRR8956149
## SRR8956150
## SRR8956151

prefetch --option-file SRR_Acc_List.txt 

# 多線程下載
cat sra.txt | parallel -j 10 "prefetch {}"

常用參數(shù)
--max-size:默認(rèn)最大下載大小為20G,若請求的增量大于20G,需增加該限制

SRAToolkit-1

1.3 提取fastq文件

# sratools中的fastq,不能多線程運(yùn)行,耗時較長
fastq-dump --gzip --split-3  SRR8956146.sra -O ./ 

# fasterq-dump增添多線程分析,但不能重命名及壓縮
fasterq-dump --split-files -e 40  SRR8956146.sra -O ./
fasterq-dump --split-files -e 40 --include-technical SRR17555533.sra -O ./ # 10x的SRR需要加--include-technical參數(shù)

# pfastq-dump,并行版fastq-dump
git clone https://github.com/inutano/pfastq-dump # 下載
cd pfastq-dump
chmod a+x bin/pfastq-dump
echo 'export PATH=$PATH:/software/pfastq-dump/bin ' >> ~/.bashrc # 環(huán)境配置
source ~/.bashrc

pfastq-dump --gzip --split-files -t 10  SRR8956146.sra

常用參數(shù):
--split-3:-3意味分成3個文件。
\ \ \ \ \ \ ? 若結(jié)果只有一個文件,說明數(shù)據(jù)不是雙端(第三個文件太大會覆蓋前兩個);
\ \ \ \ \ \ ? 若結(jié)果有兩個文件,說明是雙端文件并且數(shù)據(jù)質(zhì)量比較高(沒有低質(zhì)量的reads或者長度小于20bp的reads);
\ \ \ \ \ \ ? 若結(jié)果有三個文件,說明是雙端文件,但是有的數(shù)據(jù)質(zhì)量不高,存在trim的結(jié)果。
--gzip:輸出gz格式,節(jié)省空間的同時也不會給后續(xù)比對軟件造成壓力
-O ${directory} :設(shè)置輸出的文件間路徑,outdirectory改為相應(yīng)路徑
-e:設(shè)置多線程的個數(shù)
-t:設(shè)置多線程的個數(shù)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容