SRA(Sequence ReadArchive)數(shù)據(jù)庫是用于存儲二代測序的原始數(shù)據(jù),包括 454,Illumina,SOLiD,IonTorrent,Helicos 和 CompleteGenomics。除了原始序列數(shù)據(jù)外,SRA現(xiàn)在也存在raw reads在參考基因的比對信息。
根據(jù)SRA數(shù)據(jù)產(chǎn)生的特點(diǎn),將SRA數(shù)據(jù)分為
,并采用不同的前綴加以區(qū)分:
![]()
![]()
![]()
1) Studies-- 研究課題 (ERP或SRP):就實(shí)驗(yàn)?zāi)繕?biāo)而言的,一個study 可能包含多個Experiment
![]()
![]()
![]()
2) Experiments-- 實(shí)驗(yàn)設(shè)計(jì) (SRX):包含了Sample、DNA source、測序平臺、數(shù)據(jù)處理等信息
![]()
![]()
![]()
3) Runs-- 測序結(jié)果集 (SRR):表示測序儀運(yùn)行所產(chǎn)生的reads
![]()
![]()
![]()
4) Samples-- 樣品信息 (SRS)
SRA中數(shù)據(jù)結(jié)構(gòu)的層次關(guān)系為:Studies -> Experiments -> Samples -> Runs.
1. SRA數(shù)據(jù)庫下載
SRA Toolkit是ncbi下載.sra文件和轉(zhuǎn)換.fastq文件的極好工具
1.1 下載、安裝及環(huán)境配置
# 下載壓縮包
cd ~/software # 進(jìn)入存放工具的文件夾
wget https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.11.0/sratoolkit.2.11.0-ubuntu64.tar.gz
# 解壓
tar xzvf sratoolkit.2.11.0-ubuntu64.tar.gz
# 配置環(huán)境
echo 'export PATH=$PATH:$HOME/software/sratoolkit.2.11.0-ubuntu64/bin ' >> ~/.bashrc
source ~/.bashrc
vdb-config --interactive # 出現(xiàn)一個框架,按字母x鍵退出即可
# 檢查sratoolkit 的配置
prefetch -V
## "prefetch" version 2.11.0
1.2 下載.sra文件
# 直接輸入SRR號(適用于單個或少數(shù))
prefetch SRR8956146 --max-size 400G #下載.sra文件
# 批量下載數(shù)據(jù)
cat SRR_Acc_List.txt (可通過Run Accessions直接獲取或自己編輯txt文件)
## SRR8956146
## SRR8956147
## SRR8956148
## SRR8956149
## SRR8956150
## SRR8956151
prefetch --option-file SRR_Acc_List.txt
# 多線程下載
cat sra.txt | parallel -j 10 "prefetch {}"
常用參數(shù):
--max-size:默認(rèn)最大下載大小為20G,若請求的增量大于20G,需增加該限制

1.3 提取fastq文件
# sratools中的fastq,不能多線程運(yùn)行,耗時較長
fastq-dump --gzip --split-3 SRR8956146.sra -O ./
# fasterq-dump增添多線程分析,但不能重命名及壓縮
fasterq-dump --split-files -e 40 SRR8956146.sra -O ./
fasterq-dump --split-files -e 40 --include-technical SRR17555533.sra -O ./ # 10x的SRR需要加--include-technical參數(shù)
# pfastq-dump,并行版fastq-dump
git clone https://github.com/inutano/pfastq-dump # 下載
cd pfastq-dump
chmod a+x bin/pfastq-dump
echo 'export PATH=$PATH:/software/pfastq-dump/bin ' >> ~/.bashrc # 環(huán)境配置
source ~/.bashrc
pfastq-dump --gzip --split-files -t 10 SRR8956146.sra
常用參數(shù):
--split-3:-3意味分成3個文件。
? 若結(jié)果只有一個文件,說明數(shù)據(jù)不是雙端(第三個文件太大會覆蓋前兩個);
? 若結(jié)果有兩個文件,說明是雙端文件并且數(shù)據(jù)質(zhì)量比較高(沒有低質(zhì)量的reads或者長度小于20bp的reads);
? 若結(jié)果有三個文件,說明是雙端文件,但是有的數(shù)據(jù)質(zhì)量不高,存在trim的結(jié)果。
--gzip:輸出gz格式,節(jié)省空間的同時也不會給后續(xù)比對軟件造成壓力
-O ${directory} :設(shè)置輸出的文件間路徑,outdirectory改為相應(yīng)路徑
-e:設(shè)置多線程的個數(shù)
-t:設(shè)置多線程的個數(shù)