轉(zhuǎn)錄組分析——三、sra轉(zhuǎn)換成fastq

一、背景知識

1、sra數(shù)據(jù)

sra數(shù)據(jù)是SRA數(shù)據(jù)庫用于儲存二代測序數(shù)據(jù)的原始數(shù)據(jù)的一種壓縮格式,這種數(shù)據(jù)格式不能直接進行處理,需要轉(zhuǎn)換成fastq才能進行質(zhì)控以及去adapt等處理——相當于解壓縮?。?!

2、fastq文件(簡稱fq文件)

高通量測序得到的原始圖像數(shù)據(jù)文件,經(jīng)過堿基識別(base calling)分析轉(zhuǎn)化為原始測序序列(sequenced reads),稱之為raw data或raw reads,結(jié)果以fastq(簡稱fq)文件格式存儲

3、fastq-dump

需要的命令:fastq-dump
命令的來源:sra-tools
fastq-dump的參數(shù)

  1. --gzip 將轉(zhuǎn)換出的fastq文件以gz格式輸出,可以節(jié)省空間
  2. --split-3 把pair-end測序分成兩個文件輸出
  3. -X 拆分出指定的reads數(shù)目,默認拆分所有reads,一個read就是fastq的四行數(shù)據(jù)(老師為了上課測試,設(shè)置25000條reads,真實數(shù)據(jù)不需要加這個參數(shù)?。。。?/li>
  4. -O 輸出文件夾名

二、轉(zhuǎn)換過程

#定義存放輸出數(shù)據(jù)的文件夾,需要先創(chuàng)建這個文件夾‘fastq’
mkdir fastq
fqdir=/trainee2/Mar7/rna/project/fastq
#轉(zhuǎn)換單個文件
fastq-dump --gzip --split-3 -X 25000 -O ${fqdir} SRR1039510
#批量轉(zhuǎn)換,將樣本名寫成文件——sample.ID,echo是打印命令,while循環(huán)的意義是生成腳本
cat sample.ID | while read id
do
 echo "fastq-dump --gzip --split-3 -X 25000 -O ${fqdir} ${id}
done >sra2fq.sh
# 提交后臺運行命令,腳本文件后綴為.sh,日志文件后綴為.log,運行腳本的命令為sh
nohup sh sra2fq.sh>sra2fq.log &
此處不是報錯,只是系統(tǒng)反饋
輸出的文件

輸入一個文件,輸出兩個gz壓縮文件(因為是雙端測序,1和2分別表示第一段測序結(jié)果和第二段測序結(jié)果)


批量轉(zhuǎn)換,注意done后面有空格?。。?/div>
#查看輸出的fastq的gz壓縮文件,用zless命令
zless -S SRR1039510_1.fastq.gz
fastq文件內(nèi)容
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容