一、背景知識
1、sra數(shù)據(jù)
sra數(shù)據(jù)是SRA數(shù)據(jù)庫用于儲存二代測序數(shù)據(jù)的原始數(shù)據(jù)的一種壓縮格式,這種數(shù)據(jù)格式不能直接進行處理,需要轉(zhuǎn)換成fastq才能進行質(zhì)控以及去adapt等處理——相當于解壓縮?。?!
2、fastq文件(簡稱fq文件)
高通量測序得到的原始圖像數(shù)據(jù)文件,經(jīng)過堿基識別(base calling)分析轉(zhuǎn)化為原始測序序列(sequenced reads),稱之為raw data或raw reads,結(jié)果以fastq(簡稱fq)文件格式存儲
3、fastq-dump
需要的命令:fastq-dump
命令的來源:sra-tools
fastq-dump的參數(shù)
- --gzip 將轉(zhuǎn)換出的fastq文件以gz格式輸出,可以節(jié)省空間
- --split-3 把pair-end測序分成兩個文件輸出
- -X 拆分出指定的reads數(shù)目,默認拆分所有reads,一個read就是fastq的四行數(shù)據(jù)(老師為了上課測試,設(shè)置25000條reads,真實數(shù)據(jù)不需要加這個參數(shù)?。。。?/li>
- -O 輸出文件夾名
二、轉(zhuǎn)換過程
#定義存放輸出數(shù)據(jù)的文件夾,需要先創(chuàng)建這個文件夾‘fastq’
mkdir fastq
fqdir=/trainee2/Mar7/rna/project/fastq
#轉(zhuǎn)換單個文件
fastq-dump --gzip --split-3 -X 25000 -O ${fqdir} SRR1039510
#批量轉(zhuǎn)換,將樣本名寫成文件——sample.ID,echo是打印命令,while循環(huán)的意義是生成腳本
cat sample.ID | while read id
do
echo "fastq-dump --gzip --split-3 -X 25000 -O ${fqdir} ${id}
done >sra2fq.sh
# 提交后臺運行命令,腳本文件后綴為.sh,日志文件后綴為.log,運行腳本的命令為sh
nohup sh sra2fq.sh>sra2fq.log &

此處不是報錯,只是系統(tǒng)反饋

輸出的文件
輸入一個文件,輸出兩個gz壓縮文件(因為是雙端測序,1和2分別表示第一段測序結(jié)果和第二段測序結(jié)果)

批量轉(zhuǎn)換,注意done后面有空格?。。?/div>
#查看輸出的fastq的gz壓縮文件,用zless命令
zless -S SRR1039510_1.fastq.gz

fastq文件內(nèi)容
最后編輯于 :
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。
相關(guān)閱讀更多精彩內(nèi)容
- 以下內(nèi)容來之知乎 :https://zhuanlan.zhihu.com/p/62914954,感謝作者分享,我只...
- 測序數(shù)據(jù)下載是生信技能樹[生信爆款入門課程]轉(zhuǎn)錄組部分Day16的講到的重要知識點。為加深理解,現(xiàn)在對sra與fa...
- 作業(yè)要求 需要用安裝好的sratoolkit把sra文件轉(zhuǎn)換為fastq格式的測序文件,并且用fastqc軟件測試...
- Counts值 對給定的基因組參考區(qū)域,計算比對上的read數(shù),又稱為raw count(RC)。計數(shù)結(jié)果的差異的...
- 常識 1、關(guān)于命令的后臺運行 & : 指在后臺運行。nohup : 不掛斷的運行。就是指,用nohup運行命令可以...