前言
來源還是生信技能樹。
需要用安裝好的sratoolkit把sra文件轉(zhuǎn)換為fastq格式的測序文件,并且用fastqc軟件測試測序文件的質(zhì)量!作業(yè),理解測序reads,GC含量,質(zhì)量值,接頭,index,fastqc的全部報(bào)告,搜索中文教程,并發(fā)在論壇上面。
數(shù)據(jù)處理
高通量測序產(chǎn)生的海量數(shù)據(jù)都是經(jīng)過壓縮再上傳的,目前比sra更好的壓縮方式也正在研究中。首先把sra文件轉(zhuǎn)換成人可讀的fastq格式:
cd /mnt/e/0ngs #數(shù)據(jù)存放目錄
ls *sra |while read id; do fastq-dump --gzip --split-3 $id; done
fastq-dump用法
--gzip 輸出gz壓縮格式 --split-3 對PE reads使用
fastq文件介紹
首先看下fastq數(shù)據(jù)前幾行了解數(shù)據(jù)大概內(nèi)容。因?yàn)槭荘E測序,所以兩個(gè)文件都分別看下zcat SRR3589959_1.fastq.gz |head -n 8和zcat SRR3589959_2.fastq.gz |head -n 8。

可以看出fastq數(shù)據(jù)每條read的記錄由4行組成:
- 序列標(biāo)識以及相關(guān)的描述信息,以‘@’開頭;
- 第二行是序列
- 第三行以‘+’開頭,后面加第一行的內(nèi)容,或者什么也不加
- 第四行,ASCII對應(yīng)的第二行每個(gè)堿基的質(zhì)量信息(Sanger/Illumina 1.9 對應(yīng) phred33)。
PS: 關(guān)于第一行的標(biāo)識符

Illumina sequence identifiers before v1.8:
@HWUSI-EAS100R:6:73:941:1973#0/1
其中
HWUSI-EAS100R 設(shè)備名
6 flowcell lane(流動(dòng)槽泳道號)
73 tile number within the flowcell lane(泳道區(qū)塊號)
941 ‘x’-coordinate of the cluster within the tile(區(qū)塊上x坐標(biāo))
1973 ‘y’-coordinate of the cluster within the tile(區(qū)塊上y坐標(biāo))
#0 index number for a multiplexed sample (0 for no indexing)
/1 the member of a pair, /1 or /2 (paired-end or mate-pair reads only)
Illumina sequence identifiers after v1.8
@EAS139:136:FC706VJ:2:2104:15343:197393 1:Y:18:ATCACG
| ID | Description |
|---|---|
| EAS139 | the unique instrument name |
| 136 | the run id() |
| FC706VJ | the flowcell id() |
| 2 | flowcell lane |
| 2104 | tile number within the flowcell lane |
| 15343 | ‘x’-coordinate of the cluster within the tile |
| 197393 | ‘y’-coordinate of the cluster within the tile |
| 1 | the member of a pair, 1 or 2 (paired-end or mate-pair reads only) |
| Y | Y if the read fails filter (read is bad), N otherwise |
| 18 | 0 when none of the control bits are on, otherwise it is an even number |
| ATCACG | index sequence |
NCBI Sequence Read Archive
@SRR001666.1 071112_SLXA-EAS1_s_7:5:1:817:345 length=36
序列質(zhì)控
ls *.fastq.gz |xargs fastqc -t 6
結(jié)果如下:

其中綠色表示檢測通過,黃色為警告,紅色為未通過。如圖Per base sequence content因?yàn)榍?5個(gè)堿基分布異常而未通過檢測,可能存在序列污染或者接頭沒去干凈。一般mRNA測序數(shù)據(jù)的堿基分布都是比較均一平行的,而ChIP-seq、RIP-seq則可能出現(xiàn)比較大的堿基分布偏好。
根據(jù)最后三項(xiàng)檢測可以進(jìn)一步分析是否有污染或者沒去干凈的接頭序列存在。
