轉(zhuǎn)錄組入門(3):了解fastq測序數(shù)據(jù)

前言

來源還是生信技能樹。

需要用安裝好的sratoolkit把sra文件轉(zhuǎn)換為fastq格式的測序文件,并且用fastqc軟件測試測序文件的質(zhì)量!作業(yè),理解測序reads,GC含量,質(zhì)量值,接頭,index,fastqc的全部報(bào)告,搜索中文教程,并發(fā)在論壇上面。

數(shù)據(jù)處理

高通量測序產(chǎn)生的海量數(shù)據(jù)都是經(jīng)過壓縮再上傳的,目前比sra更好的壓縮方式也正在研究中。首先把sra文件轉(zhuǎn)換成人可讀的fastq格式:

cd /mnt/e/0ngs    #數(shù)據(jù)存放目錄
ls *sra |while read id; do fastq-dump  --gzip --split-3 $id; done

fastq-dump用法

--gzip 輸出gz壓縮格式 --split-3 對PE reads使用

fastq文件介紹

首先看下fastq數(shù)據(jù)前幾行了解數(shù)據(jù)大概內(nèi)容。因?yàn)槭荘E測序,所以兩個(gè)文件都分別看下zcat SRR3589959_1.fastq.gz |head -n 8zcat SRR3589959_2.fastq.gz |head -n 8。

1503569536378.png

可以看出fastq數(shù)據(jù)每條read的記錄由4行組成:

  1. 序列標(biāo)識以及相關(guān)的描述信息,以‘@’開頭;
  2. 第二行是序列
  3. 第三行以‘+’開頭,后面加第一行的內(nèi)容,或者什么也不加
  4. 第四行,ASCII對應(yīng)的第二行每個(gè)堿基的質(zhì)量信息(Sanger/Illumina 1.9 對應(yīng) phred33)。

PS: 關(guān)于第一行的標(biāo)識符

1503571678449.png

Illumina sequence identifiers before v1.8:

@HWUSI-EAS100R:6:73:941:1973#0/1

其中

HWUSI-EAS100R 設(shè)備名

6 flowcell lane(流動(dòng)槽泳道號)

73 tile number within the flowcell lane(泳道區(qū)塊號)

941 ‘x’-coordinate of the cluster within the tile(區(qū)塊上x坐標(biāo))

1973 ‘y’-coordinate of the cluster within the tile(區(qū)塊上y坐標(biāo))

#0 index number for a multiplexed sample (0 for no indexing)

/1 the member of a pair, /1 or /2 (paired-end or mate-pair reads only)

Illumina sequence identifiers after v1.8

@EAS139:136:FC706VJ:2:2104:15343:197393 1:Y:18:ATCACG

ID Description
EAS139 the unique instrument name
136 the run id()
FC706VJ the flowcell id()
2 flowcell lane
2104 tile number within the flowcell lane
15343 ‘x’-coordinate of the cluster within the tile
197393 ‘y’-coordinate of the cluster within the tile
1 the member of a pair, 1 or 2 (paired-end or mate-pair reads only)
Y Y if the read fails filter (read is bad), N otherwise
18 0 when none of the control bits are on, otherwise it is an even number
ATCACG index sequence

NCBI Sequence Read Archive

@SRR001666.1 071112_SLXA-EAS1_s_7:5:1:817:345 length=36

序列質(zhì)控

ls *.fastq.gz |xargs fastqc -t 6

結(jié)果如下:

1503577769616.png

其中綠色表示檢測通過,黃色為警告,紅色為未通過。如圖Per base sequence content因?yàn)榍?5個(gè)堿基分布異常而未通過檢測,可能存在序列污染或者接頭沒去干凈。一般mRNA測序數(shù)據(jù)的堿基分布都是比較均一平行的,而ChIP-seq、RIP-seq則可能出現(xiàn)比較大的堿基分布偏好。
根據(jù)最后三項(xiàng)檢測可以進(jìn)一步分析是否有污染或者沒去干凈的接頭序列存在。

1503647245130.png
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容