原先就想仔細(xì)研究一下fastqc和fastp的質(zhì)控報(bào)告，對(duì)比一下到底有多大區(qū)別。正好現(xiàn)在對(duì)一個(gè)公開數(shù)據(jù)進(jìn)行質(zhì)控，還正好發(fā)現(xiàn)質(zhì)控前后有明顯的指標(biāo)變化。（SRR5809347）
首先我們應(yīng)該先了解一下，fastqc所提供幾個(gè)指標(biāo)什么意思。

自主了解參考：

【轉(zhuǎn)錄組入門】3：了解fastq測(cè)序數(shù)據(jù)

一文讀懂FastQC Report

20160410 測(cè)序分析——使用 FastQC 做質(zhì)控

轉(zhuǎn)錄組分析 | fastqc進(jìn)行質(zhì)控與結(jié)果解讀

RNA-seq流程學(xué)習(xí)筆記（4）-使用FastQC軟件對(duì)fastq格式的數(shù)據(jù)進(jìn)行質(zhì)量控制

FastQC 測(cè)序質(zhì)量

質(zhì)控流程

在質(zhì)控過(guò)程中我一般關(guān)注兩個(gè)點(diǎn)，一個(gè)是堿基質(zhì)量，一個(gè)是read重復(fù)和覆蓋程度。堿基質(zhì)量關(guān)乎序列組裝的質(zhì)量，read重復(fù)和覆蓋會(huì)增加組裝過(guò)程中的資源消耗。低質(zhì)量堿基的裁剪不僅提高數(shù)據(jù)組裝質(zhì)量，而且減低數(shù)據(jù)量。read重復(fù)和覆蓋是單純降低數(shù)據(jù)量，但是不影響組裝質(zhì)量。

使用fastp去除低質(zhì)量堿基（-q 30 -u 10 -n 5）、啟用重復(fù)數(shù)據(jù)消除以刪除重復(fù)的讀取/對(duì)（--dedup）以及遺棄較短的read（-l 100）
使用bbtools中的bbnorm.sh降低序列的覆蓋程度。

fastp -c -q 30 -u 10 -n 5 -w 12 -i $fq1 -I $fq2 -o $out_fq1 -O $out_fq2 -h "$name"_report.html --dedup -l 100
$DIR_bbmap/bbnorm.sh in1=$out_fq1 in2=$out_fq2 out1=$out_norm1 out2=$out_norm2 target=10 min=2 histcol=2 khist=khist.txt peaks=peaks.txt

這里可以解釋一下我認(rèn)為的read重復(fù)和覆蓋程度，read重復(fù)就是一模一樣的read出現(xiàn)多次；然后就是read覆蓋程度，這里的read雖然不是一模一樣，但是可能對(duì)于某部分的序列出現(xiàn)了過(guò)多層的覆蓋，就是相當(dāng)于是read中部分內(nèi)容重復(fù)次數(shù)過(guò)度。

質(zhì)控效果

以往幾乎看不出來(lái)多少差距，SRR5809347明顯在fastp 后GC含量達(dá)到了預(yù)期理論值，所以沒(méi)有了警告。bbnorm后序列的Sequence Duplication Levels警告消除。這是標(biāo)題上看出來(lái)的區(qū)別。

image.png

---分割線---
接下來(lái)一步步看質(zhì)控報(bào)告

0.Basic Statistics

image.png

40,398,283>12,042,775>3,647,924
Sequence length可以明顯感受到數(shù)量的變化

1.Per base sequence quality

image.png

橫坐標(biāo)：堿基所在的測(cè)序位置，read中1-150bp。
縱坐標(biāo)：測(cè)序質(zhì)量。20%代表錯(cuò)誤為1%的錯(cuò)誤讀取率，30%代表0.1%的錯(cuò)誤讀取率。
紅色線代表中位數(shù)，藍(lán)色代表平均數(shù)，黃色柱狀是25%~75%區(qū)間質(zhì)量分布，error bar是10%~90%區(qū)間質(zhì)量分布。若任一位置的下四分位數(shù)低于10或者中位數(shù)低于25，出現(xiàn)“警告”；若任一位置的下四分位數(shù)低于5或者中位數(shù)低于20，出現(xiàn)“失敗，F(xiàn)ail”。

image.png

上圖可以看見經(jīng)過(guò)fastp質(zhì)控，堿基質(zhì)量提升明顯，但是同時(shí)這個(gè)數(shù)據(jù)集中的低質(zhì)量堿基大量的被消除了。這一點(diǎn)查看fastp的質(zhì)控報(bào)告可以發(fā)現(xiàn)的更明顯，刪除了好幾個(gè)G的低質(zhì)量堿基。

2.Per sequence quality scores

image.png

橫軸表示Q值，縱軸表示每個(gè)值對(duì)應(yīng)的read數(shù)目，當(dāng)測(cè)序結(jié)果主要集中在高分中，證明測(cè)序質(zhì)量良好。

可以觀察到經(jīng)過(guò)fastp以后堿基質(zhì)量的起點(diǎn)已經(jīng)在35了，bbnorm后read數(shù)量又是進(jìn)一步的下降。

3.Per base sequence content

image.png

橫軸為位置，縱軸為堿基含量。統(tǒng)計(jì)在序列中的每一個(gè)位置，四種不同堿基占總堿基數(shù)的比例，檢測(cè)有無(wú)AT、GC分離的現(xiàn)象。一般來(lái)說(shuō)，AT含量高于CG含量，AT含量約28%，CG含量約22%。由于測(cè)序問(wèn)題，通常第一二位置的堿基測(cè)序質(zhì)量比較低，ATCG含量也不正常。偏離理論分布的reads超過(guò)15%時(shí)，報(bào)'WARN'；偏離理論分布的reads超過(guò)30%時(shí)，報(bào)'FAIL'。

我這個(gè)明顯在150末端位置A的百分比出現(xiàn)了斷崖下降，這也是出現(xiàn)紅叉的原因。較為正常的結(jié)果可以查看這篇出現(xiàn)警告的圖，較好的結(jié)果應(yīng)該是四條平行線，AT、GC線幾乎吻合。

4.Per sequence GC content

image.png

橫軸表示GC含量，縱軸表示不同GC含量對(duì)應(yīng)的read數(shù)。紅線是實(shí)際情況，藍(lán)線是理論分布（正態(tài)分布，均值不一定在50%，而是由平均GC含量推斷的）。偏離理論分布的reads超過(guò)15%時(shí)，報(bào)"WARN"；偏離理論分布的reads超過(guò)30%時(shí)，報(bào)"FAIL"。如果出現(xiàn)兩個(gè)或多個(gè)峰值，表明測(cè)序數(shù)據(jù)里可能有其他來(lái)源的DNA序列污染，或者有接頭序列的二聚體污染。

本實(shí)驗(yàn)經(jīng)過(guò)上述兩個(gè)質(zhì)控操作，就成功讓其符合理論分布了。

5.Per base N content

image.png

橫軸為堿基分布，縱軸為N比率，當(dāng)任一位置N的比率超過(guò)5%報(bào)WARN，超過(guò)20%報(bào)FAIL。

正常情況下，N值非常小，所以圖上常?？吹揭粭l直線。

6.Sequence Length Distribution

image.png

橫軸是read長(zhǎng)度，縱軸是read數(shù)量

7.Sequence Duplication Levels

image.png

橫軸表示重復(fù)等級(jí)，縱軸表示重復(fù)的reads的數(shù)目。

這里看出來(lái)fastp啟用重復(fù)數(shù)據(jù)消除以刪除重復(fù)的讀取/對(duì)（--dedup）的效果不如使用bbtools中的bbnorm.sh降低序列的覆蓋程度。bbnorm.sh降重效果明顯。

8.Overrepresented sequences

No overrepresented sequences
重復(fù)度過(guò)高的序列

9.Adapter Content

image.png

橫坐標(biāo)：堿基所在位置?？v坐標(biāo)：接頭所占比例。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

測(cè)序數(shù)據(jù)進(jìn)行質(zhì)控 2023-03-16

測(cè)序數(shù)據(jù)進(jìn)行質(zhì)控 2023-03-16

質(zhì)控流程