原先就想仔細(xì)研究一下fastqc和fastp的質(zhì)控報(bào)告,對(duì)比一下到底有多大區(qū)別。正好現(xiàn)在對(duì)一個(gè)公開數(shù)據(jù)進(jìn)行質(zhì)控,還正好發(fā)現(xiàn)質(zhì)控前后有明顯的指標(biāo)變化。(SRR5809347)
首先我們應(yīng)該先了解一下,fastqc所提供幾個(gè)指標(biāo)什么意思。
自主了解參考:
質(zhì)控流程
在質(zhì)控過(guò)程中我一般關(guān)注兩個(gè)點(diǎn),一個(gè)是堿基質(zhì)量,一個(gè)是read重復(fù)和覆蓋程度。堿基質(zhì)量關(guān)乎序列組裝的質(zhì)量,read重復(fù)和覆蓋會(huì)增加組裝過(guò)程中的資源消耗。低質(zhì)量堿基的裁剪不僅提高數(shù)據(jù)組裝質(zhì)量,而且減低數(shù)據(jù)量。read重復(fù)和覆蓋是單純降低數(shù)據(jù)量,但是不影響組裝質(zhì)量。
- 使用fastp去除低質(zhì)量堿基(
-q 30 -u 10 -n 5)、啟用重復(fù)數(shù)據(jù)消除以刪除重復(fù)的讀取/對(duì)(--dedup)以及遺棄較短的read(-l 100) - 使用
bbtools中的bbnorm.sh降低序列的覆蓋程度。
fastp -c -q 30 -u 10 -n 5 -w 12 -i $fq1 -I $fq2 -o $out_fq1 -O $out_fq2 -h "$name"_report.html --dedup -l 100
$DIR_bbmap/bbnorm.sh in1=$out_fq1 in2=$out_fq2 out1=$out_norm1 out2=$out_norm2 target=10 min=2 histcol=2 khist=khist.txt peaks=peaks.txt
這里可以解釋一下我認(rèn)為的read重復(fù)和覆蓋程度,read重復(fù)就是一模一樣的read出現(xiàn)多次;然后就是read覆蓋程度,這里的read雖然不是一模一樣,但是可能對(duì)于某部分的序列出現(xiàn)了過(guò)多層的覆蓋,就是相當(dāng)于是read中部分內(nèi)容重復(fù)次數(shù)過(guò)度。
質(zhì)控效果
以往幾乎看不出來(lái)多少差距,SRR5809347明顯在fastp 后GC含量達(dá)到了預(yù)期理論值,所以沒(méi)有了警告。bbnorm后序列的Sequence Duplication Levels警告消除。這是標(biāo)題上看出來(lái)的區(qū)別。

---分割線---
接下來(lái)一步步看質(zhì)控報(bào)告
0.Basic Statistics

40,398,283>12,042,775>3,647,924Sequence length可以明顯感受到數(shù)量的變化
1.Per base sequence quality

橫坐標(biāo):堿基所在的測(cè)序位置,read中1-150bp。
縱坐標(biāo):測(cè)序質(zhì)量。20%代表錯(cuò)誤為1%的錯(cuò)誤讀取率,30%代表0.1%的錯(cuò)誤讀取率。
紅色線代表中位數(shù),藍(lán)色代表平均數(shù),黃色柱狀是25%~75%區(qū)間質(zhì)量分布,error bar是10%~90%區(qū)間質(zhì)量分布。若任一位置的下四分位數(shù)低于10或者中位數(shù)低于25,出現(xiàn)“警告”;若任一位置的下四分位數(shù)低于5或者中位數(shù)低于20,出現(xiàn)“失敗,F(xiàn)ail”。

上圖可以看見經(jīng)過(guò)fastp質(zhì)控,堿基質(zhì)量提升明顯,但是同時(shí)這個(gè)數(shù)據(jù)集中的低質(zhì)量堿基大量的被消除了。這一點(diǎn)查看fastp的質(zhì)控報(bào)告可以發(fā)現(xiàn)的更明顯,刪除了好幾個(gè)G的低質(zhì)量堿基。
2.Per sequence quality scores

橫軸表示Q值,縱軸表示每個(gè)值對(duì)應(yīng)的read數(shù)目,當(dāng)測(cè)序結(jié)果主要集中在高分中,證明測(cè)序質(zhì)量良好。
可以觀察到經(jīng)過(guò)fastp以后堿基質(zhì)量的起點(diǎn)已經(jīng)在35了,bbnorm后read數(shù)量又是進(jìn)一步的下降。
3.Per base sequence content

橫軸為位置,縱軸為堿基含量。統(tǒng)計(jì)在序列中的每一個(gè)位置,四種不同堿基占總堿基數(shù)的比例,檢測(cè)有無(wú)AT、GC分離的現(xiàn)象。一般來(lái)說(shuō),AT含量高于CG含量,AT含量約28%,CG含量約22%。由于測(cè)序問(wèn)題,通常第一二位置的堿基測(cè)序質(zhì)量比較低,ATCG含量也不正常。偏離理論分布的reads超過(guò)15%時(shí),報(bào)'WARN';偏離理論分布的reads超過(guò)30%時(shí),報(bào)'FAIL'。
我這個(gè)明顯在150末端位置A的百分比出現(xiàn)了斷崖下降,這也是出現(xiàn)紅叉的原因。較為正常的結(jié)果可以查看這篇出現(xiàn)警告的圖,較好的結(jié)果應(yīng)該是四條平行線,AT、GC線幾乎吻合。
4.Per sequence GC content

橫軸表示GC含量,縱軸表示不同GC含量對(duì)應(yīng)的read數(shù)。紅線是實(shí)際情況,藍(lán)線是理論分布(正態(tài)分布,均值不一定在50%,而是由平均GC含量推斷的)。偏離理論分布的reads超過(guò)15%時(shí),報(bào)"WARN";偏離理論分布的reads超過(guò)30%時(shí),報(bào)"FAIL"。如果出現(xiàn)兩個(gè)或多個(gè)峰值,表明測(cè)序數(shù)據(jù)里可能有其他來(lái)源的DNA序列污染,或者有接頭序列的二聚體污染。
本實(shí)驗(yàn)經(jīng)過(guò)上述兩個(gè)質(zhì)控操作,就成功讓其符合理論分布了。
5.Per base N content

橫軸為堿基分布,縱軸為N比率,當(dāng)任一位置N的比率超過(guò)5%報(bào)WARN,超過(guò)20%報(bào)FAIL。
正常情況下,N值非常小,所以圖上常??吹揭粭l直線。
6.Sequence Length Distribution

橫軸是read長(zhǎng)度,縱軸是read數(shù)量
7.Sequence Duplication Levels

橫軸表示重復(fù)等級(jí),縱軸表示重復(fù)的reads的數(shù)目。
這里看出來(lái)fastp啟用重復(fù)數(shù)據(jù)消除以刪除重復(fù)的讀取/對(duì)(--dedup)的效果不如使用bbtools中的bbnorm.sh降低序列的覆蓋程度。bbnorm.sh降重效果明顯。
8.Overrepresented sequences
No overrepresented sequences
重復(fù)度過(guò)高的序列
9.Adapter Content

橫坐標(biāo):堿基所在位置??v坐標(biāo):接頭所占比例。