測(cè)序數(shù)據(jù)進(jìn)行質(zhì)控 2023-03-16

原先就想仔細(xì)研究一下fastqc和fastp的質(zhì)控報(bào)告,對(duì)比一下到底有多大區(qū)別。正好現(xiàn)在對(duì)一個(gè)公開數(shù)據(jù)進(jìn)行質(zhì)控,還正好發(fā)現(xiàn)質(zhì)控前后有明顯的指標(biāo)變化。(SRR5809347
首先我們應(yīng)該先了解一下,fastqc所提供幾個(gè)指標(biāo)什么意思。

自主了解參考:

質(zhì)控流程

在質(zhì)控過(guò)程中我一般關(guān)注兩個(gè)點(diǎn),一個(gè)是堿基質(zhì)量,一個(gè)是read重復(fù)和覆蓋程度。堿基質(zhì)量關(guān)乎序列組裝的質(zhì)量,read重復(fù)和覆蓋會(huì)增加組裝過(guò)程中的資源消耗。低質(zhì)量堿基的裁剪不僅提高數(shù)據(jù)組裝質(zhì)量,而且減低數(shù)據(jù)量。read重復(fù)和覆蓋是單純降低數(shù)據(jù)量,但是不影響組裝質(zhì)量。

  • 使用fastp去除低質(zhì)量堿基(-q 30 -u 10 -n 5)、啟用重復(fù)數(shù)據(jù)消除以刪除重復(fù)的讀取/對(duì)(--dedup)以及遺棄較短的read(-l 100
  • 使用bbtools中的bbnorm.sh降低序列的覆蓋程度。
fastp -c -q 30 -u 10 -n 5 -w 12 -i $fq1 -I $fq2 -o $out_fq1 -O $out_fq2 -h "$name"_report.html --dedup -l 100
$DIR_bbmap/bbnorm.sh in1=$out_fq1 in2=$out_fq2 out1=$out_norm1 out2=$out_norm2 target=10 min=2 histcol=2 khist=khist.txt peaks=peaks.txt

這里可以解釋一下我認(rèn)為的read重復(fù)和覆蓋程度,read重復(fù)就是一模一樣的read出現(xiàn)多次;然后就是read覆蓋程度,這里的read雖然不是一模一樣,但是可能對(duì)于某部分的序列出現(xiàn)了過(guò)多層的覆蓋,就是相當(dāng)于是read中部分內(nèi)容重復(fù)次數(shù)過(guò)度。

質(zhì)控效果

以往幾乎看不出來(lái)多少差距,SRR5809347明顯在fastp 后GC含量達(dá)到了預(yù)期理論值,所以沒(méi)有了警告。bbnorm后序列的Sequence Duplication Levels警告消除。這是標(biāo)題上看出來(lái)的區(qū)別。

image.png

---分割線---
接下來(lái)一步步看質(zhì)控報(bào)告

0.Basic Statistics

image.png

40,398,283>12,042,775>3,647,924
Sequence length可以明顯感受到數(shù)量的變化

1.Per base sequence quality

image.png

橫坐標(biāo):堿基所在的測(cè)序位置,read中1-150bp。
縱坐標(biāo):測(cè)序質(zhì)量。20%代表錯(cuò)誤為1%的錯(cuò)誤讀取率,30%代表0.1%的錯(cuò)誤讀取率。
紅色線代表中位數(shù),藍(lán)色代表平均數(shù),黃色柱狀是25%~75%區(qū)間質(zhì)量分布,error bar是10%~90%區(qū)間質(zhì)量分布。若任一位置的下四分位數(shù)低于10或者中位數(shù)低于25,出現(xiàn)“警告”;若任一位置的下四分位數(shù)低于5或者中位數(shù)低于20,出現(xiàn)“失敗,F(xiàn)ail”。

image.png

上圖可以看見經(jīng)過(guò)fastp質(zhì)控,堿基質(zhì)量提升明顯,但是同時(shí)這個(gè)數(shù)據(jù)集中的低質(zhì)量堿基大量的被消除了。這一點(diǎn)查看fastp的質(zhì)控報(bào)告可以發(fā)現(xiàn)的更明顯,刪除了好幾個(gè)G的低質(zhì)量堿基。

2.Per sequence quality scores

image.png

橫軸表示Q值,縱軸表示每個(gè)值對(duì)應(yīng)的read數(shù)目,當(dāng)測(cè)序結(jié)果主要集中在高分中,證明測(cè)序質(zhì)量良好。

可以觀察到經(jīng)過(guò)fastp以后堿基質(zhì)量的起點(diǎn)已經(jīng)在35了,bbnorm后read數(shù)量又是進(jìn)一步的下降。

3.Per base sequence content

image.png

橫軸為位置,縱軸為堿基含量。統(tǒng)計(jì)在序列中的每一個(gè)位置,四種不同堿基占總堿基數(shù)的比例,檢測(cè)有無(wú)AT、GC分離的現(xiàn)象。一般來(lái)說(shuō),AT含量高于CG含量,AT含量約28%,CG含量約22%。由于測(cè)序問(wèn)題,通常第一二位置的堿基測(cè)序質(zhì)量比較低,ATCG含量也不正常。偏離理論分布的reads超過(guò)15%時(shí),報(bào)'WARN';偏離理論分布的reads超過(guò)30%時(shí),報(bào)'FAIL'。

我這個(gè)明顯在150末端位置A的百分比出現(xiàn)了斷崖下降,這也是出現(xiàn)紅叉的原因。較為正常的結(jié)果可以查看這篇出現(xiàn)警告的圖,較好的結(jié)果應(yīng)該是四條平行線,AT、GC線幾乎吻合。

4.Per sequence GC content

image.png

橫軸表示GC含量,縱軸表示不同GC含量對(duì)應(yīng)的read數(shù)。紅線是實(shí)際情況,藍(lán)線是理論分布(正態(tài)分布,均值不一定在50%,而是由平均GC含量推斷的)。偏離理論分布的reads超過(guò)15%時(shí),報(bào)"WARN";偏離理論分布的reads超過(guò)30%時(shí),報(bào)"FAIL"。如果出現(xiàn)兩個(gè)或多個(gè)峰值,表明測(cè)序數(shù)據(jù)里可能有其他來(lái)源的DNA序列污染,或者有接頭序列的二聚體污染。

本實(shí)驗(yàn)經(jīng)過(guò)上述兩個(gè)質(zhì)控操作,就成功讓其符合理論分布了。

5.Per base N content

image.png

橫軸為堿基分布,縱軸為N比率,當(dāng)任一位置N的比率超過(guò)5%報(bào)WARN,超過(guò)20%報(bào)FAIL。

正常情況下,N值非常小,所以圖上常??吹揭粭l直線。

6.Sequence Length Distribution

image.png

橫軸是read長(zhǎng)度,縱軸是read數(shù)量

7.Sequence Duplication Levels

image.png

橫軸表示重復(fù)等級(jí),縱軸表示重復(fù)的reads的數(shù)目。

這里看出來(lái)fastp啟用重復(fù)數(shù)據(jù)消除以刪除重復(fù)的讀取/對(duì)(--dedup)的效果不如使用bbtools中的bbnorm.sh降低序列的覆蓋程度。bbnorm.sh降重效果明顯。

8.Overrepresented sequences

No overrepresented sequences
重復(fù)度過(guò)高的序列

9.Adapter Content

image.png

橫坐標(biāo):堿基所在位置??v坐標(biāo):接頭所占比例。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容