1.3質(zhì)控結(jié)果解讀

以最差的一個(gè)為例

總覽

本批次QC中最差的一個(gè)

綠色勾勾:合格的
黃色嘆號(hào):觸到了警戒線
紅色叉叉:不合格

1.基礎(chǔ)數(shù)據(jù)

結(jié)果1

reads長(zhǎng)度=150
GC含量=47%
reads數(shù)9.4kw

illumina可以達(dá)到2X150bp。reads長(zhǎng)度符合儀器標(biāo)準(zhǔn),GC含量符合理論

2.某一位置上所有讀段的測(cè)序質(zhì)量評(píng)分

結(jié)果2

綠(合格)、黃(警戒)、紅(不合格)

3.每次熒光掃描的質(zhì)量

結(jié)果3

藍(lán)色表示測(cè)序質(zhì)量很高,暖色表示測(cè)序質(zhì)量不高。當(dāng)某些tail出現(xiàn)暖色,在后續(xù)的分析種把該tail測(cè)序結(jié)果全部去除。

4.讀段的質(zhì)量得分分布情況

結(jié)果4

序列長(zhǎng)度為151bp,那么這151個(gè)位置每個(gè)位置Q值的平均值就是這條reads的質(zhì)量值。該圖橫軸是0-40,表示Q值。

從圖中可以看到紅線為單峰(窄而高),并且分值在36(>>20),所以每條reads的可靠性很高。

5.每個(gè)位置的4種堿基的比例圖

5

G%比值不太對(duì),而且不太配對(duì)...

四條線總體平行行走于25%水平線說(shuō)明總體質(zhì)量可以,問(wèn)題出在前10個(gè)位置,四條線嚴(yán)重分離,說(shuō)明有堿基偏向性,很可能就是接頭序列。

6.GC含量分布圖

6

果然是GC含量偏高

7.每個(gè)位置上N的比例

7

紅線接近0,說(shuō)明幾乎所有位置都被識(shí)別為ATCG之一。

8.讀段長(zhǎng)度分布

8

所有reads長(zhǎng)度都是150

9.序列重復(fù)的水平

9

重復(fù)次數(shù)為一次的比例越高越好。統(tǒng)計(jì)序列完全一致的reads的頻率,橫軸表示重復(fù)的次數(shù),縱軸表示重復(fù)的reads的數(shù)目。一般測(cè)序深度越高,越容易產(chǎn)生一定程度的重復(fù)序列。

10.序列重復(fù)的水平

10

大量超過(guò)0.1%的重復(fù),通過(guò)ncbi blast發(fā)現(xiàn)支原體污染....
支原體污染

如果有某個(gè)序列大量出現(xiàn),就叫做over-represented。fastqc的標(biāo)準(zhǔn)是占全部reads的0.1%以上。和上面的duplicate analysis一樣,為了計(jì)算方便,只取了fq數(shù)據(jù)的前200,000條reads進(jìn)行統(tǒng)計(jì),所以有可能over-represented reads不在里面。而且大于75bp的reads也是只取50bp。如果命令行中加入了-c contaminant file,出現(xiàn)的over-represented sequence會(huì)從contaminant_file里面找匹配的hit(至少20bp且最多一個(gè)mismatch),可以給我們一些線索。當(dāng)發(fā)現(xiàn)超過(guò)總reads數(shù)0.1%的reads時(shí)報(bào)”WARN“,當(dāng)發(fā)現(xiàn)超過(guò)總reads數(shù)1%的reads時(shí)報(bào)”FAIL“。http://www.itdecent.cn/p/dacedb7f6e2f

11.每一位置上是常用接頭序列的比例

11

橫軸表示堿基位置,縱軸表示百分比。當(dāng)fastqc分析時(shí)沒(méi)有選擇參數(shù)-a adapter list時(shí),默認(rèn)使用圖例中的4種通用adapter序列進(jìn)行統(tǒng)計(jì)。若有adapter殘留,后續(xù)必須去接頭。

12.結(jié)果分析

GC含量偏高,重復(fù)序列過(guò)多,原因可能有兩個(gè),一個(gè)是支原體污染,一個(gè)是adapter殘余


參考文獻(xiàn)

要充分了解你的測(cè)序數(shù)據(jù)--論QC的重要性http://www.biotrainee.com/thread-324-1-1.html
FastQC的基本介紹http://www.itdecent.cn/p/fe6af418a8bc
FastqC結(jié)果簡(jiǎn)介https://blog.csdn.net/gateswell/article/details/78858579
(3)轉(zhuǎn)錄組之?dāng)?shù)據(jù)質(zhì)控http://www.itdecent.cn/p/2ed3622ed4a8

如何處理fastqc報(bào)告中duplication level報(bào)錯(cuò)的問(wèn)題https://www.bioinfo.info/?/question/21

首先,對(duì)于FastQC duplication衡量的問(wèn)題,應(yīng)該先考慮是什么建庫(kù)方式。是DNA重測(cè)序,還是RNA-Seq,如果是RNA-Seq duplication level報(bào)警是很容易的,因?yàn)楹芏鄃ene存在多拷貝的情況。其次,那么這個(gè)duplication到底嚴(yán)不嚴(yán)重,或者后續(xù)怎么處理呢,目前沒(méi)有唯一的定論。但是有這么幾個(gè)原則:
[]RNA-Seq一般不去duplication,除非是設(shè)計(jì)了UMI或者random barcode,如果設(shè)計(jì)了這些序列,在reads水平進(jìn)行去duplication,單端reads推薦seqkit工具,雙端測(cè)序推薦UniqFast去reads的duplication;[/][]DNA-Seq一般在比對(duì)完以后,用picard 里面的MarkDuplicates 模塊去duplication;[/][]DNA測(cè)序中,酶切打斷一般去duplication,超聲打斷一般不去 duplication;[/][]常見的ChIP-Seq不需要去duplication。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容