bioinfo100-第6題-讀懂FastQC報告 Part I

zhn-blog
mhw-zh

讀懂FastQC報告 Part I

通過前面的5個問題,我相信大家對Illumina測序,測序的儲存文件格式,一些簡單的建庫原理已經(jīng)有了一個初步的認識。那么接下來,我們就要用我們學(xué)到的知識去解決一些問題啦。

在實際操作和處理過程中,我們拿到的Illumina測序數(shù)據(jù)應(yīng)該是.fastq.gz格式,其中g(shù)z表示的是使用gzip進行壓縮,fastq表示使用fastq格式進行存儲。獲得數(shù)據(jù)的第一步,通常就是使用FastQC軟件進行質(zhì)控。

FastQC會對每一個輸入的fastq.gz文件生成1個html網(wǎng)頁和一個zip的壓縮包。壓縮包里是網(wǎng)頁中包含的圖片信息,因此我們只需要看網(wǎng)頁里面整理好的內(nèi)容就好。

今天的問題圍繞著FastQC的質(zhì)控圖來展開,請看下面2張圖。

圖1 - 1個Illumina測序結(jié)果

圖1 - 1個Illumina測序結(jié)果, reads1 的 per-base quality boxplot

圖2 - 1個Illumina測序結(jié)果

圖2 - 1個Illumina測序結(jié)果, reads2 的 per-base quality boxplot

問題如下:

1. 圖中的橫坐標表示什么意思?

橫軸是測序序列的第1個堿基到第150個堿基

2. 圖中的縱坐標表示什么意思?

  • 縱坐標越小錯誤概率越大;
  • 縱坐標表示每一個bp所對應(yīng)的測序質(zhì)量值Q,
  • 這個數(shù)值Q是這樣計算的:Q = -10*log10(error P);
  • 將該堿基判斷錯誤概率值P取log10之后再乘以-10,得到的結(jié)果再加上Phred值對應(yīng)ASCII表所得到的的值就是該堿基測序的質(zhì)量值;
  • 即20表示1%的錯誤率,30表示0.1%的錯誤率;

3. 圖中的藍色線是什么意思?

藍色的細線是各個位置的質(zhì)量值平均值的連線

4. 圖中的box 下面的bar , 上面的bar,箱體的下沿,箱體的上沿,箱體內(nèi)部的橫線分別代表什么意思?

每一個boxplot,都是該位置的所有序列的測序質(zhì)量的一個統(tǒng)計,
上面的bar是90%分位數(shù),
下面的bar是10%分位數(shù),
箱子的中間的橫線是50%分位數(shù),
箱體的上緣是75%分位數(shù),
箱體的下緣是25%分位數(shù)

什么是分位數(shù):如果一組數(shù)的25%分位數(shù)是a,意味著a超過了這組數(shù)中25%數(shù)字的大小

5. 圖1與圖2最主要的區(qū)別在哪里?結(jié)合我們之前的問題,為什么會出現(xiàn)這種情況?

相比于reads 1的測序結(jié)果,reads 2的測序質(zhì)量均勻性差,準確率低,
主要原因:

  • reads 2的測序是在reads 1150bp 測序完成以后
  • forward strands 再通過1次橋式PCR合成reverse strands
  • 這之后再進行熒光測序
  • 測序質(zhì)量差的主要原因是因為長時間測序結(jié)束以后,合成酶的活性降低,導(dǎo)致合成時加不上一些堿基,最終同步性變差,主要是phasing錯誤。

具體如何做fastQC質(zhì)控分析呢

孟浩?。?0160410 測序分析——使用 FastQC 做質(zhì)控

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容