讀懂FastQC報告 Part I
通過前面的5個問題,我相信大家對Illumina測序,測序的儲存文件格式,一些簡單的建庫原理已經(jīng)有了一個初步的認識。那么接下來,我們就要用我們學(xué)到的知識去解決一些問題啦。
在實際操作和處理過程中,我們拿到的Illumina測序數(shù)據(jù)應(yīng)該是.fastq.gz格式,其中g(shù)z表示的是使用gzip進行壓縮,fastq表示使用fastq格式進行存儲。獲得數(shù)據(jù)的第一步,通常就是使用FastQC軟件進行質(zhì)控。
FastQC會對每一個輸入的fastq.gz文件生成1個html網(wǎng)頁和一個zip的壓縮包。壓縮包里是網(wǎng)頁中包含的圖片信息,因此我們只需要看網(wǎng)頁里面整理好的內(nèi)容就好。
今天的問題圍繞著FastQC的質(zhì)控圖來展開,請看下面2張圖。

圖1 - 1個Illumina測序結(jié)果, reads1 的 per-base quality boxplot

圖2 - 1個Illumina測序結(jié)果, reads2 的 per-base quality boxplot
問題如下:
1. 圖中的橫坐標表示什么意思?
橫軸是測序序列的第1個堿基到第150個堿基
2. 圖中的縱坐標表示什么意思?
- 縱坐標越小錯誤概率越大;
- 縱坐標表示每一個bp所對應(yīng)的測序質(zhì)量值Q,
- 這個數(shù)值Q是這樣計算的:Q = -10*log10(error P);
- 將該堿基判斷錯誤概率值P取log10之后再乘以-10,得到的結(jié)果再加上Phred值對應(yīng)ASCII表所得到的的值就是該堿基測序的質(zhì)量值;
- 即20表示1%的錯誤率,30表示0.1%的錯誤率;
3. 圖中的藍色線是什么意思?
藍色的細線是各個位置的質(zhì)量值的平均值的連線
4. 圖中的box 下面的bar , 上面的bar,箱體的下沿,箱體的上沿,箱體內(nèi)部的橫線分別代表什么意思?
每一個boxplot,都是該位置的所有序列的測序質(zhì)量的一個統(tǒng)計,
上面的bar是90%分位數(shù),
下面的bar是10%分位數(shù),
箱子的中間的橫線是50%分位數(shù),
箱體的上緣是75%分位數(shù),
箱體的下緣是25%分位數(shù)
什么是分位數(shù):如果一組數(shù)的25%分位數(shù)是a,意味著a超過了這組數(shù)中25%數(shù)字的大小
5. 圖1與圖2最主要的區(qū)別在哪里?結(jié)合我們之前的問題,為什么會出現(xiàn)這種情況?
相比于reads 1的測序結(jié)果,reads 2的測序質(zhì)量均勻性差,準確率低,
主要原因:
- reads 2的測序是在reads 1150bp 測序完成以后
- forward strands 再通過1次橋式PCR合成reverse strands
- 這之后再進行熒光測序
- 測序質(zhì)量差的主要原因是因為長時間測序結(jié)束以后,合成酶的活性降低,導(dǎo)致合成時加不上一些堿基,最終同步性變差,主要是phasing錯誤。