我的ChIP-Seq(1): FastQC報(bào)告解讀

新手,剛做完一個(gè)ChIP-Seq項(xiàng)目的分析,來記錄一下,會(huì)分好幾篇。

首先是下機(jī)數(shù)據(jù)fastqc之后會(huì)生成一個(gè)html格式的報(bào)告,根據(jù)報(bào)告可以看出自己數(shù)據(jù)的特點(diǎn),便于之后clean的參數(shù)設(shè)置。以下是fastqc(v0.11.5)報(bào)告的內(nèi)容說明(以自己的數(shù)據(jù)為例,經(jīng)公司粗過濾后的下機(jī)數(shù)據(jù))有網(wǎng)上搜索到的也有自己的體會(huì):

basic?statistics:

基本信息

Per base sequence quality:

堿基質(zhì)量,F(xiàn)red值=-10*log10(p);p為某堿基測錯(cuò)的概率,若quality是20則概率為0.01,一般集中在30-40;如圖橫軸代表位置,縱軸quality。紅線表示中位數(shù),藍(lán)線是平均數(shù),觸須是10%-90%區(qū)間,黃色是25%-75%區(qū)間(此圖沒有);若任一位置的下四分位數(shù)低于10或中位數(shù)低于25,報(bào)"WARN";若任一位置的下四分位數(shù)低于5或中位數(shù)低于20,報(bào)"FAIL".

Per?tile Sequence Quality:

橫軸是位置,縱軸是tile的index編號(hào),熱圖顏色淺代表質(zhì)量低。當(dāng)某些tile出現(xiàn)暖色時(shí),后續(xù)分析應(yīng)把該tail測序結(jié)果全部去除。

這一模塊是檢查reads中每一個(gè)堿基位置在不同的測序小孔之間的偏離度,藍(lán)色表示低于平均偏離度,越紅則說明偏離平均質(zhì)量方差越多,也就是說質(zhì)量越差。如果出現(xiàn)質(zhì)量問題可能是短暫的,如有氣泡產(chǎn)生,也可能是長期的,如在某一小孔中存在殘骸。問題不大。

per?sequence?quality?scores:

橫軸是質(zhì)量Q值,縱軸是對應(yīng)的reads數(shù)目。主要集中在高分,證明測序質(zhì)量好。

Per Base Sequence Content:

所有reads每一個(gè)位置的堿基分布??v軸為百分比。ATCG出現(xiàn)的頻率應(yīng)該接近,且沒有位置差異,四條線應(yīng)該平行且接近。當(dāng)部分位置堿基的比例出現(xiàn)bias時(shí),往往是有overrepresented sequence的污染。當(dāng)所有位置的堿基比例一致的表現(xiàn)出bias時(shí),即四條線平行但分開,往往代表文庫有bias (建庫過程或本身特點(diǎn)),或者是測序中的系統(tǒng)誤差。 當(dāng)任一位置的A/T比例與G/C比例相差超過10%,報(bào)"WARN";當(dāng)任一位置的A/T比例與G/C比例相差超過20%,報(bào)"FAIL"。

per?sequence GCcontent:

紅色是實(shí)際值,若出現(xiàn)雙峰,則是混入了其它DNA。

per?base N?content:

測序儀不能分辨的堿基為N,若超過5%則WARN,超過20%則FAIL。

sequence?length?distribution:

理論上每次測序儀測出的read長度一致,但由于建庫等因素通常會(huì)導(dǎo)致一些小片段,如果報(bào)FAIL,表明此次測序過程中產(chǎn)生的數(shù)據(jù)不可信。未過濾之前如圖一,clean之后會(huì)出現(xiàn)圖二,越短的reads越少,不會(huì)正態(tài)分布。

圖一
圖二

sequence?duplication?levels:

序列完全一致的reads的頻率。橫軸表示重復(fù)的次數(shù),縱軸表示重復(fù)的reads的數(shù)目( 以u(píng)nique reads的總數(shù)作為100%)。一般測序深度越高,越容易產(chǎn)生一定程度的重復(fù)序列。但是read越長越不容易完全重復(fù)(測序錯(cuò)誤、偏差等原因),所以重復(fù)程度可能是低估的。

overrepresented?sequences:

No。指有某個(gè)序列大量出現(xiàn)(fastqc的標(biāo)準(zhǔn)是0.1%以上)一般有在前面GC圖能看出來。

adapter?content:

橫軸表示堿基位置,縱軸表示百分比。當(dāng)fastqc分析時(shí)沒有選擇參數(shù)-a adapter list時(shí),默認(rèn)使用圖例中的4種通用adapter序列進(jìn)行統(tǒng)計(jì)。若有adapter殘留,后續(xù)必須去接頭。

Kmer?content:

某k個(gè)bp的短序列在reads中大量出現(xiàn)。fastqc默認(rèn)的k=5,可以通過-k --?kmers參數(shù)更改,范圍是2-10。出現(xiàn)圖一這種情況的原因要么是序列本身重復(fù)度高,比如建庫PCR的時(shí)候出現(xiàn)了Bias?;蛘遖dapter沒有除干凈。clean之后前幾個(gè)堿基還有少數(shù)高頻也沒關(guān)系,不影響后續(xù)分析,可正常使用。

圖一
圖二

以上。

可以看出我這批數(shù)據(jù)質(zhì)量還是很好的,其實(shí)可以直接比對,已經(jīng)是公司粗過濾之后的。但是我選擇了自己再過濾一遍,下一個(gè)筆記會(huì)講。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容