RNA-seq入門(二)質(zhì)控及fastqc報(bào)告解讀

一、質(zhì)控

前面我們從GEO下好了SRA數(shù)據(jù)并轉(zhuǎn)換為fastq文件,現(xiàn)在需要對(duì)fastq文件進(jìn)行質(zhì)控,這里用的軟件為fastqc。首先建好文件夾用來(lái)存放數(shù)據(jù)

mkdir 01raw 02clean 03alin 04count

fastqc

1.png
R1=/mnt/d/bioinfo/project/rna/01raw/SRR15859344_1.fastq.gz
R2=/mnt/d/bioinfo/project/rna/01raw/SRR15859344_2.fastq.gz
fastqc $R1 $R2

這步會(huì)產(chǎn)生一個(gè)html文件,這就是fastqc的結(jié)果,我們可以雙擊在網(wǎng)頁(yè)中打開(kāi)進(jìn)行查看。(詳見(jiàn)下面介紹的fastqc報(bào)告解讀)


2.png

fastp

用于數(shù)據(jù)過(guò)濾


3.png
fastp -i $R1 -I $R2 -o ../02clean/SRR15859344_1.clean.fastq.gz -O ../02clean/SRR15859344_2.clean.fastq.gz &

經(jīng)過(guò)質(zhì)控后的fastq文件就可以進(jìn)行后面的比對(duì)分析了。

二、fastqc報(bào)告解讀

本文參考:

https://blog.csdn.net/qq_44520665/article/details/113779792

  1. Basic Statistics

Basic statistics是該fastq一些基本信息:

  • Filename:文件名

  • File type: 文件類型

  • Encoding:測(cè)序平臺(tái)的版本和相應(yīng)的編碼版本號(hào),用于計(jì)算Phred反推error P時(shí)用

  • Total Sequences: 輸入文本的reads的數(shù)量

  • Sequence length: 測(cè)序長(zhǎng)度

  • %GC: GC含量,表示整體序列的GC含量,由于二代測(cè)序GC偏好性高,且深度越高,GC含量會(huì)越高。


    4.png
  1. Per base sequence quality

  • 橫軸為read長(zhǎng)度,縱軸為質(zhì)量得分,Q-score = -10?lg(error P)
  • 柱狀表示該位置所有序列的測(cè)序質(zhì)量的統(tǒng)計(jì),柱狀(黃色)是25%~75%區(qū)間質(zhì)量分布,error bar(觸須)是10%~90%區(qū)間質(zhì)量分布,藍(lán)線表示平均數(shù),紅色為中位數(shù)。
  • 一般要求所有位置的10%小于20,即最多允許該位置10%的序列低于Q20,即90%的序列的堿基質(zhì)量都大于Q20,即90%的序列堿基錯(cuò)誤率不超過(guò)99%。當(dāng)任何堿基質(zhì)量低于10,或者任何中位數(shù)低于25時(shí)報(bào)WARN,需注意;當(dāng)任何堿基質(zhì)量低于5或者任何中位數(shù)低于20報(bào)FAIL。
5.png
堿基質(zhì)量值Q
  • 堿基質(zhì)量值,Q,即每個(gè)堿基的正確識(shí)別率,是衡量測(cè)序質(zhì)量的重要標(biāo)準(zhǔn)

  • Q值通過(guò)測(cè)序Phred值計(jì)算而得,公式為:Q-score = -10 ? lg P。

  • Phred值:不正確的堿基識(shí)別率,在堿基識(shí)別過(guò)程中通過(guò)一種概率模型計(jì)算得到,該模型可準(zhǔn)確預(yù)測(cè)堿基識(shí)別的錯(cuò)誤率。

  • 堿基質(zhì)量值越高表明堿基識(shí)別越可靠,準(zhǔn)確度越高。

  • Q20與Q30的含義:
    【1】Q20為每100個(gè)堿基中會(huì)有一個(gè)識(shí)別錯(cuò),即正確識(shí)別率為2個(gè)9,99%,當(dāng)Phred = 20 時(shí),堿基識(shí)別出錯(cuò)率為1/100,堿基識(shí)別正確率為99%,Q-score = -10 ? lg 10-2=20
    【2】Q30為每1000個(gè)堿基中會(huì)有一個(gè)識(shí)別錯(cuò),正確識(shí)別率為3個(gè)9,99.9%,當(dāng)Phred = 30 時(shí),堿基識(shí)別出錯(cuò)率為1/1000,堿基識(shí)別正確率為99.9%,Q-score = -10 ? lg 10-3=30

  • Q30 > 90%,即堿基質(zhì)量值 ≥ Q30的堿基所占百分比 ≥ 90%。

  1. Per Sequence Quality Scores

  • 每條reads的quality的均值的分布
  • 橫軸表示Q值,縱軸表示每個(gè)值對(duì)應(yīng)的read數(shù)目,當(dāng)測(cè)序結(jié)果主要集中在高分中,證明測(cè)序質(zhì)量良好
  • 當(dāng)峰值小于27(錯(cuò)誤率0.2%)時(shí)報(bào)"WARN",當(dāng)峰值小于20(錯(cuò)誤率1%)時(shí)報(bào)"FAIL"


    6.png
  1. Per Base Sequence Content

  • 對(duì)所有reads的每一個(gè)位置,統(tǒng)計(jì)ATCG四種堿基(正常情況)的分布,用于檢查是否有AT,GC分離現(xiàn)象
  • 橫軸為堿基長(zhǎng)度分布,縱軸表示百分比,圖中4條線分別代表A,C,T,G在每個(gè)位置上的平均含量
  • 由于測(cè)序平臺(tái)及測(cè)序長(zhǎng)度不同,以及測(cè)序儀開(kāi)始狀態(tài)不穩(wěn)定經(jīng)常出現(xiàn)前后波動(dòng)情況
  • 好的樣本中四條線應(yīng)該平行且接近。當(dāng)部分位置堿基的比例出現(xiàn)bias時(shí),即四條線在某些位置紛亂交織,往往提示我們有overrepresented sequence的污染。當(dāng)所有位置的堿基比例一致的表現(xiàn)出bias時(shí),即四條線平行但分開(kāi),往往代表文庫(kù)有bias (建庫(kù)過(guò)程或本身特點(diǎn)),或者是測(cè)序中的系統(tǒng)誤差。
  • 在堿基含量分布圖,前幾個(gè)堿基可能會(huì)出現(xiàn)較大波動(dòng),這是由于隨機(jī)引物擴(kuò)增偏差原因造成的
  • 當(dāng)任一位置的A/T比例與G/C比例相差超過(guò)10%,報(bào)"WARN";當(dāng)任一位置的A/T比例與G/C比例相差超過(guò)20%,報(bào)"FAIL"


    7.png
  1. Per Sequence GC Content

  • 統(tǒng)計(jì)reads的平均GC含量的分布
  • 紅線是實(shí)際情況,藍(lán)線是理論分布(正態(tài)分布,均值不一定在50%,而是由平均GC含量推斷的)
  • 曲線形狀的偏差往往是由于文庫(kù)的污染或是部分reads構(gòu)成的子集有偏差(overrepresented reads)。形狀接近正態(tài)但偏離理論分布的情況提示我們可能有系統(tǒng)偏差
  • 偏離理論分布的reads超過(guò)15%時(shí),報(bào)"WARN";偏離理論分布的reads超過(guò)30%時(shí),報(bào)"FAIL"。
8.png
  1. Per base N content

  • 當(dāng)出現(xiàn)測(cè)序儀不能分辨的堿基時(shí)會(huì)產(chǎn)生N,橫軸為堿基分布,縱軸為N比率
  • 當(dāng)任一位置N的比率超過(guò)5%報(bào)WARN,超過(guò)20%報(bào)FAIL


    9.png
  1. Sequence Length Distribution

  • reads長(zhǎng)度的分布
  • 理論上每次測(cè)序儀測(cè)出的read長(zhǎng)度時(shí)一致的,但是由于建庫(kù)等因素通常會(huì)導(dǎo)致一些小片段,reads長(zhǎng)度不一致時(shí)報(bào)"WARN";當(dāng)有長(zhǎng)度為0的read時(shí)報(bào)“FAIL


    10.png
  1. Sequence Duplication Levels

  • 統(tǒng)計(jì)序列完全一致的reads的頻率,橫坐標(biāo)是duplication的次數(shù),縱坐標(biāo)是duplicated reads的數(shù)目,以u(píng)nique reads的總數(shù)作為100%。
  • 上圖的情況中,相當(dāng)于unique reads數(shù)目~20%的reads是觀察到兩個(gè)重復(fù)的,~3%是觀察到三次重復(fù)的,依此類推
  • 一般測(cè)序深度越高,越容易產(chǎn)生一定程度的重復(fù)序列
  • 如果原始數(shù)據(jù)很大(事實(shí)往往如此),做這樣的統(tǒng)計(jì)將非常慢,所以fastqc中用fq數(shù)據(jù)的前200,000條reads統(tǒng)計(jì)其在全部數(shù)據(jù)中的重復(fù)情況。重復(fù)數(shù)目大于等于10的reads被合并統(tǒng)計(jì),大于75bp的reads只取50bp(不知道怎么選的)進(jìn)行比較。但由于reads越長(zhǎng)越不容易完全相同(由測(cè)序錯(cuò)誤導(dǎo)致),所以其重復(fù)程度仍有可能被低估。
  • 當(dāng)非unique的reads占總數(shù)的比例大于20%時(shí),報(bào)"WARN";當(dāng)非unique的reads占總數(shù)的比例大于50%時(shí),報(bào)"FAIL“


    11.png
  1. Overrepresented sequences

  • 如果有某個(gè)序列大量出現(xiàn),就叫做over-represented。
  • fastqc的標(biāo)準(zhǔn)是占全部reads的0.1%以上。和上面的duplicate analysis一樣,為了計(jì)算方便,只取了fq數(shù)據(jù)的前200,000條reads進(jìn)行統(tǒng)計(jì),所以有可能over-represented reads不在里面。而且大于75bp的reads也是只取50bp。如果命令行中加入了-c contaminant file,出現(xiàn)的over-represented sequence會(huì)從contaminant_file里面找匹配的hit(至少20bp且最多一個(gè)mismatch),可以給我們一些線索。
  • 當(dāng)發(fā)現(xiàn)超過(guò)總reads數(shù)0.1%的reads時(shí)報(bào)”WARN“,當(dāng)發(fā)現(xiàn)超過(guò)總reads數(shù)1%的reads時(shí)報(bào)”FAIL“。


    12.png
  1. Adapter Content

  • 橫軸表示堿基位置,縱軸表示百分比
  • 當(dāng)fastqc分析時(shí)沒(méi)有選擇參數(shù)-a adapter list時(shí),默認(rèn)使用圖例中的4種通用adapter序列進(jìn)行統(tǒng)計(jì)。
  • 若有adapter殘留,后續(xù)必須去接頭
13.png

RNA-seq入門

RNA-seq入門(一)數(shù)據(jù)下載和格式轉(zhuǎn)換

RNA-seq入門(二)質(zhì)控及fastqc報(bào)告解讀

RNA-seq入門(三)比對(duì)、輸出表達(dá)矩陣

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容