一、質(zhì)控
前面我們從GEO下好了SRA數(shù)據(jù)并轉(zhuǎn)換為fastq文件,現(xiàn)在需要對(duì)fastq文件進(jìn)行質(zhì)控,這里用的軟件為fastqc。首先建好文件夾用來(lái)存放數(shù)據(jù)
mkdir 01raw 02clean 03alin 04count
fastqc

R1=/mnt/d/bioinfo/project/rna/01raw/SRR15859344_1.fastq.gz
R2=/mnt/d/bioinfo/project/rna/01raw/SRR15859344_2.fastq.gz
fastqc $R1 $R2
這步會(huì)產(chǎn)生一個(gè)html文件,這就是fastqc的結(jié)果,我們可以雙擊在網(wǎng)頁(yè)中打開(kāi)進(jìn)行查看。(詳見(jiàn)下面介紹的fastqc報(bào)告解讀)

fastp
用于數(shù)據(jù)過(guò)濾

fastp -i $R1 -I $R2 -o ../02clean/SRR15859344_1.clean.fastq.gz -O ../02clean/SRR15859344_2.clean.fastq.gz &
經(jīng)過(guò)質(zhì)控后的fastq文件就可以進(jìn)行后面的比對(duì)分析了。
二、fastqc報(bào)告解讀
本文參考:
https://blog.csdn.net/qq_44520665/article/details/113779792
-
Basic Statistics
Basic statistics是該fastq一些基本信息:
Filename:文件名
File type: 文件類型
Encoding:測(cè)序平臺(tái)的版本和相應(yīng)的編碼版本號(hào),用于計(jì)算Phred反推error P時(shí)用
Total Sequences: 輸入文本的reads的數(shù)量
Sequence length: 測(cè)序長(zhǎng)度
-
%GC: GC含量,表示整體序列的GC含量,由于二代測(cè)序GC偏好性高,且深度越高,GC含量會(huì)越高。
4.png
-
Per base sequence quality
- 橫軸為read長(zhǎng)度,縱軸為質(zhì)量得分,Q-score = -10?lg(error P)
- 柱狀表示該位置所有序列的測(cè)序質(zhì)量的統(tǒng)計(jì),柱狀(黃色)是25%~75%區(qū)間質(zhì)量分布,error bar(觸須)是10%~90%區(qū)間質(zhì)量分布,藍(lán)線表示平均數(shù),紅色為中位數(shù)。
- 一般要求所有位置的10%小于20,即最多允許該位置10%的序列低于Q20,即90%的序列的堿基質(zhì)量都大于Q20,即90%的序列堿基錯(cuò)誤率不超過(guò)99%。當(dāng)任何堿基質(zhì)量低于10,或者任何中位數(shù)低于25時(shí)報(bào)WARN,需注意;當(dāng)任何堿基質(zhì)量低于5或者任何中位數(shù)低于20報(bào)FAIL。

堿基質(zhì)量值Q
堿基質(zhì)量值,Q,即每個(gè)堿基的正確識(shí)別率,是衡量測(cè)序質(zhì)量的重要標(biāo)準(zhǔn)
Q值通過(guò)測(cè)序Phred值計(jì)算而得,公式為:Q-score = -10 ? lg P。
Phred值:不正確的堿基識(shí)別率,在堿基識(shí)別過(guò)程中通過(guò)一種概率模型計(jì)算得到,該模型可準(zhǔn)確預(yù)測(cè)堿基識(shí)別的錯(cuò)誤率。
堿基質(zhì)量值越高表明堿基識(shí)別越可靠,準(zhǔn)確度越高。
Q20與Q30的含義:
【1】Q20為每100個(gè)堿基中會(huì)有一個(gè)識(shí)別錯(cuò),即正確識(shí)別率為2個(gè)9,99%,當(dāng)Phred = 20 時(shí),堿基識(shí)別出錯(cuò)率為1/100,堿基識(shí)別正確率為99%,Q-score = -10 ? lg 10-2=20
【2】Q30為每1000個(gè)堿基中會(huì)有一個(gè)識(shí)別錯(cuò),正確識(shí)別率為3個(gè)9,99.9%,當(dāng)Phred = 30 時(shí),堿基識(shí)別出錯(cuò)率為1/1000,堿基識(shí)別正確率為99.9%,Q-score = -10 ? lg 10-3=30Q30 > 90%,即堿基質(zhì)量值 ≥ Q30的堿基所占百分比 ≥ 90%。
-
Per Sequence Quality Scores
- 每條reads的quality的均值的分布
- 橫軸表示Q值,縱軸表示每個(gè)值對(duì)應(yīng)的read數(shù)目,當(dāng)測(cè)序結(jié)果主要集中在高分中,證明測(cè)序質(zhì)量良好
-
當(dāng)峰值小于27(錯(cuò)誤率0.2%)時(shí)報(bào)"WARN",當(dāng)峰值小于20(錯(cuò)誤率1%)時(shí)報(bào)"FAIL"
6.png
-
Per Base Sequence Content
- 對(duì)所有reads的每一個(gè)位置,統(tǒng)計(jì)ATCG四種堿基(正常情況)的分布,用于檢查是否有AT,GC分離現(xiàn)象
- 橫軸為堿基長(zhǎng)度分布,縱軸表示百分比,圖中4條線分別代表A,C,T,G在每個(gè)位置上的平均含量
- 由于測(cè)序平臺(tái)及測(cè)序長(zhǎng)度不同,以及測(cè)序儀開(kāi)始狀態(tài)不穩(wěn)定經(jīng)常出現(xiàn)前后波動(dòng)情況
- 好的樣本中四條線應(yīng)該平行且接近。當(dāng)部分位置堿基的比例出現(xiàn)bias時(shí),即四條線在某些位置紛亂交織,往往提示我們有overrepresented sequence的污染。當(dāng)所有位置的堿基比例一致的表現(xiàn)出bias時(shí),即四條線平行但分開(kāi),往往代表文庫(kù)有bias (建庫(kù)過(guò)程或本身特點(diǎn)),或者是測(cè)序中的系統(tǒng)誤差。
- 在堿基含量分布圖,前幾個(gè)堿基可能會(huì)出現(xiàn)較大波動(dòng),這是由于隨機(jī)引物擴(kuò)增偏差原因造成的
-
當(dāng)任一位置的A/T比例與G/C比例相差超過(guò)10%,報(bào)"WARN";當(dāng)任一位置的A/T比例與G/C比例相差超過(guò)20%,報(bào)"FAIL"
7.png
-
Per Sequence GC Content
- 統(tǒng)計(jì)reads的平均GC含量的分布
- 紅線是實(shí)際情況,藍(lán)線是理論分布(正態(tài)分布,均值不一定在50%,而是由平均GC含量推斷的)
- 曲線形狀的偏差往往是由于文庫(kù)的污染或是部分reads構(gòu)成的子集有偏差(overrepresented reads)。形狀接近正態(tài)但偏離理論分布的情況提示我們可能有系統(tǒng)偏差
- 偏離理論分布的reads超過(guò)15%時(shí),報(bào)"WARN";偏離理論分布的reads超過(guò)30%時(shí),報(bào)"FAIL"。

-
Per base N content
- 當(dāng)出現(xiàn)測(cè)序儀不能分辨的堿基時(shí)會(huì)產(chǎn)生N,橫軸為堿基分布,縱軸為N比率
-
當(dāng)任一位置N的比率超過(guò)5%報(bào)WARN,超過(guò)20%報(bào)FAIL
9.png
-
Sequence Length Distribution
- reads長(zhǎng)度的分布
-
理論上每次測(cè)序儀測(cè)出的read長(zhǎng)度時(shí)一致的,但是由于建庫(kù)等因素通常會(huì)導(dǎo)致一些小片段,reads長(zhǎng)度不一致時(shí)報(bào)"WARN";當(dāng)有長(zhǎng)度為0的read時(shí)報(bào)“FAIL
10.png
-
Sequence Duplication Levels
- 統(tǒng)計(jì)序列完全一致的reads的頻率,橫坐標(biāo)是duplication的次數(shù),縱坐標(biāo)是duplicated reads的數(shù)目,以u(píng)nique reads的總數(shù)作為100%。
- 上圖的情況中,相當(dāng)于unique reads數(shù)目~20%的reads是觀察到兩個(gè)重復(fù)的,~3%是觀察到三次重復(fù)的,依此類推
- 一般測(cè)序深度越高,越容易產(chǎn)生一定程度的重復(fù)序列
- 如果原始數(shù)據(jù)很大(事實(shí)往往如此),做這樣的統(tǒng)計(jì)將非常慢,所以fastqc中用fq數(shù)據(jù)的前200,000條reads統(tǒng)計(jì)其在全部數(shù)據(jù)中的重復(fù)情況。重復(fù)數(shù)目大于等于10的reads被合并統(tǒng)計(jì),大于75bp的reads只取50bp(不知道怎么選的)進(jìn)行比較。但由于reads越長(zhǎng)越不容易完全相同(由測(cè)序錯(cuò)誤導(dǎo)致),所以其重復(fù)程度仍有可能被低估。
-
當(dāng)非unique的reads占總數(shù)的比例大于20%時(shí),報(bào)"WARN";當(dāng)非unique的reads占總數(shù)的比例大于50%時(shí),報(bào)"FAIL“
11.png
-
Overrepresented sequences
- 如果有某個(gè)序列大量出現(xiàn),就叫做over-represented。
- fastqc的標(biāo)準(zhǔn)是占全部reads的0.1%以上。和上面的duplicate analysis一樣,為了計(jì)算方便,只取了fq數(shù)據(jù)的前200,000條reads進(jìn)行統(tǒng)計(jì),所以有可能over-represented reads不在里面。而且大于75bp的reads也是只取50bp。如果命令行中加入了-c contaminant file,出現(xiàn)的over-represented sequence會(huì)從contaminant_file里面找匹配的hit(至少20bp且最多一個(gè)mismatch),可以給我們一些線索。
-
當(dāng)發(fā)現(xiàn)超過(guò)總reads數(shù)0.1%的reads時(shí)報(bào)”WARN“,當(dāng)發(fā)現(xiàn)超過(guò)總reads數(shù)1%的reads時(shí)報(bào)”FAIL“。
12.png
-
Adapter Content
- 橫軸表示堿基位置,縱軸表示百分比
- 當(dāng)fastqc分析時(shí)沒(méi)有選擇參數(shù)-a adapter list時(shí),默認(rèn)使用圖例中的4種通用adapter序列進(jìn)行統(tǒng)計(jì)。
- 若有adapter殘留,后續(xù)必須去接頭

RNA-seq入門
RNA-seq入門(一)數(shù)據(jù)下載和格式轉(zhuǎn)換
RNA-seq入門(二)質(zhì)控及fastqc報(bào)告解讀






