fastqc

fasqc使用

conda install fastqc

fastqc -t 12 -o out_path sample1_1.fq sample1_2.fq

ls /*.gz | while read id; do nohup fastqc -o fastqc -t 4 $id & done

測序數據的基本信息

每個堿基的質量值
每條reads序列的質量值
每條序列的ATCG組成
每條序列N的含量
每條序列的長度分布
序列中duplication程度
K-mer信息

fastqc結果解讀

查看html格式的結果報告。結果分為如下幾項:
綠色的"PASS"|黃色的"WARN"|紅色的"FAIL"
attention:當出現黃色時說明需要查看結果

fastqc結果

1.Basic Statistics

Basic Statistics

Basic statistics是該fastq一些基本信息:

Filename:文件名
File type: 文件類型
Encoding:測序平臺的版本和相應的編碼版本號,用于計算Phred反推error P時用
Total Sequences: 輸入文本的reads的數量
Sequence length: 測序長度
%GC: GC含量,表示整體序列的GC含量,由于二代測序GC偏好性高,且深度越高,GC含量會越高。

2.Per base sequence quality

Per base sequence quality

橫軸為read長度,縱軸為質量得分,Q-score = -10?lg(error P)
柱狀表示該位置所有序列的測序質量的統(tǒng)計,柱狀(黃色)是25%~75%區(qū)間質量分布,error bar(觸須)是10%~90%區(qū)間質量分布,藍線表示平均數,紅色為中位數。
一般要求所有位置的10%小于20,即最多允許該位置10%的序列低于Q20,即90%的序列的堿基質量都大于Q20,即90%的序列堿基錯誤率不超過99%。當任何堿基質量低于10,或者任何中位數低于25時報WARN,需注意;當任何堿基質量低于5或者任何中位數低于20報FAIL。

  • 堿基質量值Q
    堿基質量值,Q,即每個堿基的正確識別率,是衡量測序質量的重要標準
    Q值通過測序Phred值計算而得,公式為:Q-score = -10 ? lg P(P,錯誤概率)
    Phred值:不正確的堿基識別率,在堿基識別過程中通過一種概率模型計算得到,該模型可準確預測堿基識別的錯誤率
  • 堿基質量值越高表明堿基識別越可靠,準確度越高
  • Q20與Q30的含義:
    【1】Q20為每100個堿基中會有一個識別錯,即正確識別率為2個9,99%,當Phred = 20 時,堿基識別出錯率為1/100,堿基識別正確率為99%,Q-score = -10 ? lg 10-2=20
    【2】Q30為每1000個堿基中會有一個識別錯,正確識別率為3個9,99.9%,當Phred = 30 時,堿基識別出錯率為1/1000,堿基識別正確率為99.9%,Q-score = -10 ? lg 10-3=30
    Q30 > 90%,即堿基質量值 ≥ Q30的堿基所占百分比 ≥ 90%

3.Per tile sequence quality

Per tile sequence quality

4.Per sequence quality scores

Per sequence quality scores

每條reads的quality的均值的分布
橫軸表示Q值,縱軸表示每個值對應的read數目,當測序結果主要集中在高分中,證明測序質量良好
當峰值小于27(錯誤率0.2%)時報"WARN",當峰值小于20(錯誤率1%)時報"FAIL"

5.Per base sequence content

Per base sequence content

Per base sequence content
  • 對所有reads的每一個位置,統(tǒng)計ATCG四種堿基(正常情況)的分布,用于檢查是否有AT,GC分離現象.

  • 橫軸為堿基長度分布,縱軸表示百分比,圖中4條線分別代表A,C,T,G在每個位置上的平均含量

由于測序平臺及測序長度不同,以及測序儀開始狀態(tài)不穩(wěn)定經常出現前后波動情況。

  • 好的樣本中四條線應該平行且接近。
  • 當部分位置堿基的比例出現bias時,即四條線在某些位置紛亂交織,往往提示我們有overrepresented sequence的污染。當所有位置的堿基比例一致的表現出bias時,即四條線平行但分開,往往代表文庫有bias (建庫過程或本身特點),或者是測序中的系統(tǒng)誤差。
  • 在堿基含量分布圖,前幾個堿基可能會出現較大波動,這是由于隨機引物擴增偏差原因造成的
  • 當任一位置的A/T比例與G/C比例相差超過10%,報"WARN";當任一位置的A/T比例與G/C比例相差超過20%,報"FAIL"

6. Per Sequence GC Content

GC

統(tǒng)計reads的平均GC含量的分布

  • 紅線是實際情況,藍線是理論分布(正態(tài)分布,均值不一定在50%,而是由平均GC含量推斷的)
  • 曲線形狀的偏差往往是由于文庫的污染或是部分reads構成的子集有偏差(overrepresented reads)。形狀接近正態(tài)但偏離理論分布的情況提示我們可能有系統(tǒng)偏差
  • 偏離理論分布的reads超過15%時,報"WARN";偏離理論分布的reads超過30%時,報"FAIL"。

7.Per base N content

當出現測序儀不能分辨的堿基時會產生N,橫軸為堿基分布,縱軸為N比率
當任一位置N的比率超過5%報WARN,超過20%報FAIL.


N

8.Sequence Length Distribution

LENGTH

reads長度的分布
理論上每次測序儀測出的read長度時一致的,但是由于建庫等因素通常會導致一些小片段,reads長度不一致時報"WARN";當有長度為0的read時報“FAIL

9.Sequence duplicated levels

duplicated
  • 統(tǒng)計序列完全一致的reads的頻率,橫坐標是duplication的次數,縱坐標是duplicated reads的數目,以unique reads的總數作為100%。(每種不同的read重復了幾次)
  • 上圖的情況中,相當于unique reads數目~20%的reads是觀察到兩個重復的,~3%是觀察到三次重復的,依此類推
  • 一般測序深度越高,越容易產生一定程度的重復序列
  • 如果原始數據很大(事實往往如此),做這樣的統(tǒng)計將非常慢,所以fastqc中用fq數據的前200,000條reads統(tǒng)計其在全部數據中的重復情況。重復數目大于等于10的reads被合并統(tǒng)計,大于75bp的reads只取50bp(不知道怎么選的)進行比較。但由于reads越長越不容易完全相同(由測序錯誤導致),所以其重復程度仍有可能被低估。
    當 非unique的reads占總數的比例大于20%時,報"WARN";當 非unique的reads占總數的比例大于50%時,報"FAIL“

10.Overrepresented sequences

如果有某個序列大量出現,就叫做over-represented。
fastqc的標準是占全部reads的0.1%以上。和上面的duplicate analysis一樣,為了計算方便,只取了fq數據的前200,000條reads進行統(tǒng)計,所以有可能over-represented reads不在里面。而且大于75bp的reads也是只取50bp。如果命令行中加入了-c contaminant file,出現的over-represented sequence會從contaminant_file里面找匹配的hit(至少20bp且最多一個mismatch),可以給我們一些線索。
當發(fā)現超過總reads數0.1%的reads時報”WARN“,當發(fā)現超過總reads數1%的reads時報”FAIL“


1

2

11.adapter content

adapter

橫軸表示堿基位置,縱軸表示百分比
當fastqc分析時沒有選擇參數-a adapter list時,默認使用圖例中的4種通用adapter序列進行統(tǒng)計。
若有adapter殘留,后續(xù)必須去接頭。

————————————————
版權聲明:本文為CSDN博主「我是菜鳥www」的原創(chuàng)文章,遵循CC 4.0 BY-SA版權協(xié)議,轉載請附上原文出處鏈接及本聲明。
原文鏈接:https://blog.csdn.net/qq_44520665/article/details/113779792

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

友情鏈接更多精彩內容