999精品免费久久,电影摩登女孩在线观看

fasqc使用

conda install fastqc

fastqc -t 12 -o out_path sample1_1.fq sample1_2.fq

ls /*.gz | while read id; do nohup fastqc -o fastqc -t 4 $id & done

測序數據的基本信息

每個堿基的質量值
每條reads序列的質量值
每條序列的ATCG組成
每條序列N的含量
每條序列的長度分布
序列中duplication程度
K-mer信息

fastqc結果解讀

查看html格式的結果報告。結果分為如下幾項：
綠色的"PASS"|黃色的"WARN"|紅色的"FAIL"
attention:當出現黃色時說明需要查看結果

fastqc結果

1.Basic Statistics

Basic Statistics

Basic statistics是該fastq一些基本信息:

Filename:文件名
File type: 文件類型
Encoding：測序平臺的版本和相應的編碼版本號，用于計算Phred反推error P時用
Total Sequences: 輸入文本的reads的數量
Sequence length: 測序長度
%GC: GC含量，表示整體序列的GC含量，由于二代測序GC偏好性高，且深度越高，GC含量會越高。

2.Per base sequence quality

Per base sequence quality

橫軸為read長度，縱軸為質量得分，Q-score = -10?lg（error P）
柱狀表示該位置所有序列的測序質量的統(tǒng)計，柱狀（黃色）是25%~75%區(qū)間質量分布，error bar（觸須）是10%~90%區(qū)間質量分布，藍線表示平均數，紅色為中位數。
一般要求所有位置的10%小于20，即最多允許該位置10%的序列低于Q20，即90%的序列的堿基質量都大于Q20，即90%的序列堿基錯誤率不超過99%。當任何堿基質量低于10，或者任何中位數低于25時報WARN,需注意；當任何堿基質量低于5或者任何中位數低于20報FAIL。

堿基質量值Q
堿基質量值，Q，即每個堿基的正確識別率，是衡量測序質量的重要標準
Q值通過測序Phred值計算而得，公式為：Q-score = -10 ? lg P(P,錯誤概率)
Phred值：不正確的堿基識別率，在堿基識別過程中通過一種概率模型計算得到，該模型可準確預測堿基識別的錯誤率
堿基質量值越高表明堿基識別越可靠，準確度越高
Q20與Q30的含義：
【1】Q20為每100個堿基中會有一個識別錯，即正確識別率為2個9，99%，當Phred = 20 時，堿基識別出錯率為1/100，堿基識別正確率為99%，Q-score = -10 ? lg 10-2=20
【2】Q30為每1000個堿基中會有一個識別錯，正確識別率為3個9，99.9%，當Phred = 30 時，堿基識別出錯率為1/1000，堿基識別正確率為99.9%，Q-score = -10 ? lg 10-3=30
Q30 > 90%,即堿基質量值 ≥ Q30的堿基所占百分比 ≥ 90%

3.Per tile sequence quality

Per tile sequence quality

4.Per sequence quality scores

Per sequence quality scores

每條reads的quality的均值的分布
橫軸表示Q值，縱軸表示每個值對應的read數目，當測序結果主要集中在高分中，證明測序質量良好
當峰值小于27（錯誤率0.2%）時報"WARN"，當峰值小于20（錯誤率1%）時報"FAIL"

5.Per base sequence content

Per base sequence content

對所有reads的每一個位置，統(tǒng)計ATCG四種堿基（正常情況）的分布，用于檢查是否有AT,GC分離現象.
橫軸為堿基長度分布，縱軸表示百分比，圖中4條線分別代表A，C，T，G在每個位置上的平均含量

由于測序平臺及測序長度不同，以及測序儀開始狀態(tài)不穩(wěn)定經常出現前后波動情況。

好的樣本中四條線應該平行且接近。
當部分位置堿基的比例出現bias時，即四條線在某些位置紛亂交織，往往提示我們有overrepresented sequence的污染。當所有位置的堿基比例一致的表現出bias時，即四條線平行但分開，往往代表文庫有bias (建庫過程或本身特點)，或者是測序中的系統(tǒng)誤差。
在堿基含量分布圖，前幾個堿基可能會出現較大波動，這是由于隨機引物擴增偏差原因造成的
當任一位置的A/T比例與G/C比例相差超過10%，報"WARN"；當任一位置的A/T比例與G/C比例相差超過20%，報"FAIL"

6. Per Sequence GC Content

統(tǒng)計reads的平均GC含量的分布

紅線是實際情況，藍線是理論分布（正態(tài)分布，均值不一定在50%，而是由平均GC含量推斷的）
曲線形狀的偏差往往是由于文庫的污染或是部分reads構成的子集有偏差（overrepresented reads）。形狀接近正態(tài)但偏離理論分布的情況提示我們可能有系統(tǒng)偏差
偏離理論分布的reads超過15%時，報"WARN"；偏離理論分布的reads超過30%時，報"FAIL"。

7.Per base N content

當出現測序儀不能分辨的堿基時會產生N，橫軸為堿基分布，縱軸為N比率
當任一位置N的比率超過5%報WARN，超過20%報FAIL.

8.Sequence Length Distribution

LENGTH

reads長度的分布
理論上每次測序儀測出的read長度時一致的，但是由于建庫等因素通常會導致一些小片段，reads長度不一致時報"WARN"；當有長度為0的read時報“FAIL

9.Sequence duplicated levels

duplicated

統(tǒng)計序列完全一致的reads的頻率，橫坐標是duplication的次數，縱坐標是duplicated reads的數目，以unique reads的總數作為100%。(每種不同的read重復了幾次)
上圖的情況中，相當于unique reads數目～20%的reads是觀察到兩個重復的，～3%是觀察到三次重復的，依此類推
一般測序深度越高，越容易產生一定程度的重復序列
如果原始數據很大（事實往往如此），做這樣的統(tǒng)計將非常慢，所以fastqc中用fq數據的前200,000條reads統(tǒng)計其在全部數據中的重復情況。重復數目大于等于10的reads被合并統(tǒng)計，大于75bp的reads只取50bp（不知道怎么選的）進行比較。但由于reads越長越不容易完全相同（由測序錯誤導致），所以其重復程度仍有可能被低估。
當非unique的reads占總數的比例大于20%時，報"WARN"；當非unique的reads占總數的比例大于50%時，報"FAIL“

10.Overrepresented sequences

如果有某個序列大量出現，就叫做over-represented。
fastqc的標準是占全部reads的0.1%以上。和上面的duplicate analysis一樣，為了計算方便，只取了fq數據的前200,000條reads進行統(tǒng)計，所以有可能over-represented reads不在里面。而且大于75bp的reads也是只取50bp。如果命令行中加入了-c contaminant file，出現的over-represented sequence會從contaminant_file里面找匹配的hit（至少20bp且最多一個mismatch），可以給我們一些線索。
當發(fā)現超過總reads數0.1%的reads時報”WARN“，當發(fā)現超過總reads數1%的reads時報”FAIL“

11.adapter content

adapter

橫軸表示堿基位置，縱軸表示百分比
當fastqc分析時沒有選擇參數-a adapter list時，默認使用圖例中的4種通用adapter序列進行統(tǒng)計。
若有adapter殘留，后續(xù)必須去接頭。

————————————————
版權聲明：本文為CSDN博主「我是菜鳥www」的原創(chuàng)文章，遵循CC 4.0 BY-SA版權協(xié)議，轉載請附上原文出處鏈接及本聲明。
原文鏈接：https://blog.csdn.net/qq_44520665/article/details/113779792

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

fastqc

fastqc

fasqc使用

測序數據的基本信息

fastqc結果解讀

1.Basic Statistics

2.Per base sequence quality

3.Per tile sequence quality

4.Per sequence quality scores

5.Per base sequence content

6. Per Sequence GC Content

7.Per base N content

8.Sequence Length Distribution

9.Sequence duplicated levels

10.Overrepresented sequences

11.adapter content

相關閱讀更多精彩內容

友情鏈接更多精彩內容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

fastqc

fasqc使用

測序數據的基本信息

fastqc結果解讀

1.Basic Statistics

2.Per base sequence quality

3.Per tile sequence quality

4.Per sequence quality scores

5.Per base sequence content

6. Per Sequence GC Content

7.Per base N content

8.Sequence Length Distribution

9.Sequence duplicated levels

10.Overrepresented sequences

11.adapter content

相關閱讀更多精彩內容

友情鏈接更多精彩內容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av