久久色婷婷AV,婷婷中文字幕亚洲一区

一、質(zhì)控

前面我們從GEO下好了SRA數(shù)據(jù)并轉(zhuǎn)換為fastq文件，現(xiàn)在需要對(duì)fastq文件進(jìn)行質(zhì)控，這里用的軟件為fastqc。首先建好文件夾用來(lái)存放數(shù)據(jù)

mkdir 01raw 02clean 03alin 04count

fastqc

1.png

R1=/mnt/d/bioinfo/project/rna/01raw/SRR15859344_1.fastq.gz
R2=/mnt/d/bioinfo/project/rna/01raw/SRR15859344_2.fastq.gz
fastqc $R1 $R2

這步會(huì)產(chǎn)生一個(gè)html文件，這就是fastqc的結(jié)果，我們可以雙擊在網(wǎng)頁(yè)中打開(kāi)進(jìn)行查看。（詳見(jiàn)下面介紹的fastqc報(bào)告解讀）

2.png

fastp

用于數(shù)據(jù)過(guò)濾

3.png

fastp -i $R1 -I $R2 -o ../02clean/SRR15859344_1.clean.fastq.gz -O ../02clean/SRR15859344_2.clean.fastq.gz &

經(jīng)過(guò)質(zhì)控后的fastq文件就可以進(jìn)行后面的比對(duì)分析了。

二、fastqc報(bào)告解讀

本文參考：

https://blog.csdn.net/qq_44520665/article/details/113779792

Basic Statistics

Basic statistics是該fastq一些基本信息:

Filename:文件名
File type: 文件類型
Encoding：測(cè)序平臺(tái)的版本和相應(yīng)的編碼版本號(hào)，用于計(jì)算Phred反推error P時(shí)用
Total Sequences: 輸入文本的reads的數(shù)量
Sequence length: 測(cè)序長(zhǎng)度
%GC: GC含量，表示整體序列的GC含量，由于二代測(cè)序GC偏好性高，且深度越高，GC含量會(huì)越高。

4.png

Per base sequence quality

橫軸為read長(zhǎng)度，縱軸為質(zhì)量得分，Q-score = -10?lg（error P）
柱狀表示該位置所有序列的測(cè)序質(zhì)量的統(tǒng)計(jì)，柱狀（黃色）是25%~75%區(qū)間質(zhì)量分布，error bar（觸須）是10%~90%區(qū)間質(zhì)量分布，藍(lán)線表示平均數(shù)，紅色為中位數(shù)。
一般要求所有位置的10%小于20，即最多允許該位置10%的序列低于Q20，即90%的序列的堿基質(zhì)量都大于Q20，即90%的序列堿基錯(cuò)誤率不超過(guò)99%。當(dāng)任何堿基質(zhì)量低于10，或者任何中位數(shù)低于25時(shí)報(bào)WARN,需注意；當(dāng)任何堿基質(zhì)量低于5或者任何中位數(shù)低于20報(bào)FAIL。

5.png

堿基質(zhì)量值Q

堿基質(zhì)量值，Q，即每個(gè)堿基的正確識(shí)別率，是衡量測(cè)序質(zhì)量的重要標(biāo)準(zhǔn)
Q值通過(guò)測(cè)序Phred值計(jì)算而得，公式為：Q-score = -10 ? lg P。
Phred值：不正確的堿基識(shí)別率，在堿基識(shí)別過(guò)程中通過(guò)一種概率模型計(jì)算得到，該模型可準(zhǔn)確預(yù)測(cè)堿基識(shí)別的錯(cuò)誤率。
堿基質(zhì)量值越高表明堿基識(shí)別越可靠，準(zhǔn)確度越高。
Q20與Q30的含義：
【1】Q20為每100個(gè)堿基中會(huì)有一個(gè)識(shí)別錯(cuò)，即正確識(shí)別率為2個(gè)9，99%，當(dāng)Phred = 20 時(shí)，堿基識(shí)別出錯(cuò)率為1/100，堿基識(shí)別正確率為99%，Q-score = -10 ? lg 10-2=20
【2】Q30為每1000個(gè)堿基中會(huì)有一個(gè)識(shí)別錯(cuò)，正確識(shí)別率為3個(gè)9，99.9%，當(dāng)Phred = 30 時(shí)，堿基識(shí)別出錯(cuò)率為1/1000，堿基識(shí)別正確率為99.9%，Q-score = -10 ? lg 10-3=30
Q30 > 90%,即堿基質(zhì)量值 ≥ Q30的堿基所占百分比 ≥ 90%。

Per Sequence Quality Scores

每條reads的quality的均值的分布
橫軸表示Q值，縱軸表示每個(gè)值對(duì)應(yīng)的read數(shù)目，當(dāng)測(cè)序結(jié)果主要集中在高分中，證明測(cè)序質(zhì)量良好
當(dāng)峰值小于27（錯(cuò)誤率0.2%）時(shí)報(bào)"WARN"，當(dāng)峰值小于20（錯(cuò)誤率1%）時(shí)報(bào)"FAIL"

6.png

Per Base Sequence Content

對(duì)所有reads的每一個(gè)位置，統(tǒng)計(jì)ATCG四種堿基（正常情況）的分布，用于檢查是否有AT,GC分離現(xiàn)象
橫軸為堿基長(zhǎng)度分布，縱軸表示百分比，圖中4條線分別代表A，C，T，G在每個(gè)位置上的平均含量
由于測(cè)序平臺(tái)及測(cè)序長(zhǎng)度不同，以及測(cè)序儀開(kāi)始狀態(tài)不穩(wěn)定經(jīng)常出現(xiàn)前后波動(dòng)情況
好的樣本中四條線應(yīng)該平行且接近。當(dāng)部分位置堿基的比例出現(xiàn)bias時(shí)，即四條線在某些位置紛亂交織，往往提示我們有overrepresented sequence的污染。當(dāng)所有位置的堿基比例一致的表現(xiàn)出bias時(shí)，即四條線平行但分開(kāi)，往往代表文庫(kù)有bias (建庫(kù)過(guò)程或本身特點(diǎn))，或者是測(cè)序中的系統(tǒng)誤差。
在堿基含量分布圖，前幾個(gè)堿基可能會(huì)出現(xiàn)較大波動(dòng)，這是由于隨機(jī)引物擴(kuò)增偏差原因造成的
當(dāng)任一位置的A/T比例與G/C比例相差超過(guò)10%，報(bào)"WARN"；當(dāng)任一位置的A/T比例與G/C比例相差超過(guò)20%，報(bào)"FAIL"

7.png

Per Sequence GC Content

統(tǒng)計(jì)reads的平均GC含量的分布
紅線是實(shí)際情況，藍(lán)線是理論分布（正態(tài)分布，均值不一定在50%，而是由平均GC含量推斷的）
曲線形狀的偏差往往是由于文庫(kù)的污染或是部分reads構(gòu)成的子集有偏差（overrepresented reads）。形狀接近正態(tài)但偏離理論分布的情況提示我們可能有系統(tǒng)偏差
偏離理論分布的reads超過(guò)15%時(shí)，報(bào)"WARN"；偏離理論分布的reads超過(guò)30%時(shí)，報(bào)"FAIL"。

8.png

Per base N content

當(dāng)出現(xiàn)測(cè)序儀不能分辨的堿基時(shí)會(huì)產(chǎn)生N，橫軸為堿基分布，縱軸為N比率
當(dāng)任一位置N的比率超過(guò)5%報(bào)WARN，超過(guò)20%報(bào)FAIL

9.png

Sequence Length Distribution

reads長(zhǎng)度的分布
理論上每次測(cè)序儀測(cè)出的read長(zhǎng)度時(shí)一致的，但是由于建庫(kù)等因素通常會(huì)導(dǎo)致一些小片段，reads長(zhǎng)度不一致時(shí)報(bào)"WARN"；當(dāng)有長(zhǎng)度為0的read時(shí)報(bào)“FAIL

10.png

Sequence Duplication Levels

統(tǒng)計(jì)序列完全一致的reads的頻率，橫坐標(biāo)是duplication的次數(shù)，縱坐標(biāo)是duplicated reads的數(shù)目，以u(píng)nique reads的總數(shù)作為100%。
上圖的情況中，相當(dāng)于unique reads數(shù)目～20%的reads是觀察到兩個(gè)重復(fù)的，～3%是觀察到三次重復(fù)的，依此類推
一般測(cè)序深度越高，越容易產(chǎn)生一定程度的重復(fù)序列
如果原始數(shù)據(jù)很大（事實(shí)往往如此），做這樣的統(tǒng)計(jì)將非常慢，所以fastqc中用fq數(shù)據(jù)的前200,000條reads統(tǒng)計(jì)其在全部數(shù)據(jù)中的重復(fù)情況。重復(fù)數(shù)目大于等于10的reads被合并統(tǒng)計(jì)，大于75bp的reads只取50bp（不知道怎么選的）進(jìn)行比較。但由于reads越長(zhǎng)越不容易完全相同（由測(cè)序錯(cuò)誤導(dǎo)致），所以其重復(fù)程度仍有可能被低估。
當(dāng)非unique的reads占總數(shù)的比例大于20%時(shí)，報(bào)"WARN"；當(dāng)非unique的reads占總數(shù)的比例大于50%時(shí)，報(bào)"FAIL“

11.png

Overrepresented sequences

如果有某個(gè)序列大量出現(xiàn)，就叫做over-represented。
fastqc的標(biāo)準(zhǔn)是占全部reads的0.1%以上。和上面的duplicate analysis一樣，為了計(jì)算方便，只取了fq數(shù)據(jù)的前200,000條reads進(jìn)行統(tǒng)計(jì)，所以有可能over-represented reads不在里面。而且大于75bp的reads也是只取50bp。如果命令行中加入了-c contaminant file，出現(xiàn)的over-represented sequence會(huì)從contaminant_file里面找匹配的hit（至少20bp且最多一個(gè)mismatch），可以給我們一些線索。
當(dāng)發(fā)現(xiàn)超過(guò)總reads數(shù)0.1%的reads時(shí)報(bào)”WARN“，當(dāng)發(fā)現(xiàn)超過(guò)總reads數(shù)1%的reads時(shí)報(bào)”FAIL“。

12.png

Adapter Content

橫軸表示堿基位置，縱軸表示百分比
當(dāng)fastqc分析時(shí)沒(méi)有選擇參數(shù)-a adapter list時(shí)，默認(rèn)使用圖例中的4種通用adapter序列進(jìn)行統(tǒng)計(jì)。
若有adapter殘留，后續(xù)必須去接頭

13.png

RNA-seq入門

RNA-seq入門（一）數(shù)據(jù)下載和格式轉(zhuǎn)換

RNA-seq入門（二）質(zhì)控及fastqc報(bào)告解讀

RNA-seq入門（三）比對(duì)、輸出表達(dá)矩陣

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

RNA-seq入門（二）質(zhì)控及fastqc報(bào)告解讀

RNA-seq入門（二）質(zhì)控及fastqc報(bào)告解讀

一、質(zhì)控

fastqc

fastp

二、fastqc報(bào)告解讀

Basic Statistics

Per base sequence quality

堿基質(zhì)量值Q

Per Sequence Quality Scores

Per Base Sequence Content

Per Sequence GC Content

Per base N content

Sequence Length Distribution

Sequence Duplication Levels

Overrepresented sequences

Adapter Content

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

RNA-seq入門（二）質(zhì)控及fastqc報(bào)告解讀

一、質(zhì)控

fastqc

fastp

二、fastqc報(bào)告解讀

Basic Statistics

Per base sequence quality

堿基質(zhì)量值Q

Per Sequence Quality Scores

Per Base Sequence Content

Per Sequence GC Content

Per base N content

Sequence Length Distribution

Sequence Duplication Levels

Overrepresented sequences

Adapter Content

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av