AAA免费在线视频,日不卡一区二区三区

fastq文件在經(jīng)過(guò)fastqc文件質(zhì)檢后，一般都會(huì)生成一個(gè)網(wǎng)頁(yè)版的文件，我們可以根據(jù)文件來(lái)分析我們的測(cè)序結(jié)果的好壞，前提是我們能夠讀懂這個(gè)文件中顯示的內(nèi)容，接下來(lái)我們主要解讀一下每一張圖所代表的信息。

1 首先我們看一下左邊的summary：綠色代表PASS；黃色代表WARN；紅色代表FAIL。當(dāng)出現(xiàn)黃色時(shí)說(shuō)明需要查看結(jié)果。

2?Basic Statistics

Basic statistics是該fastq一些基本信息，主要?

Filename:文件名

File type: 文件類(lèi)型

Encoding：測(cè)序平臺(tái)的版本和相應(yīng)的編碼版本號(hào)，用于計(jì)算Phred反推error P時(shí)用

Total Sequences: 輸入文本的reads的數(shù)量

Sequence length: 測(cè)序長(zhǎng)度

%GC: GC含量，表示整體序列的GC含量，由于二代測(cè)序GC偏好性高，且深度越高，GC含量會(huì)越高。

3.Per base sequence quality

橫軸為read長(zhǎng)度，縱軸為質(zhì)量得分，Q = -10*log10（error P）。柱狀表示該位置所有序列的測(cè)序質(zhì)量的統(tǒng)計(jì)，柱狀是25%~75%區(qū)間質(zhì)量分布，error bar是10%~90%區(qū)間質(zhì)量分布，藍(lán)線表示平均數(shù)。一般要求所有位置的10%分位數(shù)大于20，即大于最多允許該位置10%的序列低于Q20。當(dāng)任何堿基質(zhì)量低于10，或者任何中位數(shù)低于25報(bào)WARN,需注意；當(dāng)任何堿基質(zhì)量低于5或者任何中位數(shù)低于20報(bào)FAIL。

4.Per base sequence content

統(tǒng)計(jì)在序列中的每一個(gè)位置，四種不同堿基占總堿基數(shù)的比例，檢測(cè)有無(wú)AT、GC分離的現(xiàn)象。橫軸為位置，縱軸為百分比。正常情況下四種堿基出現(xiàn)的頻率應(yīng)是接近的，且沒(méi)有位置差異，因此好的樣品中四條線應(yīng)該是平行且接近的，由于剛開(kāi)始測(cè)序儀狀態(tài)不穩(wěn)定，造成前幾個(gè)堿基有波動(dòng)。在reads 開(kāi)頭出現(xiàn)堿基組成偏離往往是我們的建庫(kù)操作造成的，比如建 GBS 文庫(kù)時(shí)在 reads 開(kāi)頭加了 barcode；barcode的堿基組成不是均一的，酶切位點(diǎn)的堿基組成是固定不變的，這樣會(huì)造成明顯的堿基組成偏離；在 reads結(jié)尾出現(xiàn)的堿基組成偏離，往往是測(cè)序接頭的污染造成的。當(dāng)所有位置的堿基比例一致現(xiàn)出偏差時(shí)，即四條線平行且分開(kāi)，代表文庫(kù)有偏差，或測(cè)序中的系統(tǒng)誤差；當(dāng)部分位置堿基的比例出現(xiàn)偏差時(shí)，即四條線在某些位置紛亂交織，則有overrepresented?sequence的污染。當(dāng)任一位置的A/T比例與G/C比例相差超過(guò)10%，報(bào)"WARN"；當(dāng)任一位置的A/T比例與G/C比例相差超過(guò)20%，報(bào)"FAIL"，我這里的數(shù)據(jù)就不是很好。

5.Per sequence GC content

橫軸表示GC含量，縱軸表示不同GC含量對(duì)應(yīng)的read數(shù)，藍(lán)線是理論分布（正態(tài)分布，通過(guò)從所測(cè)數(shù)據(jù)計(jì)算并構(gòu)建理論分布），紅色是實(shí)際情況，兩個(gè)比較接近判為好的。曲線形狀的偏差往往是由于文庫(kù)的污染或是部分reads構(gòu)成的子集有偏差（overrepresentedreads）；形狀接近正態(tài)分布但偏離理論分布的情況提示我們可能有系統(tǒng)偏差；如果出現(xiàn)兩個(gè)或多個(gè)峰值，表明測(cè)序數(shù)據(jù)里可能有其他來(lái)源的DNA序列污染，或者有接頭序列的二聚體污染。偏離理論分布的reads超過(guò)15%時(shí)，報(bào)"WARN"；偏離理論分布的reads超過(guò)30%時(shí)，報(bào)"FAIL"。

6.Per base N content

當(dāng)出現(xiàn)測(cè)序儀不能分辨的堿基時(shí)會(huì)產(chǎn)生N，橫軸為堿基分布，縱軸為N比率，當(dāng)任一位置N的比率超過(guò)5%報(bào)WARN，超過(guò)20%報(bào)FAIL。我這里幾乎沒(méi)有。

7.Sequence Length Distribution

理論上每次測(cè)序儀測(cè)出的read長(zhǎng)度是一致的，但是由于建庫(kù)等因素通常會(huì)導(dǎo)致一些小片段，如果報(bào)FAIL，表明此次測(cè)序過(guò)程中產(chǎn)生的數(shù)據(jù)不可信。

8.Sequence Duplication Levels

統(tǒng)計(jì)序列完全一致的reads的頻率，橫軸表示重復(fù)的次數(shù)，縱軸表示重復(fù)的reads的數(shù)目。一般測(cè)序深度越高，越容易產(chǎn)生一定程度的重復(fù)序列。

9.Overrepresented sequences

當(dāng)有某個(gè)序列大量出現(xiàn)時(shí)，超過(guò)總reads數(shù)的0.1%時(shí)報(bào)WARN，超過(guò)1%時(shí)報(bào)FAIL。

10.Adapter Content

橫軸表示堿基位置，縱軸表示百分比。當(dāng)fastqc分析時(shí)沒(méi)有選擇參數(shù)-a adapter list時(shí)，默認(rèn)使用圖例中的4種通用adapter序列進(jìn)行統(tǒng)計(jì)。若有adapter殘留，后續(xù)必須去接頭。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

fastqc質(zhì)檢結(jié)果解讀

fastqc質(zhì)檢結(jié)果解讀

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

fastqc質(zhì)檢結(jié)果解讀

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av