亚洲青涩在线观看,人妻少妇久久久

Basic Statistics 基本信息

image

Encoding: 測序平臺(tái)編號(hào)，現(xiàn)在Sanger/ Illumina 1.8以上都是Phred 33編碼
Total sequences: reads數(shù)量（reads就是高通量測序平臺(tái)產(chǎn)生的序列標(biāo)簽，翻譯為讀段?。?/p>
Sequence length: 測序長度
%GC: GC含量： 需要重點(diǎn)關(guān)注，可以幫助區(qū)別物種，人類細(xì)胞42%左右

2. Per base sequence quility：每個(gè)測序read各堿基質(zhì)量【十分重要！】

image

橫軸：測序序列的1-251個(gè)堿基；
縱軸：質(zhì)量得分，score = -10 * log10（error），例如錯(cuò)誤率error為1%，那么算出的score就是20
箱線圖boxplot：對每一個(gè)堿基的質(zhì)量的統(tǒng)計(jì)。箱子上面的須（up bar）為90%分位數(shù)，下面的須（down bar）為10%分位數(shù)，箱子中的紅線為中位數(shù)即50%分位數(shù)，箱子頂（upside）為75%分位數(shù)，箱子低（downside）為25%分位數(shù)。這個(gè)boxplot的意義：一是看數(shù)據(jù)是否具有對稱性；二是看數(shù)據(jù)分布差異，這里主要利用了第二點(diǎn)。bar的跨度越大，說明數(shù)據(jù)越不穩(wěn)定。
藍(lán)色的線將各個(gè)堿基的質(zhì)量平均值連接起來
解釋一下：圖中藍(lán)線的走勢為何先高后低？因?yàn)槟壳安捎玫倪吅铣蛇厹y序使用的是化學(xué)方法促使鏈由5'向3'延伸，也就是利用了DNA聚合酶。剛開始測序，合成反應(yīng)還不是很穩(wěn)定，但是酶的質(zhì)量還很好，所以會(huì)在高質(zhì)量區(qū)域內(nèi)有一定的波動(dòng)（這里的1-30bp），后來穩(wěn)定了，但是隨著時(shí)間的推移，酶的活力逐漸下降，特異性也變差，所以越往后出錯(cuò)幾率越大。【就像一個(gè)司機(jī)開車，一開始小心謹(jǐn)慎，起步慢，開的也慢，慢慢提速。后來越開越帶勁，但是也越來越困，疲勞駕駛?cè)菀壮鍪隆?/p>
一般能用的數(shù)據(jù)都要求至少Q(mào)20，也就是下四分位（10%分位數(shù)）的質(zhì)量值要大于20。因此這里的189bp后面的需要切除，才能繼續(xù)分析
二代測序，最好是達(dá)到Q20的堿基要在95%以上（最差不低于90%），Q30要求大于85%（最差也不要低于80%）

3. Per sequence quility scores：每條序列 質(zhì)量統(tǒng)計(jì)

image

橫軸：質(zhì)量值0-40，也即是Q值
縱軸：每個(gè)質(zhì)量值對應(yīng)的read數(shù)
我們的例子中一條read有251bp，那么其中任意一條的251bp的質(zhì)量平均值就是這條read的質(zhì)量值。只要大部分都高于20說明比較正常

4. Per base sequence content：read各個(gè)位置堿基比例分布

image

橫軸：各堿基位置；縱軸：堿基百分比
四條線四種顏色代表四種堿基在每個(gè)位置的平均含量（一個(gè)位置會(huì)測很多reads，然后求一個(gè)平均）
一般來講，A=T， C=G，但是剛開始測序儀不穩(wěn)定可能出現(xiàn)波動(dòng)，這是正常的。一般不是波動(dòng)特別大的，像這里cut掉前5bp就夠了。另外如果A、T 或 C、G間出現(xiàn)偏差，只要在1%以內(nèi)都是可以接受的

5. Per sequence GC content：序列平均GC分布

image

橫軸為平均GC含量；縱軸為每個(gè)GC含量對應(yīng)的序列數(shù)量
藍(lán)線為系統(tǒng)計(jì)算得到的理論分布；紅線為測量值，二者越接近越好
這里不相符可能有兩個(gè)原因：

前面提到了，GC可以作為物種特異性根據(jù)，這里出現(xiàn)了其他的峰有可能混入了其他物種的DNA；
目前二代測序基本都會(huì)有序列偏向性(所說的 bias)，也就是某些特定區(qū)域會(huì)被反復(fù)測序，以至于高于正常水平，變相說明測序過程不夠隨機(jī)。這種現(xiàn)象會(huì)對以后的變異檢測以及CNV分析造成影響

如果出現(xiàn)怎么辦？-- 把和我們使用物種GC-content有差異的reads拿出來做blast，來確認(rèn)是否為某些雜菌

6. Per base N content： N含量分布

image

N是指儀器不能識(shí)別ATCG時(shí)給出的結(jié)果，一般不會(huì)出現(xiàn)。但是如果出現(xiàn)并且量還很大，應(yīng)該就是測序系統(tǒng)或者試劑的問題
任意位置的N的比例超過5%，報(bào)"WARN"；任意位置的N的比例超過20%，報(bào)"FAIL"

7. Sequence length distribution：序列長度統(tǒng)計(jì)

image

理想情況下，測得的序列長度應(yīng)該是相等的。實(shí)際上總有些偏差
當(dāng)reads長度不一致時(shí)報(bào)"WARN"；當(dāng)有長度為0的read時(shí)報(bào)“FAIL”
這里顯示大部分都落在251bp這個(gè)測序長度上，有少量為250或252bp，但這不影響；如果偏差很大就不可信了

Sequence duplication level：統(tǒng)計(jì)序列完全一樣的reads的頻率

image

橫坐標(biāo)是duplication的次數(shù)；縱坐標(biāo)是duplicated reads的數(shù)目（紅線）
解釋下橫坐標(biāo)為何會(huì)有>10, >50等出現(xiàn)：測序的原始數(shù)據(jù)很大，如果每一條reads都統(tǒng)計(jì)，將耗時(shí)很久。這里軟件只采用了數(shù)據(jù)的前200,000條reads統(tǒng)計(jì)其在全部數(shù)據(jù)中的重復(fù)數(shù)目,另外大于75bp的reads只取50bp進(jìn)行比較。重復(fù)數(shù)大于10的reads被合并統(tǒng)計(jì)成了>10，以此類推...
unique reads總數(shù)（藍(lán)線）作為100%，上圖中可以看出，大概僅有2%的uniqe reads可以觀察到兩次重復(fù)。也就是說，我們這里的非unique reads占總數(shù)比例僅有2%左右。
正常情況下的確，測序深度越高，越容易產(chǎn)生一定程度的duplication。高程度的duplication level，提示我們可能有bias的存在（如建庫過程中的PCR duplication）。

另外和做的項(xiàng)目也有關(guān)，一般轉(zhuǎn)錄組測序的結(jié)果中duplication level都比較高，60-70%都正常，這是因?yàn)檗D(zhuǎn)錄組測的是基因的覆蓋深度，各個(gè)基因表達(dá)量不同，如果某個(gè)基因覆蓋度較高【tip：覆蓋度是指基因/轉(zhuǎn)錄組測序測到的部分占整個(gè)組的比例】，那么測的部分就越多，相對應(yīng)的duplication也會(huì)更高；對于外顯子組測序來說，一般覆蓋度比較一致，這里出現(xiàn)了duplication就不太正常。
當(dāng)非unique的reads占總數(shù)的比例大于20%時(shí)，報(bào)"WARN"；當(dāng)非unique的reads占總數(shù)的比例大于50%時(shí)，報(bào)"FAIL“

9. Overrepresented sequences：大量重復(fù)序列

image

和第8個(gè)duplication計(jì)算一樣，也是取前200,000進(jìn)行統(tǒng)計(jì)，大于75bp只取50bp。
發(fā)現(xiàn)超過總reads數(shù)0.1%的reads時(shí)報(bào)”WARN“，當(dāng)發(fā)現(xiàn)超過總reads數(shù)1%的reads時(shí)報(bào)”FAIL“

Adapter content: 接頭含量

image

表示序列中兩端adapter的情況
軟件內(nèi)置了四種常用的測序接頭序列， fastqc 有一個(gè)參數(shù)-a可以自定義接頭序列
此圖中使用的illumina universal adapter并未去除，后期再使用cutadapt去接頭

（還有一類這里沒體現(xiàn)）Kmer content：重復(fù)短序列

image

表示：在序列中某些特征的短序列重復(fù)出現(xiàn)的次數(shù)
這個(gè)圖是轉(zhuǎn)錄組測序的一個(gè)文件，可以看到6-9bp幾種短序列都出現(xiàn)了好多次。出現(xiàn)的原因可能是：

沒有去除軟件內(nèi)置的adapter或者沒有使用-a參數(shù)自定義adapter
序列本身重復(fù)度較高，例如在建庫PCR過程出現(xiàn)序列偏向性bias--> 這在轉(zhuǎn)錄組測序中確實(shí)存在

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

FastQC數(shù)據(jù)質(zhì)控報(bào)告的詳細(xì)解讀

FastQC數(shù)據(jù)質(zhì)控報(bào)告的詳細(xì)解讀

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

FastQC數(shù)據(jù)質(zhì)控報(bào)告的詳細(xì)解讀

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av