- Basic Statistics 基本信息
Encoding: 測序平臺(tái)編號(hào),現(xiàn)在Sanger/ Illumina 1.8以上都是Phred 33編碼
Total sequences: reads數(shù)量(reads就是高通量測序平臺(tái)產(chǎn)生的序列標(biāo)簽,翻譯為讀段?。?/p>
Sequence length: 測序長度
%GC: GC含量: 需要重點(diǎn)關(guān)注,可以幫助區(qū)別物種,人類細(xì)胞42%左右
2. Per base sequence quility:每個(gè)測序read各堿基質(zhì)量【十分重要!】
橫軸:測序序列的1-251個(gè)堿基;
縱軸:質(zhì)量得分,score = -10 * log10(error),例如錯(cuò)誤率error為1%,那么算出的score就是20
箱線圖boxplot:對每一個(gè)堿基的質(zhì)量的統(tǒng)計(jì)。箱子上面的須(up bar)為90%分位數(shù),下面的須(down bar)為10%分位數(shù),箱子中的紅線為中位數(shù)即50%分位數(shù),箱子頂(upside)為75%分位數(shù),箱子低(downside)為25%分位數(shù)。這個(gè)boxplot的意義:一是看數(shù)據(jù)是否具有對稱性;二是看數(shù)據(jù)分布差異,這里主要利用了第二點(diǎn)。bar的跨度越大,說明數(shù)據(jù)越不穩(wěn)定。
藍(lán)色的線將各個(gè)堿基的質(zhì)量平均值連接起來
解釋一下:圖中藍(lán)線的走勢為何先高后低?因?yàn)槟壳安捎玫倪吅铣蛇厹y序使用的是化學(xué)方法促使鏈由5'向3'延伸,也就是利用了DNA聚合酶。剛開始測序,合成反應(yīng)還不是很穩(wěn)定,但是酶的質(zhì)量還很好,所以會(huì)在高質(zhì)量區(qū)域內(nèi)有一定的波動(dòng)(這里的1-30bp),后來穩(wěn)定了,但是隨著時(shí)間的推移,酶的活力逐漸下降,特異性也變差,所以越往后出錯(cuò)幾率越大。【就像一個(gè)司機(jī)開車,一開始小心謹(jǐn)慎,起步慢,開的也慢,慢慢提速。后來越開越帶勁,但是也越來越困,疲勞駕駛?cè)菀壮鍪隆?/p>
一般能用的數(shù)據(jù)都要求至少Q(mào)20,也就是下四分位(10%分位數(shù))的質(zhì)量值要大于20。因此這里的189bp后面的需要切除,才能繼續(xù)分析
二代測序,最好是達(dá)到Q20的堿基要在95%以上(最差不低于90%),Q30要求大于85%(最差也不要低于80%)
3. Per sequence quility scores:每條序列 質(zhì)量統(tǒng)計(jì)
橫軸:質(zhì)量值0-40,也即是Q值
縱軸:每個(gè)質(zhì)量值對應(yīng)的read數(shù)
我們的例子中一條read有251bp, 那么其中任意一條的251bp的質(zhì)量平均值就是這條read的質(zhì)量值。只要大部分都高于20說明比較正常
4. Per base sequence content:read各個(gè)位置堿基比例分布
橫軸:各堿基位置;縱軸:堿基百分比
四條線四種顏色代表四種堿基在每個(gè)位置的平均含量(一個(gè)位置會(huì)測很多reads,然后求一個(gè)平均)
一般來講,A=T, C=G, 但是剛開始測序儀不穩(wěn)定可能出現(xiàn)波動(dòng),這是正常的。一般不是波動(dòng)特別大的,像這里cut掉前5bp就夠了。另外如果A、T 或 C、G間出現(xiàn)偏差,只要在1%以內(nèi)都是可以接受的
5. Per sequence GC content: 序列平均GC分布
橫軸為平均GC含量; 縱軸為每個(gè)GC含量對應(yīng)的序列數(shù)量
藍(lán)線為系統(tǒng)計(jì)算得到的理論分布;紅線為測量值,二者越接近越好
這里不相符可能有兩個(gè)原因:
前面提到了,GC可以作為物種特異性根據(jù),這里出現(xiàn)了其他的峰有可能混入了其他物種的DNA;
目前二代測序基本都會(huì)有序列偏向性(所說的 bias),也就是某些特定區(qū)域會(huì)被反復(fù)測序,以至于高于正常水平,變相說明測序過程不夠隨機(jī)。這種現(xiàn)象會(huì)對以后的變異檢測以及CNV分析造成影響
- 如果出現(xiàn)怎么辦?-- 把和我們使用物種GC-content有差異的reads拿出來做blast,來確認(rèn)是否為某些雜菌
6. Per base N content: N含量分布
N是指儀器不能識(shí)別ATCG時(shí)給出的結(jié)果,一般不會(huì)出現(xiàn)。但是如果出現(xiàn)并且量還很大,應(yīng)該就是測序系統(tǒng)或者試劑的問題
任意位置的N的比例超過5%,報(bào)"WARN";任意位置的N的比例超過20%,報(bào)"FAIL"
7. Sequence length distribution: 序列長度統(tǒng)計(jì)
理想情況下,測得的序列長度應(yīng)該是相等的。實(shí)際上總有些偏差
當(dāng)reads長度不一致時(shí)報(bào)"WARN";當(dāng)有長度為0的read時(shí)報(bào)“FAIL”
這里顯示大部分都落在251bp這個(gè)測序長度上,有少量為250或252bp,但這不影響;如果偏差很大就不可信了
- Sequence duplication level:統(tǒng)計(jì)序列完全一樣的reads的頻率
橫坐標(biāo)是duplication的次數(shù);縱坐標(biāo)是duplicated reads的數(shù)目(紅線)
解釋下橫坐標(biāo)為何會(huì)有>10, >50等出現(xiàn):測序的原始數(shù)據(jù)很大,如果每一條reads都統(tǒng)計(jì),將耗時(shí)很久。這里軟件只采用了數(shù)據(jù)的前200,000條reads統(tǒng)計(jì)其在全部數(shù)據(jù)中的重復(fù)數(shù)目,另外大于75bp的reads只取50bp進(jìn)行比較。重復(fù)數(shù)大于10的reads被合并統(tǒng)計(jì)成了>10,以此類推...
unique reads總數(shù)(藍(lán)線)作為100%,上圖中可以看出,大概僅有2%的uniqe reads可以觀察到兩次重復(fù)。也就是說,我們這里的非unique reads占總數(shù)比例僅有2%左右。
-
正常情況下的確,測序深度越高,越容易產(chǎn)生一定程度的duplication。高程度的duplication level,提示我們可能有bias的存在(如建庫過程中的PCR duplication)。
另外和做的項(xiàng)目也有關(guān),一般轉(zhuǎn)錄組測序的結(jié)果中duplication level都比較高,60-70%都正常,這是因?yàn)檗D(zhuǎn)錄組測的是基因的覆蓋深度,各個(gè)基因表達(dá)量不同,如果某個(gè)基因覆蓋度較高【tip:覆蓋度是指基因/轉(zhuǎn)錄組測序測到的部分占整個(gè)組的比例】,那么測的部分就越多,相對應(yīng)的duplication也會(huì)更高;對于外顯子組測序來說,一般覆蓋度比較一致,這里出現(xiàn)了duplication就不太正常。
當(dāng)非unique的reads占總數(shù)的比例大于20%時(shí),報(bào)"WARN";當(dāng)非unique的reads占總數(shù)的比例大于50%時(shí),報(bào)"FAIL“
9. Overrepresented sequences:大量重復(fù)序列
和第8個(gè)duplication計(jì)算一樣,也是取前200,000進(jìn)行統(tǒng)計(jì),大于75bp只取50bp。
發(fā)現(xiàn)超過總reads數(shù)0.1%的reads時(shí)報(bào)”WARN“,當(dāng)發(fā)現(xiàn)超過總reads數(shù)1%的reads時(shí)報(bào)”FAIL“
- Adapter content: 接頭含量
表示序列中兩端adapter的情況
軟件內(nèi)置了四種常用的測序接頭序列, fastqc 有一個(gè)參數(shù)-a可以自定義接頭序列
此圖中使用的illumina universal adapter并未去除,后期再使用cutadapt去接頭
- (還有一類這里沒體現(xiàn))Kmer content: 重復(fù)短序列
表示:在序列中某些特征的短序列重復(fù)出現(xiàn)的次數(shù)
這個(gè)圖是轉(zhuǎn)錄組測序的一個(gè)文件,可以看到6-9bp幾種短序列都出現(xiàn)了好多次。出現(xiàn)的原因可能是:
沒有去除軟件內(nèi)置的adapter或者沒有使用-a參數(shù)自定義adapter
序列本身重復(fù)度較高,例如在建庫PCR過程出現(xiàn)序列偏向性bias--> 這在轉(zhuǎn)錄組測序中確實(shí)存在