基礎知識復習之數(shù)據(jù)質(zhì)控

劉小澤寫于18.11.28
上次說了關于測序的一些個人認為的重點,這次接著來關于得到數(shù)據(jù)的下一步質(zhì)控的有關知識點【這個不是全面的,只是我在第二次學習中認為比較重要的】

最常見的數(shù)據(jù)存儲格式-fastq

不管是Illumina、Ion torrent、Pacbio都是以fastq文件進行存儲,簡單說幾個重要點:

  • 經(jīng)常見到xxx.fastq.gz這是fastq的壓縮文件,是二進制文件,直接打開是不對的,想要查看有兩種辦法:第一種:先解壓縮,利用gunzip xxx.fastq.gz ,然后用less;第二種,利用zless直接查看

  • fastq文件擴展名一般是fq或者fastq,以@開頭(而fasta是以>開頭),四行一組,分為ID信息(包括Flowcell、lane、tile、橫縱坐標、index、reads編號等)、堿基序列、一個+號、質(zhì)量值【我們需要的是第2、4行】

  • 關于堿基與質(zhì)量對應關系:我們得到了序列信息,想要知道測序質(zhì)量如何,就需要進行質(zhì)量轉(zhuǎn)換,但是目前采用的質(zhì)量體系并不是說堿基質(zhì)量是20,就在fastq中對應表示為20,而是需要加上33或者64后再轉(zhuǎn)換成對應的ASCII值
    這是因為: 在ASCII表中,小于32的ASCII值都是一些形狀符號,32又是一個空值,所以最小也只能從33開始。

    ASCII表(百度百科)

    早期的測序儀是采用Phred 64質(zhì)量體系,ASCII 64是@符號,正好對應了fastq的開頭符;現(xiàn)在基本上都轉(zhuǎn)為了Phred 33的質(zhì)量體系

  • 那么如何快速區(qū)分Phred 64 或者33呢?

    如果放眼望去,基本上都是大寫字母,那么基本可以判斷時Phred 64的數(shù)據(jù);如果包含一些#/%/@等比較怪異的符號,那么一般是Phred 33的數(shù)據(jù)

  • 質(zhì)量值和錯誤率怎么聯(lián)系的呢?

    比如質(zhì)量值P計算得到結果是20,那么錯誤率E就是百分之一,即Q20;同理P為30,即Q30,錯誤率為千分之一(表示該位點堿基被測1000次,出錯幾率為1次)

fastq質(zhì)控

指標一:堿基含量分布

堿基含量就是測序數(shù)據(jù)中,ATCG的分布情況。由于測序的隨機性,理論上應該A=T,G=C;另外測序數(shù)據(jù)的GC含量應該和基因組中的堿基含量一致(對于全基因組來講),也就是說,測序是把所有cluster的第一個堿基拿出來統(tǒng)計質(zhì)量,而這些cluster也覆蓋到了全部的基因組

可能出現(xiàn)堿基含量分布異常:比如波動明顯,但這也不能表示測序就是錯誤的,因為有可能測序樣本是混合的或者測序一次不能達到飽和(測序一次不能覆蓋到基因組的全部堿基,例如RNA-seq);另外僅僅看一條reads的fastqc結果可能也會在Per base sequence content部分報警,因為單獨一條序列不一定就準確匹配上全基因組的堿基比例

指標二:堿基質(zhì)量分布

對于單個堿基,用Q數(shù)值描述;對于整體堿基,用Q20/Q30等百分比描述

Q20百分比就是:質(zhì)量值大于或等于20的堿基占全部堿基的比例

一般尾部的數(shù)據(jù)質(zhì)量較差是正常的

fastq處理

關于數(shù)據(jù)過濾,不要求將fastqc結果全部調(diào)成綠色/PASS,只要不影響后面分析就好;另外有時參數(shù)的設置拿不準可以先用一個大概的值,后面結果不滿意可以重新過濾數(shù)據(jù)

我們知道,測序時需要在插入片段(也就是我們要測的片段)兩端加很多東西:index、primer、接頭,這些東西一般是提前去除的,但也不排除特殊情況。另外,還有一些判斷標準

低質(zhì)量數(shù)據(jù)

如果檢測變異時發(fā)現(xiàn)某個位點發(fā)生了變異,那么是不是因為測序錯誤造成的“假陽性”導致的呢?因此,低質(zhì)量數(shù)據(jù)一定要提前去除,否則后續(xù)分析會很麻煩。

那么怎么定義低質(zhì)量呢?低于Q20的堿基比率高于30%就是低質(zhì)量reads

另外,PE數(shù)據(jù)中有一條不滿足要求,另外一條也要去掉

Adapter接頭

一般在給到我們raw data時,基本已經(jīng)去除干凈,但是不排除我們自己的序列長度過短,小于PCR擴增循環(huán)(cycle)數(shù),導致測序測多了(測完了插入片段還繼續(xù)向后測,測到了adapter);另外還可能由于adapter之間沒加插入片段就自己連接,得到的測序結果就只有adapter

因此,為了確保我們的數(shù)據(jù)是真實的插入片段數(shù)據(jù),還需要根據(jù)給定的adapter序列進行比對,如果發(fā)現(xiàn)了3‘端含有adapter的reads(出現(xiàn)頻率并不高),就要把整條reads去掉

N堿基

假如100bp的reads中出現(xiàn)了10個以上的N堿基,即N堿基數(shù)量占reads總長10%以上(N的位置連續(xù)或者不連續(xù)),就要去除整條reads。

Duplication reads

定義:兩對PE reads,其中它們的reads1完全相同,并且reads2完全相同

這里就有一個問題:這里的PE reads只是DNA片段的兩頭100多bp,還有好幾百bp沒有測,那么直接認為這兩個DNA都是一致的嗎?

其實是可以的,因為兩個數(shù)據(jù)的兩端各100多bp完全一致,這概率已經(jīng)很小了,既然出現(xiàn)了這種情況,那么可以認為,在構建文庫時將整條DNA打斷后產(chǎn)生的兩個DNA小片段是完全一致的。

另外,這也側(cè)面反映了打斷過程隨機性不好,也就是說同一個位置被反復測序很多次,一般在大片段文庫中存在較高的duplication。

舉個例子,整條長100bp的DNA,以10bp為單位打斷的隨機性是不是比以50bp為單位打斷的隨機性要高?這50bp就相當于構建大片度文庫,隨著文庫片段越來越大,重復也是隨之增長

但是,需要注意的是,在RNA-seq中,duplication是不能去除的,因為數(shù)據(jù)本身就存在基因表達豐度的差別(這不就是我們想要的么?),這種duplication并不是由于打斷不隨機造成的;如果去除了RNA-seq中的duplication,許多基因的豐度信息就會缺失


歡迎關注我們的公眾號~_~  
我們是兩個農(nóng)轉(zhuǎn)生信的小碩,打造生信星球,想讓它成為一個不拽術語、通俗易懂的生信知識平臺。需要幫助或提出意見請后臺留言或發(fā)送郵件到Bioplanet520@outlook.com

Welcome to our bioinfoplanet!

?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容