婷婷日韩不卡精品久久,久久久久久久久久伊人

劉小澤寫于18.11.28
上次說了關于測序的一些個人認為的重點，這次接著來關于得到數(shù)據(jù)的下一步質(zhì)控的有關知識點【這個不是全面的，只是我在第二次學習中認為比較重要的】

最常見的數(shù)據(jù)存儲格式-fastq

不管是Illumina、Ion torrent、Pacbio都是以fastq文件進行存儲，簡單說幾個重要點：

經(jīng)常見到xxx.fastq.gz這是fastq的壓縮文件，是二進制文件，直接打開是不對的，想要查看有兩種辦法：第一種：先解壓縮，利用gunzip xxx.fastq.gz ，然后用less；第二種，利用zless直接查看
fastq文件擴展名一般是fq或者fastq，以@開頭（而fasta是以>開頭），四行一組，分為ID信息（包括Flowcell、lane、tile、橫縱坐標、index、reads編號等）、堿基序列、一個+號、質(zhì)量值【我們需要的是第2、4行】
關于堿基與質(zhì)量對應關系：我們得到了序列信息，想要知道測序質(zhì)量如何，就需要進行質(zhì)量轉(zhuǎn)換，但是目前采用的質(zhì)量體系并不是說堿基質(zhì)量是20，就在fastq中對應表示為20，而是需要加上33或者64后再轉(zhuǎn)換成對應的ASCII值
這是因為： 在ASCII表中，小于32的ASCII值都是一些形狀符號，32又是一個空值，所以最小也只能從33開始。

ASCII表（百度百科）

早期的測序儀是采用Phred 64質(zhì)量體系，ASCII 64是@符號，正好對應了fastq的開頭符；現(xiàn)在基本上都轉(zhuǎn)為了Phred 33的質(zhì)量體系
那么如何快速區(qū)分Phred 64 或者33呢？

如果放眼望去，基本上都是大寫字母，那么基本可以判斷時Phred 64的數(shù)據(jù)；如果包含一些#/%/@等比較怪異的符號，那么一般是Phred 33的數(shù)據(jù)
質(zhì)量值和錯誤率怎么聯(lián)系的呢？

比如質(zhì)量值P計算得到結果是20，那么錯誤率E就是百分之一，即Q20；同理P為30，即Q30，錯誤率為千分之一（表示該位點堿基被測1000次，出錯幾率為1次）

fastq質(zhì)控

指標一：堿基含量分布

堿基含量就是測序數(shù)據(jù)中，ATCG的分布情況。由于測序的隨機性，理論上應該A=T，G=C；另外測序數(shù)據(jù)的GC含量應該和基因組中的堿基含量一致（對于全基因組來講），也就是說，測序是把所有cluster的第一個堿基拿出來統(tǒng)計質(zhì)量，而這些cluster也覆蓋到了全部的基因組

可能出現(xiàn)堿基含量分布異常：比如波動明顯，但這也不能表示測序就是錯誤的，因為有可能測序樣本是混合的或者測序一次不能達到飽和（測序一次不能覆蓋到基因組的全部堿基，例如RNA-seq）；另外僅僅看一條reads的fastqc結果可能也會在Per base sequence content部分報警，因為單獨一條序列不一定就準確匹配上全基因組的堿基比例

指標二：堿基質(zhì)量分布

對于單個堿基，用Q數(shù)值描述；對于整體堿基，用Q20/Q30等百分比描述

Q20百分比就是：質(zhì)量值大于或等于20的堿基占全部堿基的比例

一般尾部的數(shù)據(jù)質(zhì)量較差是正常的

fastq處理

關于數(shù)據(jù)過濾，不要求將fastqc結果全部調(diào)成綠色/PASS，只要不影響后面分析就好；另外有時參數(shù)的設置拿不準可以先用一個大概的值，后面結果不滿意可以重新過濾數(shù)據(jù)

我們知道，測序時需要在插入片段（也就是我們要測的片段）兩端加很多東西：index、primer、接頭，這些東西一般是提前去除的，但也不排除特殊情況。另外，還有一些判斷標準

低質(zhì)量數(shù)據(jù)

如果檢測變異時發(fā)現(xiàn)某個位點發(fā)生了變異，那么是不是因為測序錯誤造成的“假陽性”導致的呢？因此，低質(zhì)量數(shù)據(jù)一定要提前去除，否則后續(xù)分析會很麻煩。

那么怎么定義低質(zhì)量呢？低于Q20的堿基比率高于30%就是低質(zhì)量reads

另外，PE數(shù)據(jù)中有一條不滿足要求，另外一條也要去掉

Adapter接頭

一般在給到我們raw data時，基本已經(jīng)去除干凈，但是不排除我們自己的序列長度過短，小于PCR擴增循環(huán)（cycle）數(shù)，導致測序測多了（測完了插入片段還繼續(xù)向后測，測到了adapter）；另外還可能由于adapter之間沒加插入片段就自己連接，得到的測序結果就只有adapter

因此，為了確保我們的數(shù)據(jù)是真實的插入片段數(shù)據(jù)，還需要根據(jù)給定的adapter序列進行比對，如果發(fā)現(xiàn)了3‘端含有adapter的reads（出現(xiàn)頻率并不高），就要把整條reads去掉

N堿基

假如100bp的reads中出現(xiàn)了10個以上的N堿基，即N堿基數(shù)量占reads總長10%以上（N的位置連續(xù)或者不連續(xù)），就要去除整條reads。

Duplication reads

定義：兩對PE reads，其中它們的reads1完全相同，并且reads2完全相同

這里就有一個問題：這里的PE reads只是DNA片段的兩頭100多bp，還有好幾百bp沒有測，那么直接認為這兩個DNA都是一致的嗎？

其實是可以的，因為兩個數(shù)據(jù)的兩端各100多bp完全一致，這概率已經(jīng)很小了，既然出現(xiàn)了這種情況，那么可以認為，在構建文庫時將整條DNA打斷后產(chǎn)生的兩個DNA小片段是完全一致的。

另外，這也側(cè)面反映了打斷過程隨機性不好，也就是說同一個位置被反復測序很多次，一般在大片段文庫中存在較高的duplication。

舉個例子，整條長100bp的DNA，以10bp為單位打斷的隨機性是不是比以50bp為單位打斷的隨機性要高？這50bp就相當于構建大片度文庫，隨著文庫片段越來越大，重復也是隨之增長

但是，需要注意的是，在RNA-seq中，duplication是不能去除的，因為數(shù)據(jù)本身就存在基因表達豐度的差別（這不就是我們想要的么？），這種duplication并不是由于打斷不隨機造成的；如果去除了RNA-seq中的duplication，許多基因的豐度信息就會缺失

歡迎關注我們的公眾號～_～　　
我們是兩個農(nóng)轉(zhuǎn)生信的小碩，打造生信星球，想讓它成為一個不拽術語、通俗易懂的生信知識平臺。需要幫助或提出意見請后臺留言或發(fā)送郵件到Bioplanet520@outlook.com

Welcome to our bioinfoplanet!

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

基礎知識復習之數(shù)據(jù)質(zhì)控

基礎知識復習之數(shù)據(jù)質(zhì)控

最常見的數(shù)據(jù)存儲格式-fastq

fastq質(zhì)控

指標一：堿基含量分布

指標二：堿基質(zhì)量分布

fastq處理

低質(zhì)量數(shù)據(jù)

Adapter接頭

N堿基

Duplication reads

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

基礎知識復習之數(shù)據(jù)質(zhì)控

最常見的數(shù)據(jù)存儲格式-fastq

fastq質(zhì)控

指標一：堿基含量分布

指標二：堿基質(zhì)量分布

fastq處理

低質(zhì)量數(shù)據(jù)

Adapter接頭

N堿基

Duplication reads

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av