單端測(cè)序與雙末端測(cè)序問題

問題

  • Paired-End測(cè)序與Mate-Pair測(cè)序相對(duì)于單端測(cè)序有何優(yōu)勢(shì)?

  • Paired-End中的Read1和Read2到底是啥關(guān)系?它們是如何參與拼接和比對(duì)的呢?

  • Mate-Paired與Paird-End兩種不同建庫測(cè)序的區(qū)別在哪里?產(chǎn)生的數(shù)據(jù)有何不同?各自有哪些優(yōu)缺點(diǎn)?

  • Single-Read測(cè)序、Paired-End測(cè)序、Mate-Pair測(cè)序,何時(shí)選擇哪種測(cè)序策略?讀長、插入序列為多少?
    不懂的問題很多,困惑很多,借此尋找答案的機(jī)會(huì)也將單端測(cè)序與雙末端測(cè)序的區(qū)別整理一下,鞏固基礎(chǔ)知識(shí)。

學(xué)基礎(chǔ)

Single-Read測(cè)序、Paired-end和Mate-pair主要區(qū)別

以上三者的區(qū)別主要在于測(cè)序文庫的構(gòu)建方法上。

Single-Read測(cè)序(Single-read)首先將DNA樣本進(jìn)行片段化處理形成200-500bp的片段,引物序列連接到DNA片段的一端,然后末端加上接頭,將片段固定在

flow cell上生成DNA簇,上機(jī)測(cè)序單端讀取序列。該方式建庫簡單,操作步驟少,常用于小基因組、轉(zhuǎn)錄組、宏基因組測(cè)序。


image

Paired-end文庫制備是指在構(gòu)建待測(cè)DNA文庫時(shí)在兩端的接頭上都加上測(cè)序引物結(jié)合位點(diǎn),在第一輪測(cè)序完成后,去除第一輪測(cè)序的模板鏈,用對(duì)讀測(cè)序模塊(Paired-End Module)引導(dǎo)互補(bǔ)鏈在原位置再生和擴(kuò)增,以達(dá)到第二輪測(cè)序所用的模板量,進(jìn)行第二輪互補(bǔ)鏈的合成測(cè)序。


image

Mate-pair文庫制備旨在生成一些短的DNA片段,這些片段包含基因組中較大跨度(2-10 kb)片段兩端的序列,更具體地說:首先將基因組DNA隨機(jī)打斷到特定大?。?-10 kb范圍可選);然后經(jīng)末端修復(fù),生物素標(biāo)記和環(huán)化等實(shí)驗(yàn)步驟后,再把環(huán)化后的DNA分子打斷成400-600 bp的片段并通過帶有鏈親和霉素的磁珠把那些帶有生物素標(biāo)記的片段捕獲。這些捕獲的片段再經(jīng)末端修飾和加上特定接頭后建成mate-pair文庫,然后上機(jī)測(cè)序。


image

解困惑&答問題

為何要有 Paired-end這樣的技術(shù)發(fā)明呢?

主要原因在于Illumina的二代測(cè)序儀的讀長短,相對(duì)于第一代sanger測(cè)序法(約1000bp)或者跟同屬于NGS的其他測(cè)序儀相比短了許多。因此illumina發(fā)展了 Paired-end的建庫測(cè)序技術(shù)。同時(shí)這種技術(shù)還大大推進(jìn)了基因組學(xué)數(shù)據(jù)分析的發(fā)展。
例如,依賴于Paired-end的技術(shù),假設(shè)一個(gè)DNA片段剛好跨越了重復(fù)序列區(qū)域(下圖左側(cè))以及獨(dú)特序列區(qū)域(下圖右側(cè))。加入只讀取Single-Read,我們只會(huì)獲得紅色實(shí)線的序列信息,也就是ATATATAT。接下來,當(dāng)我們想要將這段read跟reference genome做比對(duì)的時(shí)候,便會(huì)出現(xiàn)問題:到底這段read是出自于紅色實(shí)線的位置,還是紅色虛線的位置?這個(gè)問題我們就可以使用Paired-end的技術(shù)來加以解決。由于Paired-end reads之間的距離為已知(在此我們?cè)O(shè)為34bp),我們便可以先定位綠色read的位置,在正確定位出左邊紅色re reads之間 ad的位置,而不至于將其誤判在紅色虛線的位置。如下圖所示:


image

此外,根據(jù)我們內(nèi)部的一個(gè)測(cè)試。在進(jìn)行de novo assembly的時(shí)候,序列長度以及Paired-end的序列信息可以讓我們得到最好的組裝結(jié)果。透過下邊可以發(fā)現(xiàn),Paired-end的序列信息甚至比序列長度要來得更為重要。因此,建議大家在選擇測(cè)序方案的時(shí)候,盡量選擇Paired-end吧!


image

總結(jié),不管采用哪種方式,PE/MP測(cè)序的結(jié)果除了序列本身外還有中間的距離信息。距離信息可以用來判定組裝后成對(duì)reads間的序列是否準(zhǔn)確,也可用來幫助組裝。這種測(cè)序方式可以用來解決基因組中的重復(fù)序列難題,被廣泛采用。目前在采用雙端測(cè)序法時(shí),454平臺(tái)建庫最長(最長能達(dá)到20k),Illumina 建庫長度最短(小于5k)。由于Solid和Solexa都是采用橋式擴(kuò)增的方式,其本身自帶Paired-End測(cè)序能力。而454和Ion Torrent要對(duì)打斷后的片段進(jìn)行環(huán)化、酶切,然后才能進(jìn)行 mate-paired 測(cè)序。因此建庫的成本會(huì)比單端測(cè)序的高 。

Paired-End reads是如何比對(duì)的?

Paired-End reads是如何拼接的?

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 8種特殊建庫測(cè)序 8種特殊建庫測(cè)序 1. RNA-seq 2. 外顯子測(cè)序 3. small RNA-seq 4....
    wangchuang2017閱讀 13,567評(píng)論 2 92
  • 什么是高通量測(cè)序? 高通量測(cè)序技術(shù)(High-throughput sequencing,HTS)是對(duì)傳統(tǒng)Sang...
    翠湖心影閱讀 21,714評(píng)論 2 81
  • 作為一個(gè)已經(jīng)在生物信息行業(yè)摸爬兩年的小白,還是有必要重新認(rèn)識(shí)一下高通量測(cè)序領(lǐng)域的一些常用名詞。什么是高通量測(cè)序?高...
    相見很不晚閱讀 4,590評(píng)論 1 30
  • 測(cè)序的世界很奇妙,不同的數(shù)據(jù)處理可能得出不同的結(jié)論,入門生信首先要做的就是了解你的數(shù)據(jù)還等什么?跟我一起來探索吧~...
    劉小澤閱讀 27,057評(píng)論 13 183
  • 收到很多雨天晴,很感動(dòng),在這個(gè)環(huán)境里,這些和煦用心的話最能打動(dòng)人,從雨天晴里能看到很多,很多平時(shí)聯(lián)系很少的人給你寫...
    Hi_張閱讀 280評(píng)論 0 0

友情鏈接更多精彩內(nèi)容