前言
基因測序已是時下熱門,目前除了華大基因之外,其他分布于全中國的大型測序平臺(HiSeq X 10)還有約10個,每個每年大概能完成1.8萬人的高深度全基因組測序,加起來就是18萬人,如果加上華大,可能需要翻倍!而且隨著新技術(shù)的快速發(fā)展和成本的下降,WGS正變得越來越普遍!再加上國家十三五規(guī)劃已經(jīng)提出了構(gòu)建大規(guī)模中國人群遺傳隊列圖譜的要求,全基因組測序技術(shù)正在逐漸替代其它測序手段,這也是我打算寫這一個系列的原因。
HiSeq X 10分布(來源:轉(zhuǎn)化醫(yī)學網(wǎng))
首先,全基因組測序的英文是Whole Genome Sequencing,簡稱WGS,目前默認指的是人類的全基因組測序。所謂全(Whole),指的就是 把物種細胞里面完整的基因組序列從第1個DNA開始一直到最后一個DNA,完完整整地檢測出來,并排列好,因此這個技術(shù)幾乎能夠鑒定出基因組上任何類型的突變。對于人類來說,全基因組測序的價值是極大的,它的信息包含了所有基因和生命特征之間的內(nèi)在關(guān)聯(lián)性,當然也意味著更大的數(shù)據(jù)解讀和更高的技術(shù)挑戰(zhàn)。但,沒關(guān)系,在這個系列中,我將從測序技術(shù)、常用文件解析,數(shù)據(jù)質(zhì)控和流程構(gòu)建等各個方面結(jié)合實際的例子,詳細闡述什么是全基因組測序以及 該如何構(gòu)造流程分析全基因組測序(WGS)數(shù)據(jù)。
這是這一組學入門技術(shù)系列的第一篇(這篇文章修改自我以前的一篇博客,該文也已被各種形式轉(zhuǎn)載),我首先將介紹當前的基因組測序原理及其發(fā)展歷程。
第一節(jié) NGS測序技術(shù)
在真正開始數(shù)據(jù)分析之前先知道我們是如何將那些原本存在于細胞中的DNA信息獲取出來的——也就是測序的原理,總是有益的。
測序,簡單來說就是將DNA化學信號轉(zhuǎn)變?yōu)橛嬎銠C可處理的數(shù)字信號。
它從1977年的第一代Sanger技術(shù)發(fā)展至今,已經(jīng)足有40年時間。在這個技術(shù)發(fā)展的更迭歷程中,測序讀長從長到短,再從短到長。雖然就當前形勢看第二代短讀長測序技術(shù)在全球范圍內(nèi)上占有著絕對的壟斷位置,但第三測序技術(shù)也已在這幾年快速地發(fā)展著。測序技術(shù)的每一次變革和突破,都對基因組學研究,疾病醫(yī)療研究,藥物研發(fā),育種等領域產(chǎn)生巨大的推動作用。所以在這個系列的第一篇里我將對當前最主流的測序技術(shù)以及它們的測序原理做一個全面的介紹。
圖1. 測序技術(shù)發(fā)展歷程
第一代測序技術(shù)
第一代DNA測序技術(shù)用的是1975年由桑格(Sanger)和考爾森(Coulson)開創(chuàng)的鏈終止法或者是1976-1977年由馬克西姆(Maxam)和吉爾伯特(Gilbert)發(fā)明的化學法(鏈降解). 并在1977年,由桑格老人家測定了第一個基因組序列——噬菌體phiX-174,全長只有5,375個堿基。雖然與今日的技術(shù)比起來根本不算什么,但自此之后,人類獲得了窺探生命本質(zhì)的能力,并以此為開端真正步入了基因組學時代。
研究人員在Sanger法的多年實踐之中不斷對其進行改進。在2001年,完成的首個人類基因組圖譜就是以改進了的Sanger法為基礎進行測序的。Sanger法的核心原理是:由于ddNTP(4種帶有熒光標記的A,C,G,T堿基)的2’和3’都不含羥基,其在DNA的合成過程中不能形成磷酸二酯鍵,因此可以用來中斷DNA的合成反應,在4個DNA合成反應體系中分別加入一定比例帶有放射性同位素標記的ddNTP(分別為:ddATP,ddCTP,ddGTP和ddTTP),然后利用凝膠電泳和放射自顯影后可以根據(jù)電泳帶的位置確定待測分子的DNA序列(圖2)。這個網(wǎng)址為Sanger測序法制作了一個小短片,形象而生動。
值得注意的是,在測序技術(shù)起步發(fā)展的這一時期中,除了Sanger法之外還出現(xiàn)了一些其他的測序技術(shù),如焦磷酸測序法、連接酶法等。其中,焦磷酸測序法是后來Roche公司454技術(shù)所使用的測序方法,而連接酶測序法是后來ABI公司SOLID使用的測序方法,但他們的核心手段都是利用了Sanger中可中斷DNA合成反應的dNTP。
圖2. Sanger測序發(fā)原理
第二代測序技術(shù)
總的來說,第一代測序技術(shù)的主要特點是測序讀長可達1,000bp,準確性高達99.999%,但其測序成本高,通量低等方面的缺點,嚴重影響了其真正大規(guī)模的應用。因而第一代測序技術(shù)并不是理想的測序方法。經(jīng)過不斷的技術(shù)開發(fā)和改進,以Roche公司的454技術(shù)、illumina公司的Solexa/HiSeq技術(shù)和ABI公司的SOLID技術(shù)為標記的第二代測序技術(shù)誕生了。第二代測序技術(shù)在大幅提高了測序速度的同時,還大大地降低了測序成本,并且保持了高準確性,以前完成一個人類基因組的測序需要3年時間,而使用二代測序技術(shù)則僅僅需要1周,但其序列讀長方面比起第一代測序技術(shù)則要短很多,大多只有100bp-150bp。圖3. 是第一代和第二代測序技術(shù)測序成本作了一個簡單的比較,可以看出自第二代測序技術(shù)發(fā)展出來之后,歷史開始發(fā)生根本性的改變,測序的成本開始快速實現(xiàn)斷崖式下降,也就是業(yè)內(nèi)經(jīng)常提到的 超摩爾定律 現(xiàn)象。
圖3. 測序成本比較(來源:NIH網(wǎng)站)
接下來我以illumina(目前最大、最成功的NGS測序儀公司)的技術(shù)為基礎簡要單介紹第二代測序測序技術(shù)的原理和特點。
目前illumina的測序儀占全球75%以上,以HiSeq系列為主。它的機器采用的都是邊合成邊測序的方法,主要分為以下4個步驟:
圖4. illumina測序原理(來源:illumina官網(wǎng))
1)構(gòu)建DNA測序文庫,圖4-1
簡單來說就是把一堆亂糟糟的DNA分子用超聲波打斷成一定長度范圍的小片段。目前除了一些特殊的需求之外,基本都是打斷為300bp-800bp長的序列片段,并在這些小片段的兩端添加上不同的接頭【注】,構(gòu)建出單鏈DNA文庫,以備測序之用;
【注】接頭在illumina中一般分為P5和P7接頭,其中一個帶有和flowcell上的探針反向互補的序列,以完成待測序列和探針結(jié)合的作用,另外一個接頭帶有barcord序列以區(qū)分不同的樣本。
2)測序流動槽(flowcell),圖4-2
flowcell是用于吸附流動DNA片段的槽道,也是核心的測序反應容器——所有的測序過程就發(fā)生在這里。當文庫建好后,這些文庫中的DNA在通過flowcell的時候會隨機附著在flowcell表面的槽道(稱為lane)上。每個flowcell有8個lane(圖5),每個lane的表面都附有很多接頭,這些接頭能和建庫過程中加在DNA片段兩端的接頭相互配對,這就是為什么flowcell能吸附建庫后的DNA的原因,并能支持DNA在其表面進行橋式PCR的擴增,理論上這些lane之間是不會相互影響的。
[圖片上傳失敗...(image-a0a013-1645003235293)]
圖5. flowcell(實物 VS 示意圖)
3)橋式PCR擴增與變性
圖6. 橋式PCR擴增(來源:illumina官網(wǎng))
這是NGS技術(shù)的一個核心特點。橋式PCR以flowcell表面所固定的序列為模板,進行橋形擴增,如圖6所示。經(jīng)過不斷的擴增和變性循環(huán),最終每個DNA片段都將在各自的位置上集中成束,每一個束都含有單個DNA模板的很多分拷貝,這一過程的目的在于實現(xiàn)將單一堿基的信號強度進行放大,以達到測序所需的信號要求。
4)測序,如圖4-4和圖7所示
圖7. 邊合成邊測序(來源:illumina官網(wǎng))
測序方法采用邊合成邊測序的方法。向反應體系中同時添加DNA聚合酶、接頭引物和帶有堿基特異熒光標記的4中dNTP(如同Sanger測序法)。這些dNTP的3’-OH被化學方法所保護,因而每次只能添加一個dNTP,這就確保了在測序過程中,一次只會被添加一個堿基。同時在dNTP被添加到合成鏈上后,所有未使用的游離dNTP和DNA聚合酶會被洗脫掉。接著,再加入激發(fā)熒光所需的緩沖液,用激光激發(fā)熒光信號(圖7),并有光學設備完成熒光信號的記錄,最后利用計算機分析將光學信號轉(zhuǎn)化為測序堿基。這樣熒光信號記錄完成后,再加入化學試劑淬滅熒光信號并去除dNTP 3’-OH保護基團,以便能進行下一輪的測序反應。
Illumina的這種每次只添加一個dNTP的技術(shù)特點能夠很好的地解決同聚物長度的準確測量問題,它的主要測序錯誤來源是堿基的替換,目前它的測序錯誤率在1%-1.5%左右。測序周期以人類基因組重測序為例,30x-50x測序深度對于Hisq系列需要3-5天時間,而對于2017年初最新推出的NovaSeq系列則只需要40個小時!
<ins data-ad-format="auto" class="adsbygoogle adsbygoogle-noablate" data-ad-client="ca-pub-4854890118725886" data-adsbygoogle-status="done" data-ad-status="filled" style="box-sizing: inherit; -webkit-tap-highlight-color: transparent; border: 0px; font-family: inherit; font-size: 16px; font-style: inherit; margin: auto; padding: 0px; vertical-align: baseline; display: block; background-color: transparent; height: 280px;"><ins id="aswift_3_expand" tabindex="0" title="Advertisement" aria-label="Advertisement" style="box-sizing: inherit; -webkit-tap-highlight-color: transparent; border: none; font-family: inherit; font-size: 16px; font-style: inherit; margin: 0px; padding: 0px; vertical-align: baseline; height: 280px; width: 748px; position: relative; visibility: visible; background-color: transparent; display: inline-table;"><ins id="aswift_3_anchor" style="box-sizing: inherit; -webkit-tap-highlight-color: transparent; border: none; font-family: inherit; font-size: 16px; font-style: inherit; margin: 0px; padding: 0px; vertical-align: baseline; height: 280px; width: 748px; position: relative; visibility: visible; background-color: transparent; display: block; overflow: visible;"><iframe id="aswift_3" name="aswift_3" sandbox="allow-forms allow-popups allow-popups-to-escape-sandbox allow-same-origin allow-scripts allow-top-navigation-by-user-activation" width="748" height="280" frameborder="0" marginwidth="0" marginheight="0" vspace="0" hspace="0" allowtransparency="true" scrolling="no" allowfullscreen="true" src="https://googleads.g.doubleclick.net/pagead/ads?client=ca-pub-4854890118725886&output=html&h=280&adk=728967783&adf=2672375677&pi=t.aaa.2371374044i.41~rp.4&w=748&fwrn=4&fwrnh=100&lmt=1645003160&num_ads=1&rafmt=1&armr=3&sem=mc&pwprc=6885085903&psa=1&ad_type=text_image&format=748x280&url=https%3A%2F%2Fwww.plob.org%2Farticle%2F11652.html&flash=0&fwr=0&pra=3&rh=187&rw=747&rpe=1&resp_fmts=3&wgl=1&fa=27&adsid=ChEIgN6ykAYQlqfqreX-0tatARI5AOa2GRRbe4RcjNMuQwjC1Pbbn4SB_6GUuUr14M4gsfr5kPsIiRhIIeVkWRe_WqR62zxvMZIIx1Ca&uach=WyJXaW5kb3dzIiwiNy4wLjAiLCJ4ODYiLCIiLCI5OC4wLjExMDguNTAiLFtdLG51bGwsbnVsbCwiNjQiLFtbIiBOb3QgQTtCcmFuZCIsIjk5LjAuMC4wIl0sWyJDaHJvbWl1bSIsIjk4LjAuMTEwOC41MCJdLFsiTWljcm9zb2Z0IEVkZ2UiLCI5OC4wLjExMDguNTAiXV1d&dt=1644995745186&bpp=3&bdt=4449&idt=3&shv=r20220214&mjsv=m202202090101&ptt=9&saldr=aa&abxe=1&cookie=ID%3D3596864a98fc2cf8-2214c9d438cb0014%3AT%3D1630312243%3ART%3D1630312243%3AS%3DALNI_MZjrkswPBKUhWth440ADU0tSPCL-A&prev_fmts=0x0%2C283x600%2C1349x625%2C286x93&nras=4&correlator=7003928132549&frm=20&pv=1&ga_vid=609556735.1644995744&ga_sid=1644995744&ga_hid=1881422187&ga_fc=0&u_tz=480&u_his=1&u_h=768&u_w=1366&u_ah=728&u_aw=1366&u_cd=24&u_sd=1&dmc=8&adx=135&ady=6936&biw=1349&bih=625&scr_x=0&scr_y=4495&eid=42531397%2C21066434%2C31064036%2C44756431&oid=2&psts=AGkb-H_7Px9fxkQolYZbJOXvWX4BREvRCDkULWuOymRehCkOYOqC4j26uNDOb2geVgJqgDj25IUX5wlfjoq9RQ%2CAGkb-H8U4eFKg4F9dQeTQ7NWckD5jbQ6LzYqwfY6Cc6J-8eWkzfFgYInhv7OqRqR1BCiZTeOpbMsbbtHMg0RyQ&pvsid=1810789767323994&pem=331&tmod=26687957&wsm=1&uas=0&nvt=1&ref=https%3A%2F%2Fcn.bing.com%2F&eae=0&fc=1408&brdim=0%2C0%2C0%2C0%2C1366%2C0%2C1366%2C728%2C1366%2C625&vis=1&rsz=%7C%7Cs%7C&abl=NS&cms=2&fu=128&bc=31&ifi=4&uci=a!4&btvi=2&fsb=1&xpc=oWk2ZuApM8&p=https%3A//www.plob.org&dtd=M" data-google-container-id="a!4" data-google-query-id="CNyy1Kjyg_YCFZTRvAodjNcIyg" data-load-complete="true" style="box-sizing: inherit; -webkit-tap-highlight-color: transparent; border: 0px; font-family: inherit; font-size: 16px; font-style: inherit; margin: 0px; padding: 0px; vertical-align: baseline; left: 0px; position: absolute; top: 0px; width: 748px; height: 280px;"></iframe></ins></ins></ins>
表1. 測序量比較(雙流動槽為例,如為單流動槽則測序量減少為下表的一半,時間不變)
一次測序的數(shù)據(jù)總產(chǎn)量的單位Gb,不是計算機字節(jié),而是測序堿基的數(shù)目(Giga base)
圖8. NovaSeq與其他測序儀測序通量的比較(來源:illumina官網(wǎng))
上面表1和圖8是NovaSeq和其他測序系列的比較,數(shù)據(jù)相當好。按照這個數(shù)據(jù)量估算,一臺NovaSeq 6000(S4)在跑滿的情況下,一年就可以測序6400多人!而且按照以往的經(jīng)驗,illumina的官方公布的數(shù)據(jù)都是偏于保守的,我們在實際的使用過程中發(fā)現(xiàn) 高質(zhì)量(Q30)的read其實占到了總數(shù)據(jù)的90%以上,遠高于官方公布的75%,數(shù)據(jù)的總產(chǎn)量也同樣更高。
第三代測序技術(shù)
這是一個新的里程碑。以PacBio公司的SMRT和Oxford Nanopore Technologies的納米孔單分子測序技術(shù)為標志,被稱之為第三代測序技術(shù)。與前兩代相比,最大的特點就是 單分子測序,測序過程無需進行PCR擴增,超長讀長,以下圖9是PacBio SMRT技術(shù)的測序讀長分布情況,平均達到10Kb-15Kb,是二代測序技術(shù)的100倍以上,值得注意的是在測序過程中這些序列的讀長也不再是相等的,下文有解析!
圖9. PacBio SMRT 測序read讀長分布(來源:PacBio官網(wǎng))
PacBio SMRT
PacBio SMRT技術(shù)其實也應用了邊合成邊測序的思想,并以SMRT芯片為測序載體(如同flowcell)?;驹硎牵?DNA聚合酶和模板結(jié)合,用4色熒光標記A,C,G,T這4種堿基(即是dNTP)。在堿基的配對階段,不同的堿基加入,會發(fā)出不同的光,根據(jù)光的波長與峰值可判斷進入的堿基類型。
圖10. PacBio SMRT 測序原理
這個DNA聚合酶是實現(xiàn)超長讀長的關(guān)鍵之一,讀長主要跟酶的活性保持有關(guān),它主要受激光對其造成的損傷所影響。PacBio SMRT技術(shù)的一個關(guān)鍵點是在于如何將反應信號與周圍游離堿基的強大熒光背景區(qū)別出來。他們利用的是ZMW(零模波導孔)原理:如同微波爐壁上可看到的很多密集小孔。這些小孔的直徑是有嚴格要求的,如果直徑大于微波波長,能量就會在衍射效應的作用下穿透面板從而泄露出來(光波的衍射效應),從而與周圍小孔相互干擾(光波的干涉)。如果孔徑能夠小于波長,那么能量就不會輻射到周圍,而是保持直線狀態(tài),從而可起到保護的作用。同理,在一個反應管(SMRTCell:單分子實時反應孔)中有許多這樣的圓形納米小孔,,即 ZMW(零模波導孔),外徑100多納米,比檢測激光波長小(數(shù)百納米),激光從底部打上去后不會穿透小孔進入上方的溶液區(qū),能量會被限制在一個小范圍(體積20X 10-21 L)里(圖10-A),正好足夠覆蓋需要檢測的部分,使得信號僅僅只是來自于這個小反應區(qū)域,孔外過多的游離核苷酸單體依然留在黑暗中,從而實現(xiàn)將背景噪音降到最低的目的。
PacBio SMRT技術(shù)除了能夠檢測普通的堿基之外,還可以通過檢測相鄰兩個堿基之間的測序時間,來檢測堿基的表觀修飾情況,如甲基化。因為假設某個堿基存在表觀修飾,則通過聚合酶時的速度會減慢,那么相鄰兩峰之間的距離會增大,我們可以通過這個時間上的差異來檢測表觀甲基化修飾等信息(圖11)。
圖11. PacBio SMRT 檢測甲基化修飾(來源:PacBio官網(wǎng))
SMRT技術(shù)的測序速度很快,每秒約10個dNTP。但這么快的測序速度也帶來了一些明顯的缺點——測序錯誤率比較高(這幾乎是目前單分子測序技術(shù)的通?。?,可以達到10%-15%,而且以缺失序列和錯位居多,但好在它的出錯是隨機的,并不會像第二代測序技術(shù)那樣存在一定的堿基偏向,因此可以通過多次測序來進行有效糾錯。
Oxford Nanopore
Oxford Nanopore 的MinION是另一個比較受關(guān)注的第三代測序儀,俗稱U盤測序儀,它真的很小,我親手拿過,并拆過,圖12(左)!這家公司開發(fā)的納米單分子測序技術(shù)與以往的測序技術(shù)相比都不一樣,它是基于電信號而不是光信號的測序技術(shù)!
圖12. Oxford Nanopore MinION
這個技術(shù)的關(guān)鍵點在于他們所設計的一種特殊納米孔,孔內(nèi)共價結(jié)合分子接頭。當DNA分子通過納米孔時,它們使電荷發(fā)生變化,從而短暫地影響流過納米孔的電流強度(每種堿基所影響的電流變化幅度是不同的),最后高靈敏度的電子設備檢測到這些變化從而鑒定所通過的堿基(圖13)。
圖13. MinION 測序原理
納米孔測序以及其他第三代測序技術(shù),有可能會徹底地解決目前第二代測序平臺的諸多不足。另外,MinION的主要特點是:讀長很長,而且比PacBio的都長得多,基本都是在幾十kb上百kb以上,最新的數(shù)據(jù)顯示可以達到900 kb!錯誤率是5%-15%,也是隨機錯誤,MinION最大的特點除了極小的體積之外,就是數(shù)據(jù)將是可實時讀取的,并且起始DNA在測序過程中不被破壞!這真是個可以上天的能力。然鵝,遺憾地多說幾句,目前還沒真正公布,細節(jié)也不知,自從2012開過一次發(fā)布會之后,就沒什么聲響了。
這種納米孔單分子測序儀還有另一大特點,它能夠 直接 讀取出甲基化的胞嘧啶,而不必像二代測序方法那樣需要事先對基因組進行bisulfite處理。這對于在基因組水平直接研究表觀遺傳相關(guān)現(xiàn)象有極大的幫助。下面是對PacBio和Oxford Nanopore這兩家第三代測序技術(shù)公司的測序儀做的一個簡單比較,可以看出其實成本還是蠻高的,質(zhì)量也只是還行,期待他們的下一次進化吧。
總結(jié)
以上,便是對各代測序技術(shù)的原理做了簡要的闡述。在這個比較的過程中,可以看到測序成本,讀長和通量是該測序技術(shù)先進與否的三個重要指標。其實第一代和第二代測序技術(shù)除了通量和成本上的差異之外,測序的核心原理都來自于邊合成邊測序的思想。第二代測序技術(shù)的優(yōu)點是通量大大提升,成本大大減低,使得昔日王榭堂前燕,可以飛入尋常百姓家??傊?,只有變成白菜價,才能真正對大眾有意義;但它的缺點是所引入PCR過程會在一定程度上增加測序的錯誤率,并且具有系統(tǒng)偏向性,同時讀長也比較短。第三代測序技術(shù)是為了解決第二代所存在的缺點而開發(fā)的,它的根本特點是單分子測序,不需要任何PCR的過程,這是為了能有效避免因PCR偏向性而導致的系統(tǒng)錯誤,同時提高讀長,但這個技術(shù)還不是很成熟,需要再進化,成本也偏高。
圖14. 全球測序儀數(shù)量分布
參考文獻
- Sanger, F. & Nicklen, S. DNA sequencing with chain-terminating. 74, 5463–5467 (1977).
- Mardis, E. R. Next-generation DNA sequencing methods. Annual review of genomics and human genetics 9, 387–402 (2008).
- Shendure, J. & Ji, H. Next-generation DNA sequencing. Nature biotechnology 26, 1135–45 (2008).
- Metzker, M. L. Sequencing technologies - the next generation. Nature reviews. Genetics 11, 31–46 (2010).
- Niedringhaus, T. P., Milanova, D., Kerby, M. B., Snyder, M. P. & Barron, A. E. Landscape of Next-Generation Sequencing Technologies. 4327–4341 (2011).
- Rothberg, J. M. et al. An integrated semiconductor device enabling non-optical genome sequencing. Nature 475, 348–52 (2011).
原文:從零開始完整學習全基因組測序(WGS)數(shù)據(jù)分析:第1節(jié) 測序技術(shù) | Public Library of Bioinformatics (plob.org)















