第二代測(cè)序(Next-generation sequencing,NGS)又稱為高通量測(cè)序(High-throughput sequencing),是基于PCR和基因芯片發(fā)展而來的DNA測(cè)序技術(shù)。
一代測(cè)序?yàn)楹铣山K止測(cè)序,
二代測(cè)序開創(chuàng)性的引入了可逆終止末端,從而實(shí)現(xiàn)邊合成邊測(cè)序(Sequencing by Synthesis)。
二代測(cè)序在DNA復(fù)制過程中通過捕捉新添加的堿基所攜帶的特殊標(biāo)記(一般為熒光分子標(biāo)記)來確定DNA的序列。
現(xiàn)有的技術(shù)平臺(tái)主要包括Roche的454 FLX、Illumina的Miseq/Hiseq等。
基因簇協(xié)同性降低造成二代測(cè)序的讀長(zhǎng)(不超過500bp),因此,具有通量高、讀長(zhǎng)短的特點(diǎn)。
適合擴(kuò)增子測(cè)序(例如16S、18S、ITS的可變區(qū))。
基因組、宏基因組DNA則需要使用鳥槍法(Shotgun method)打斷成小片段,測(cè)序完畢后再使用生物信息學(xué)方法進(jìn)行拼接。
二代測(cè)序的過程
1、Illumina 原理:
橋式PCR+4色熒光可逆終止+激光掃描成像
主要步驟:
①DNA文庫(kù)制備——超聲打斷加接頭
②Flowcell——吸附流動(dòng)DNA片段
③橋式PCR擴(kuò)增與變性——放大信號(hào)
④測(cè)序——測(cè)序堿基轉(zhuǎn)化為光學(xué)信號(hào)
優(yōu)勢(shì):Illumina的這種測(cè)序技術(shù)每次只添加一個(gè)dNTP的特點(diǎn)能夠很好的地解決同聚物長(zhǎng)度的準(zhǔn)確測(cè)量問題。
劣勢(shì):它的主要測(cè)序錯(cuò)誤來源是堿基的替換。而讀長(zhǎng)短(200bp-500bp)也讓其應(yīng)用有所局限。
2、Roche 454
油包水PCR + 4種dNTP車輪大戰(zhàn) + 檢測(cè)焦磷酸水解發(fā)光
主要步驟:
①DNA文庫(kù)制備——噴霧打斷加接頭
②乳液PCR——注水入油獨(dú)立PCR
③焦磷酸測(cè)序——磁珠入孔,焦磷酸信號(hào)轉(zhuǎn)化為光學(xué)信號(hào)
優(yōu)勢(shì):454技術(shù)優(yōu)勢(shì)測(cè)序讀長(zhǎng)較長(zhǎng),平均可達(dá)400bp,
缺點(diǎn)是無法準(zhǔn)確測(cè)量類似于PolyA的情況時(shí),測(cè)序反應(yīng)會(huì)一次加入多個(gè)T,可能導(dǎo)致結(jié)果不準(zhǔn)確。也正是由于這一原因,454技術(shù)會(huì)在測(cè)序過程中引入插入和缺失的測(cè)序錯(cuò)誤。
3、Ion Torrent 原理
油包水PCR + 4種dNTP車輪大戰(zhàn) + 微電極PH檢測(cè)
主要步驟:
①DNA文庫(kù)制備——噴霧打斷加接頭
②乳液PCR——注水入油獨(dú)立PCR
③微電極pH檢測(cè)——磁珠入池記錄pH
優(yōu)勢(shì):Ion Torrent與454相比,主要差異在測(cè)序中,Ion Torrent不需要昂貴的物理成像設(shè)備,成本相對(duì)較低體積較小,同時(shí)操作更為簡(jiǎn)單,整個(gè)上機(jī)測(cè)序可在2-3.5小時(shí)內(nèi)完成(文庫(kù)構(gòu)建時(shí)間除外)。
劣勢(shì):在于芯片的通量并不高,非常適合小基因組和外顯子驗(yàn)證的測(cè)序。
文庫(kù)構(gòu)建
文庫(kù)構(gòu)建即為測(cè)序片段添加接頭。
無論是PCR產(chǎn)生的片段還是基因組鳥槍法打斷的片段都具有特異性(PCR中不同樣品反向引物插入了特異性的barcode,因此兩端也是特異的),兩端缺乏必要的引物因此混合DNA片段不能直接擴(kuò)增和測(cè)序。DNA片段需要加接頭修飾才能進(jìn)行上機(jī)測(cè)序,這個(gè)過程稱為二代測(cè)序的文庫(kù)構(gòu)建。
下面我們以常用的試劑盒NEBNext?Ultra II DNA Library Prep Kit for Illumina?為例闡述二代測(cè)序文庫(kù)構(gòu)建的流程及其原理,具體如下所示:
①末端修飾。目前很多PCR使用的高保真Pfu聚合酶產(chǎn)生的片段末端是平齊的(也即沒有不配對(duì)的堿基);鳥槍法產(chǎn)生的片段則是隨機(jī)斷裂,其末端可能是平齊的也可能是不平的。因此,建庫(kù)第一步是使用Taq聚合酶補(bǔ)齊不平的末端,并在兩個(gè)末端添加突出的堿基A,從而產(chǎn)生粘性末端(若使用Taq酶擴(kuò)增,則無需末端修飾),產(chǎn)生粘性末端的片段可以添加接頭(Adaptor)。
②添加接頭。經(jīng)過末端修飾后的PCR片段末端具有突出的A尾,而接頭具有突出的T尾,可以使用連接酶將接頭添加到DNA片段兩端。NEB的接頭為特殊的堿基U連接的環(huán)狀結(jié)構(gòu)(可以增強(qiáng)穩(wěn)定性),因此連接接頭后,還需要將堿基U刪除從而形成“Y”形接頭。這一步添加的接頭主要是為了后續(xù)PCR中作為引物擴(kuò)增繼續(xù)添加文庫(kù)index和與測(cè)序平臺(tái)互補(bǔ)的寡核苷酸序列(此外還作為測(cè)序引物Rd1 SP/Rd2 SP),而之所以為“Y”型開叉結(jié)構(gòu),是因?yàn)槊恳欢私宇^是兩條不互補(bǔ)的序列(每一端都是Rd1 SP與Rd2 SP交錯(cuò)),因?yàn)檫B接酶沒有選擇性,每個(gè)接頭都是只靠突出的T來與DNA連接,“Y”接頭保證了每條單序列兩端均為不同的測(cè)序引物,從而在后續(xù)PCR中可以連接不同的寡核苷酸序列(P5/P7),具體流程見下圖。
③磁珠純化。添加接頭后的文庫(kù)體系中含有聚合酶、連接酶等各種酶以及輔助物質(zhì),接頭的添加也是過量的,而且由于末端的不穩(wěn)定性,容易形成自連片段,鳥槍法打斷的片段中也可能有大片段存在,所以需要特殊磁珠(AMPure XP Beads)純化來去除大片段以及各種雜質(zhì),從而獲得成功添加接頭的文庫(kù)片段。
其原理為磁珠可以通過氫鍵等作用力來吸附DNA片段,磁珠本身不具有片段大小選擇的能力,但其儲(chǔ)存的buffer里面含有20%的PEG 8000,PEG濃度越大則可以吸附的DNA片段越小。
因此磁珠純化的時(shí)候要根據(jù)文庫(kù)片段不同嚴(yán)格控制磁珠添加量(其實(shí)是PEG添加量)來實(shí)現(xiàn)片段選擇。
④PCR擴(kuò)增。添加了接頭的DNA片段,可以使用與接頭互補(bǔ)的引物來擴(kuò)增。這個(gè)過程非常重要,因?yàn)槟壳八衅纹鋬啥耸遣换パa(bǔ)的Y形結(jié)構(gòu),不能直接進(jìn)行測(cè)序;此外,片段還需要添加用于區(qū)分不同文庫(kù)的特異性index,以及與測(cè)序儀芯片互補(bǔ)的兩種寡核苷酸序列(P5/P7)。
⑤第二次磁珠純化。PCR后需要將產(chǎn)物DNA片段與聚合酶等雜質(zhì)分離,因此再次進(jìn)行磁珠純化,之后進(jìn)行質(zhì)量檢測(cè),包括DNA濃度檢測(cè)、瓊脂糖凝膠電泳和片段長(zhǎng)度檢測(cè),完成建庫(kù)。
測(cè)序是以單鏈為單位的,建庫(kù)完成后的每條DNA的單鏈均一端連有測(cè)序引物Read1 Sequencing Primer(Rd1SP)和P5,另一端為Rd2 SP、Index(Barcode)和P7。Index用來區(qū)分不同的文庫(kù),因?yàn)闇y(cè)序儀一個(gè)run產(chǎn)生數(shù)據(jù)量巨大,由于實(shí)際情況不同,一次上機(jī)常會(huì)進(jìn)行多個(gè)文庫(kù)測(cè)序,因此需要加上Index來區(qū)分。
經(jīng)評(píng)論區(qū)指正這里做補(bǔ)充說明:
在建庫(kù)過程中,文庫(kù)中每個(gè)DNA短片段的正鏈與反鏈都加上了P5與P7,因此建庫(kù)后每個(gè)DNA片段都會(huì)擴(kuò)增出兩種結(jié)果(詳見上面插圖),如果全部上機(jī),最終兩條鏈都會(huì)有測(cè)序結(jié)果。因?yàn)樯蠙C(jī)測(cè)序起始是以DNA單鏈為單位,單鏈化的DNA片段進(jìn)入測(cè)序儀流通池,會(huì)隨機(jī)的結(jié)合在不同位置,且相互距離足夠遠(yuǎn)以保證測(cè)序信號(hào)的獨(dú)立讀取。最終獲得的測(cè)序結(jié)果會(huì)有重復(fù)的reads(反向互補(bǔ)也會(huì)有重復(fù)),所以都會(huì)有去重步驟,而且測(cè)序量越大重復(fù)率會(huì)越高。
上機(jī)測(cè)序
Illumina測(cè)序技術(shù)為基于基因芯片的邊合成邊測(cè)序,整個(gè)平臺(tái)可解剖為三個(gè)系統(tǒng):
一溫度控制系統(tǒng),原理和普通PCR儀一樣,來控制反應(yīng)的進(jìn)行;
二酶控制系統(tǒng),通過各種酶來控制DNA合成與剪切;
三熒光信號(hào)收集系統(tǒng),可以理解為分辨率極高的照相機(jī)。
在Illumina測(cè)序平臺(tái)的流通池(Flow cell)表面,通過基因芯片技術(shù)交錯(cuò)固定了無數(shù)條寡核苷酸鏈(即短核苷酸鏈),分別為P5’(P5互補(bǔ))和P7,單鏈化的文庫(kù)DNA片段進(jìn)入流通池后,包含P5或P7’的單鏈可以與表面的寡核苷酸基于互補(bǔ)配對(duì)結(jié)合,從而進(jìn)入測(cè)序過程。測(cè)序具體流程如下:
①首先以寡核苷酸為引物、文庫(kù)片段為模板進(jìn)行DNA復(fù)制(因?yàn)槲膸?kù)稀釋后濃度足夠低,可以認(rèn)為文庫(kù)片段均勻的結(jié)合在流通池表面,每個(gè)片段結(jié)合的位置相距足夠遠(yuǎn),這很重要,否則測(cè)序時(shí)會(huì)導(dǎo)致信號(hào)疊加而不能識(shí)別)。復(fù)制完成后解鏈,將文庫(kù)片段洗去,留在流通池表面的為與文庫(kù)模板互補(bǔ)的DNA鏈。
②因?yàn)閱捂淒NA另一端為不同的接頭序列,可以與相鄰的另一種寡核苷酸互補(bǔ)結(jié)合,之后進(jìn)行“橋”式擴(kuò)增(假如第一次結(jié)合的為P7,則復(fù)制完成洗脫模板后頂端可以與相鄰的P5互補(bǔ)結(jié)合形成“橋”,并以P5為引物進(jìn)行復(fù)制,完成后再次解鏈并與相鄰不同種接頭結(jié)合來進(jìn)行復(fù)制,如此類推)。25-28個(gè)循環(huán)完成后,原來散布在表面的單核苷酸序列變成散布的DNA簇,這一步主要是為后續(xù)測(cè)序做準(zhǔn)備,因?yàn)闇y(cè)序時(shí)單分子產(chǎn)生的光信號(hào)很弱,難以檢測(cè)。
③“橋”式擴(kuò)增后一個(gè)DNA簇都是由最初的一個(gè)文庫(kù)模板復(fù)制而來,但是這時(shí)候P7上的序列與P5上的序列是分別從兩端開始的,測(cè)序要保證每個(gè)片段一致性(都是正向或都是反向),因此再次解鏈線性化,切割并洗去P5上的DNA鏈,只留P7上的DNA單鏈。Illumina巧妙地利用了甲酰胺基嘧啶糖苷酶Fpg對(duì)8-氧鳥嘌呤糖苷8-oxo-G的選擇性切斷作用,在合成的引物鏈上加入了一個(gè)8-oxo-G,用Fpg處理,就把帶8-oxo-G基團(tuán)切掉,并把DNA鏈切斷,留下一帶不完整糖基的磷酸基。這個(gè)磷酸基在接下來的過程中,起到了阻止P5延伸的作用。此后的雙末端測(cè)序中需要恢復(fù)3’-OH,則用脫嘌呤嘧啶內(nèi)切核酸酶AP-endonuclease把帶不完整糖基的那個(gè)磷酸基切掉。
④加入測(cè)序引物Read1 SP和修飾過的DNA聚合酶,則在測(cè)序引物3’端開始DNA復(fù)制。在流通池加入可逆終止熒光dNTP,其3’-OH被阻隔(糖基3’連接有疊氮基團(tuán),在鏈延伸時(shí)起到了阻止添加下一個(gè)dNTP作用,因此在除去阻隔前只能添加一個(gè)堿基),4種dNTP在堿基上分別連接有不同顏色的熒光基團(tuán)(也可以相同顏色熒光標(biāo)記,但是測(cè)序會(huì)更慢,每次只能添加一種堿基)。之后洗掉多余的dNTP,使用激光掃描,收集留在流通池表面的熒光信號(hào)(如圖1-6所示)。用巰基試劑去掉3’位阻斷的疊氮基團(tuán),用TCEP(Tris(2-carboxyethyl)phosphine,三(2-羧乙基)膦)去掉熒光基團(tuán),進(jìn)入下一個(gè)堿基的測(cè)序反應(yīng)。因?yàn)槊織lDNA單鏈擴(kuò)增形成的DNA簇均固定在表面,隨著反應(yīng)進(jìn)行根據(jù)相同位置出現(xiàn)的熒光信號(hào)情況,就逐漸讀出了改位點(diǎn)DNA鏈的序列。
⑤要保證測(cè)序的準(zhǔn)確性,需要一個(gè)位點(diǎn)DNA簇的每條鏈同步復(fù)制,然而隨著反應(yīng)進(jìn)行,不同鏈復(fù)制情況會(huì)出現(xiàn)差異,因此二代測(cè)序讀長(zhǎng)目前限制在300bp以內(nèi)。Read1結(jié)束后,解鏈并洗掉測(cè)序中已經(jīng)合成的部分,加入測(cè)序引物Index引物(也即Read2 SP互補(bǔ)的寡核苷酸),這時(shí)會(huì)繼續(xù)在3’端進(jìn)行復(fù)制,讀出接頭中Index序列,從而可以確定出每個(gè)位點(diǎn)的DNA屬于哪個(gè)文庫(kù)。
⑥為了增長(zhǎng)測(cè)序長(zhǎng)度,進(jìn)行另一個(gè)方向測(cè)序,也即雙末端測(cè)序。洗掉前面復(fù)制合成的片段,DNA單鏈繼續(xù)在流通池表面形成橋式連接,這時(shí)要用脫嘌呤嘧啶內(nèi)切核酸酶處理修復(fù)P5的3’-OH末端,加入聚合酶,則在P5末端開始DNA復(fù)制。十幾個(gè)循環(huán)后,將P7上的DNA切割并洗掉。Illumina通過在P7核酸鏈中加入一個(gè)U堿基,用USER酶(Uracil Specific Excision Reagent,尿嘧啶鏈特定切斷試劑)來切隔斷鏈。這時(shí)只留下P5上的DNA鏈,與Read中方向相反。加入測(cè)序引物Read2 SP,進(jìn)行另一端的序列讀取。
二代測(cè)序的優(yōu)缺點(diǎn)
優(yōu)點(diǎn): 一次能夠同時(shí)得到大量的序列數(shù)據(jù),相比于一代測(cè)序技術(shù),通量提高了成千上萬倍; 單條序列成本非常低廉。
缺點(diǎn): 序列讀長(zhǎng)較短,Illumina平臺(tái)最長(zhǎng)為250-300bp,454平臺(tái)也只有500bp左右。
二代測(cè)序相比一代測(cè)序大幅降低了成本,保持了較高準(zhǔn)確性,并且大幅降低了測(cè)序時(shí)間,將一個(gè)人類基因組從3年降為1周以內(nèi),但在序列讀長(zhǎng)方面比起第一代測(cè)序技術(shù)則要短很多,這也給三代測(cè)序提供了發(fā)展空間。
**三種測(cè)序平臺(tái)的比較:
**簡(jiǎn)而言之:Roche 454是焦磷酸測(cè)序;lllunima Solexa是合成法測(cè)序;
ABI SOLiD是連接法測(cè)序。
就讀長(zhǎng)來看:Roche 454 > lllunima Solexa ABI SOLiD。就Reads數(shù)來看:ABI SOLiD > lllunima Solexa > Roche 454。
應(yīng)用來說,Roche 454讀長(zhǎng)最長(zhǎng),便于拼接,因此在de novo測(cè)序方面有很大優(yōu)勢(shì);ABISOLiD雖然讀長(zhǎng)很短,但是Reads 數(shù)最多,而且ABI獨(dú)有的雙色球編碼技術(shù),使得每個(gè)堿基都會(huì)被讀取兩遍,準(zhǔn)確率很高,因此ABISOL.iD在欖測(cè)SNP、轉(zhuǎn)錄組測(cè)序、ChlP-Seq等方面很有優(yōu)勢(shì);Illunima Solexa的讀長(zhǎng)和Reads 數(shù)均位于中間,比較適合于基因組重測(cè)序。而在實(shí)際應(yīng)用中,由于Roche 454成本太高,因此 lllunima Solcxa也被較多的應(yīng)用于de novo測(cè)序。
二代測(cè)序的價(jià)格
普通轉(zhuǎn)錄組分為真核和原核,
真核的普通轉(zhuǎn)錄組價(jià)格在800元左右,原核轉(zhuǎn)錄組會(huì)貴一些。根據(jù)不同服務(wù)公司營(yíng)銷策略和所在地區(qū),價(jià)格會(huì)有上下浮動(dòng)。
全轉(zhuǎn)錄組測(cè)序其實(shí)建立兩到三個(gè)文庫(kù),對(duì)組織或細(xì)胞在某一時(shí)刻或處理?xiàng)l件下轉(zhuǎn)錄出來的所有RNA進(jìn)行測(cè)序分析,包括mRNA和非編碼RNA(ncRNA),目前主要研究的對(duì)象為mRNA和sRNA,lncRNA ,circRNA。價(jià)格各個(gè)地方同樣有所差別,建立兩個(gè)文庫(kù)的全轉(zhuǎn)錄組測(cè)序一般價(jià)格在4000左右,三個(gè)文庫(kù)在8000左右。