基因測(cè)序原理——以BGISEQ-500為例

首先聲明,作為大學(xué)時(shí)的生物狗和工作時(shí)的挨踢狗,實(shí)非基因測(cè)序的專業(yè)人士。

再說(shuō)說(shuō)寫這篇文章的緣由,華大基因的BGISEQ-500?,自從15年10月發(fā)布會(huì)以來(lái),就鮮有報(bào)道,但作為一款身負(fù)基因測(cè)序平民化重任的產(chǎn)品,卻十分吸引我的眼球。最近心血來(lái)潮,打算給自己做個(gè)全基因組測(cè)序,看了下現(xiàn)有的服務(wù)報(bào)價(jià),近4萬(wàn)元的價(jià)格,艾瑪,看不下去了,于是就想起了半年前這款號(hào)稱平民的產(chǎn)品,卻在公開信息中始終查不到價(jià)格,回看發(fā)布會(huì)中價(jià)格比同類產(chǎn)品低1/3的宣傳,首先想到illumia的HiSeq 2500,這個(gè)價(jià)格好查,74萬(wàn)美元,艾瑪,看不下去了,后來(lái)發(fā)現(xiàn)選錯(cuò)對(duì)象了,NexSeq 500無(wú)論從名字還是定位上才是BGISEQ-500的對(duì)標(biāo),35萬(wàn)美元的價(jià)格,砍掉1/3也是100多萬(wàn)軟妹幣啊,艾瑪,買不起總能看看吧,原理先要搞清楚,說(shuō)不定哪天就買得起了,于是在seq500官網(wǎng)查到以下信息:


BGISEQ-500五大關(guān)鍵技術(shù)解讀

視頻看不懂沒(méi)關(guān)系,一開始我也沒(méi)看懂,于是才有了這篇文章。

總結(jié)視頻中基因測(cè)序的步驟?:

1. DNA提取與分段

準(zhǔn)備樣本 -> DNA提取 -> DNA分段 -> DNA片段末端修復(fù) ->

2. DNA片段擴(kuò)增(納米球技術(shù))

加接頭序列 -> 分離出單股DNA -> 成環(huán) -> 滾環(huán)擴(kuò)增 -> 形成DNA納米球

3. DNA序列識(shí)別

DNA納米球附著芯片 -> 組合探針錨定連接法測(cè)序

4. 分析

堿基讀取 -> 數(shù)據(jù)比對(duì)和組裝 -> 基因組 -> 結(jié)果分析


文字也看不懂?那只能聽我瞎掰了,哈哈

拋開細(xì)節(jié),只看做了什么和為什么這么做,準(zhǔn)備樣本和DNA提取不用說(shuō)了,干活總要把家伙先掏出來(lái)吧,為什么要分段,讓你看100萬(wàn)字的書不可能一氣兒看完,30億個(gè)堿基對(duì)也要分開來(lái)讀,而且堿基那么小,處理和讀取時(shí)丟失和讀錯(cuò)的可能性很大,于是就要多讀幾遍,反復(fù)驗(yàn)證,方法就是把書拆成一頁(yè)一頁(yè),每頁(yè)都復(fù)制個(gè)上百遍,裝訂成小冊(cè)子(納米球),那么為什么還要末端修復(fù),因?yàn)槟悴饡臅r(shí)候總有不小心撕壞書角,丟失了文字,那丟了還怎么修復(fù),因?yàn)镈NA特殊啊,自帶備份,著名的雙螺旋結(jié)構(gòu)就是一份信息,兩份拷貝,只要另一份拷貝還在,就能根據(jù)它還原缺失的書角,后面的加接頭序列、分離出單股DNA、成環(huán)、滾環(huán)擴(kuò)增都跟DNA的雙螺旋結(jié)構(gòu)有關(guān),加接頭就是復(fù)制書頁(yè)前標(biāo)識(shí)書頁(yè)的開頭結(jié)尾,以便復(fù)制后仍能準(zhǔn)確地區(qū)分拷貝,既然要大規(guī)模復(fù)制了,只需要一份拷貝就可以了,于是就分離出單股DNA,成環(huán)是方便之后的滾環(huán)擴(kuò)增,DNA成了環(huán)形,就能讓DNA聚合酶繞著環(huán)不停地轉(zhuǎn)圈,復(fù)制出的上百份拷貝都在一股新DNA上,就像一股毛線卷成了毛線團(tuán)一樣,最后成了納米球(DNB, DNA Nano Ball)。

完成了書的復(fù)制,接下來(lái)就要讀書了,這里還需要兩樣關(guān)鍵東西,書桌和眼睛,芯片就是書桌, 問(wèn)題來(lái)了,書已經(jīng)拆成一頁(yè)一頁(yè)了,復(fù)制后每一頁(yè)都是一本書,這么多書都放桌上?對(duì)的,書不僅都要放上,而且都要攤開固定,一本一本擺得整整齊齊,這就需要芯片上有整齊的固定點(diǎn),讓納米球自動(dòng)附著上去,且不會(huì)堆疊,這個(gè)就是陣列技術(shù)(Pattern Array)。而眼睛是讀書的核心,雖然是一個(gè)詞,卻是一整套技術(shù),先把術(shù)語(yǔ)拋出來(lái),回頭我整明白了再慢慢解釋,哈哈,組合探針錨定連接法(cPAS)。

而最關(guān)鍵的分析,就是你還得有個(gè)腦子去讀懂內(nèi)容,這里跟普通讀書最重要的區(qū)別,除了要讀n多遍重復(fù)的內(nèi)容之外,你還不是按順序讀的,書沒(méi)有頁(yè)碼,在拆書的過(guò)程中,頁(yè)的順序也被打亂了,你現(xiàn)在只有拼圖的一些碎片,而任務(wù)是先要把讀到的片段拼成一本書,好在這些片段都有一些線索,它們會(huì)有重疊的部分,至于為什么會(huì)有重疊的部分,我還沒(méi)搞清楚,而這些重疊信息讓你能像拼圖一樣把片段拼接起來(lái),至于會(huì)不會(huì)有兩個(gè)長(zhǎng)得像的片段被放錯(cuò)了地方,我還沒(méi)搞清楚,最后的結(jié)果是你得到了基因組,還原了這本書,至于你是否讀得懂,那又是另一回事,就像一句名言所說(shuō),你認(rèn)得書中的每一個(gè)字母,但就是不知道這本書在說(shuō)什么,后基因組時(shí)代的基因組學(xué)是一個(gè)令人興奮的浩瀚領(lǐng)域,我們才剛剛?cè)腴T。


結(jié)合視頻,我們用純技術(shù)語(yǔ)言重新解釋上面提到的三個(gè)關(guān)鍵技術(shù)(搬磚):

DNB技術(shù)


BGISEQ-500技術(shù)視頻之DNB

基因組DNA首先經(jīng)過(guò)片段化處理,再加上接頭序列,并環(huán)化形成單鏈環(huán)狀DNA,隨后使用的滾環(huán)擴(kuò)增技術(shù)(Rolling circle amplification, RCA)可將單鏈環(huán)狀DNA擴(kuò)增2-3個(gè)數(shù)量級(jí),所產(chǎn)生的擴(kuò)增產(chǎn)物稱為DNA納米球(DNA nanoball, DNB),最終納米球經(jīng)過(guò)DNB裝載技術(shù)固定在陣列化的硅芯片上。

與其他二代測(cè)序技術(shù)相比較,DNB測(cè)序技術(shù)具有以下幾個(gè)優(yōu)勢(shì):

(1)DNB通過(guò)增加待測(cè)DNA的拷貝數(shù)而增強(qiáng)了信號(hào)強(qiáng)度,從而提高測(cè)序準(zhǔn)確度;

(2)不同于PCR指數(shù)擴(kuò)增,滾環(huán)擴(kuò)增技術(shù)的擴(kuò)增錯(cuò)誤不會(huì)累積;

(3)DNB與芯片上活化位點(diǎn)的大小相同,每個(gè)位點(diǎn)只固定一個(gè)DNB,保證信號(hào)點(diǎn)之間不產(chǎn)生相互干擾;

(4)陣列化測(cè)序芯片和DNB測(cè)序技術(shù)的結(jié)合,使得成像系統(tǒng)像素和測(cè)序芯片的面積得到最大化利用。

Pattern array技術(shù)


BGISEQ-500視頻解讀之Pattern Array

華大基因測(cè)序芯片的規(guī)則陣列(PatternArray)采用先進(jìn)的光刻和干法刻蝕技術(shù),在硅片表面形成陣列和對(duì)準(zhǔn)標(biāo)記,通過(guò)“涂敷深紫外光刻膠--陣列圖案曝光—顯影暴露局部硅表面—汽相沉積(氨基硅烷修飾)”系列處理,來(lái)實(shí)現(xiàn)DNA納米球的固定。硅片最后被分切成25mmX 75mm的小片,成為測(cè)序芯片的基底。

cPAS技術(shù)


BGISEQ-500視頻解讀之cPAS

首先DNA分子錨和熒光探針在DNB上進(jìn)行聚合,隨后高分辨率成像系統(tǒng)對(duì)光信號(hào)進(jìn)行采集,光信號(hào)經(jīng)過(guò)數(shù)字化處理后即可獲得待測(cè)序列。為了實(shí)現(xiàn)快速測(cè)序這一目標(biāo),生化團(tuán)隊(duì)探索并優(yōu)化了大量反應(yīng)條件,并從上萬(wàn)個(gè)酶突變體中篩選得到最優(yōu)秀的測(cè)序酶,使生化反應(yīng)時(shí)間縮短到60秒完成。此外,算法團(tuán)隊(duì)的實(shí)時(shí)圖像處理軟件,通過(guò)自主開發(fā)的Sub-pixelRegistration算法,使圖像配準(zhǔn)精確度達(dá)到了亞像素級(jí)別,大大提高了堿基識(shí)別的準(zhǔn)確度;同時(shí),通過(guò)Multi-threadparallel compression算法以及對(duì)執(zhí)行效率的優(yōu)化,實(shí)現(xiàn)了圖像處理和堿基識(shí)別的實(shí)時(shí)化,數(shù)據(jù)處理速度處于同行業(yè)領(lǐng)先水平。


參考:

Seq500官網(wǎng)

深度 | 新一代測(cè)序系統(tǒng)BGISEQ-500全面解讀

Complete Genomics測(cè)序平臺(tái)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容