高通量測(cè)序的前世今生

語雀:左手柳葉刀右手炭火燒
微信公眾號(hào):研平方 | 簡(jiǎn)書:研平方
關(guān)注可了解更多的科研教程及技巧。如有問題或建議,請(qǐng)留言。
歡迎關(guān)注我:一起學(xué)習(xí),一起進(jìn)步!

今天有師弟問我關(guān)于轉(zhuǎn)錄組測(cè)序和基因芯片的東西。問題如下:芯片里面用RMA 方法標(biāo)準(zhǔn)化的方法是以FPKM作為標(biāo)準(zhǔn)么?

  • 基因芯片和轉(zhuǎn)錄組測(cè)序是完全兩個(gè)不同的東東,其背后的技術(shù)原理各位生信愛好者,小編覺得還是需要搞清楚的。
  • RMA(log scale robust multi-array analysis,多陣列對(duì)數(shù)健壯算法):是microarray的一種主流算法。該算法RMA算法并不直接從PM的信號(hào)中減去做為背景的MM信號(hào),而是基于20組探針的信號(hào)分布來判斷是信號(hào)還是噪音,這種算法對(duì)于低噪號(hào)的實(shí)驗(yàn)有較大的適用性。
  • FPKM( Fragments Per Kilobase of exon model per Million mapped fragments,每千個(gè)堿基的轉(zhuǎn)錄每百萬映射讀取的片段數(shù)):是轉(zhuǎn)錄組測(cè)序數(shù)據(jù)分析中,考慮到測(cè)序深度基因長(zhǎng)度一種常用的標(biāo)準(zhǔn)化方法。當(dāng)然當(dāng)前比較推崇TPM標(biāo)準(zhǔn)化方法,可從FPKM數(shù)據(jù)轉(zhuǎn)化為TPM(Transcripts Per Kilobase of exon model per Million mapped reads,每千個(gè)堿基的轉(zhuǎn)錄每百萬映射讀取的轉(zhuǎn)錄本數(shù))。

在3年前的筆記中扒拉半天,決定將以下內(nèi)容和大家分享。之前也推過一篇基因芯片的前生今世-必備基礎(chǔ)知識(shí)的文章,建議各位結(jié)合起來閱讀。

1. 何為高通量測(cè)序?

高通量測(cè)序技術(shù)(High-throughputsequencing)又稱“下一代”測(cè)序技術(shù)("Next-generation"sequencing, NGS),以能一次并行對(duì)幾十萬到幾百萬條DNA分子進(jìn)行序列測(cè)定和一般讀長(zhǎng)較短等為標(biāo)志。 根據(jù)發(fā)展歷史、影響力、測(cè)序原理和技術(shù)不同等,主要有以下幾種:大規(guī)模平行簽名測(cè)序(Massively Parallel Signature Sequencing, MPSS)、聚合酶克隆(Polony Sequencing)、454焦磷酸測(cè)序(454 pyrosequencing)、Illumina (Solexa) sequencing、ABI SOLiD sequencing、離子半導(dǎo)體測(cè)序(Ion semiconductor sequencing)、DNA 納米球測(cè)序 (DNA nanoball sequencing)等。

2. 常見測(cè)序平臺(tái)

三十多年前,Sanger首次建立了DNA雙脫氧測(cè)序技術(shù),完成了第一個(gè)完整基因組圖譜的繪制。時(shí)至今日,由于DNA測(cè)序技術(shù)的改進(jìn),測(cè)序的規(guī)模也從以往每天只能測(cè)定幾千個(gè)堿基序列發(fā)展到了如今的一次進(jìn)行成千上萬個(gè)序列精確測(cè)定的水平,同時(shí)該技術(shù)的發(fā)展也使得對(duì)一個(gè)物種的基因組和轉(zhuǎn)錄組進(jìn)行全面的分析成為可能,基因方面的研究逐步進(jìn)入了基因組和后基因組時(shí)代。這種以一次并行對(duì)幾十萬到幾百萬條DNA分子的序列測(cè)定和一般讀長(zhǎng)較短等為標(biāo)志的技術(shù)稱為高通量測(cè)序技術(shù),其中主要包括以Illumina/Solexa、Roche/454、ABI/SOLID為代表的第2代測(cè)序技術(shù),單分子測(cè)序?yàn)榇淼牡冢炒鷾y(cè)序技術(shù)及Ion Torrent測(cè)序技術(shù)。

當(dāng)然,第三代測(cè)序技術(shù)已經(jīng)被開發(fā)出來,以PacBio公司的SMRT和Oxford Nanopore Technologies公司的納米孔單分子測(cè)序技術(shù)為代表。

公司名稱 技術(shù)原理 技術(shù)開發(fā)者 商業(yè)模式
Apply Biosystems(ABI) 基于磁珠的大規(guī)模并行克隆連接DNA測(cè)序法 美國(guó)Agencourt私人基因組學(xué)公司(APG) 上市公司:銷售設(shè)備和試劑獲取利潤(rùn)
Illumina 合成測(cè)序法 英國(guó)Solexa公司首席科學(xué)家David Bentley 上市公司:銷售設(shè)備和試劑獲取利潤(rùn)
Roche 大規(guī)模并行焦磷酸合成測(cè)序法 美國(guó)454 Life Sciences公司的創(chuàng)始人Jonathan Rothberg 上市公司:銷售設(shè)備和試劑獲取利潤(rùn)
Helicos 大規(guī)模并行單分子合成測(cè)序法 美國(guó)斯坦福大學(xué)生物工程學(xué)家Stephen Quake 上市公司:2007年5月首次公開募股(IPO)
Complete Genomics DNA納米陣列與組合探針錨定連接測(cè)序法 美國(guó)Complete Genomics公司首席科學(xué)家radoje drmanac 私人公司:投資額為4650萬美元

2.1 Roche/454焦磷酸測(cè)序(pyrophosphate sequencing)

Roche公司于2005年推出基于焦磷酸測(cè)序原理和微流體技術(shù)整合的超高通量基因組測(cè)序系統(tǒng)。這是一種依靠生物發(fā)光進(jìn)行DNA序列分析的新技術(shù)。在DNA聚合酶、ATP硫酸化酶、熒光素酶和雙磷酸酶的協(xié)同作用下,將引物上每一個(gè)dNTP的聚合與一次熒光信號(hào)釋放偶聯(lián)起來。通過檢測(cè)熒光信號(hào)釋放的有無和強(qiáng)度,就可以實(shí)時(shí)測(cè)定DNA序列。與其他的測(cè)序平臺(tái)相比,454測(cè)序的突出優(yōu)勢(shì)是讀長(zhǎng),而且不需要熒光標(biāo)記的引物或核酸探針,也不需要進(jìn)行電泳,具有分析結(jié)果準(zhǔn)確、快速、靈敏度較高等優(yōu)點(diǎn)。它的缺點(diǎn)是無法準(zhǔn)確測(cè)量同聚物的長(zhǎng)度,以及在測(cè)序過程中引入插入和缺失的測(cè)序錯(cuò)誤。目前,該技術(shù)在基因組從頭測(cè)序、轉(zhuǎn)錄組分析等領(lǐng)域有著廣泛的應(yīng)用。

2.2 Illumina/Solexa 合成測(cè)序(sequence by synthesis)

該技術(shù)利用單分子陣列在小型芯片上進(jìn)行橋式PCR反應(yīng),是對(duì)合成測(cè)序技術(shù)的發(fā)展和延伸。由于采用新的可逆阻斷技術(shù),現(xiàn)在可以實(shí)現(xiàn)每次只合成一個(gè)堿基,并標(biāo)記熒光集團(tuán),捕獲激發(fā)光,因此可以讀取堿基信息。

Illumina/Solexa測(cè)序在人、動(dòng)植物和微生物領(lǐng)域均有相關(guān)研究報(bào)道。在不需要知道模式物種的基因組序列、不需要合成探針的前提下就可以直接進(jìn)行全基因組表達(dá)研究,此外,不需要實(shí)驗(yàn)室假設(shè)支持就可以檢測(cè)到單拷貝分子的變化情況。該技術(shù)還優(yōu)化了傳統(tǒng)測(cè)序方法的不足,所以Illumina/Solexa測(cè)序具有高通量、高靈敏度、高準(zhǔn)確性及低運(yùn)行成本等諸多優(yōu)勢(shì)。最重要的是該技術(shù)綜合考慮了通量、運(yùn)行時(shí)間和樣品量,所以高質(zhì)量數(shù)據(jù)、簡(jiǎn)單的流程、低樣品需求及其靈活性的應(yīng)用讓它從其他高通量測(cè)序技術(shù)中脫穎而出。目前,該技術(shù)在基因組從頭測(cè)序、重測(cè)序、轉(zhuǎn)錄組測(cè)序及表觀遺傳學(xué)等方面應(yīng)用范圍較廣。

2021-10-22_203647

illumina測(cè)序原理簡(jiǎn)介:https://www.bilibili.com/video/BV1ht411q7Wh/

2.3 ABI/SOLiD連接法測(cè)序(sequence by ligation)

2007年ABI推出了SOLiD測(cè)序平臺(tái)。該技術(shù)是基于雙堿基編碼的原理,通過寡核苷酸連接和檢測(cè)進(jìn)行測(cè)序,以四色熒光標(biāo)記寡核苷酸的連續(xù)連接合成為基礎(chǔ),對(duì)單拷貝DNA片段進(jìn)行大規(guī)模擴(kuò)增和高通量并行測(cè)序,且SOLiD系統(tǒng)通過熒光染料標(biāo)記不同的熒光基團(tuán),從而達(dá)到檢測(cè)序列的目的。該技術(shù)是玻片式的結(jié)構(gòu),能使得平臺(tái)快速升級(jí)到更高的通量,而不需要對(duì)基礎(chǔ)的技術(shù)和配置進(jìn)行很大改變。SOLiD系統(tǒng)最大的優(yōu)點(diǎn)就是每張玻片能容納比454更高密度的微珠,在相同系統(tǒng)中輕松實(shí)現(xiàn)高通量。但在熒光解碼階段,鑒于其是雙堿基確定一個(gè)熒光信號(hào),因而一旦發(fā)生錯(cuò)誤就容易產(chǎn)生連鎖的解碼錯(cuò)誤。目前該技術(shù)在基因組重測(cè)序、基因型分析、基因表達(dá)分析、小分子RNA、表觀組學(xué)測(cè)序(染色質(zhì)免疫共沉淀和DNA甲基化)等領(lǐng)域應(yīng)用較多。

3. 高通量測(cè)序技術(shù)的應(yīng)用

3.1 在基因組學(xué)研究中的應(yīng)用

3.1.1 全基因組從頭測(cè)序
3.1.2 全基因組重測(cè)序

3.2 在轉(zhuǎn)錄組學(xué)研究中的應(yīng)用

3.2.1 轉(zhuǎn)錄組測(cè)序:這個(gè)應(yīng)該是各位剛接觸生信后接觸最多的概念之一了,也是拿轉(zhuǎn)錄組測(cè)序數(shù)據(jù)練練手。

轉(zhuǎn)錄組測(cè)序(RNA-Seq)是基于第2代測(cè)序技術(shù)研究特定組織或細(xì)胞在某個(gè)時(shí)期轉(zhuǎn)錄出來的所有mRNA。轉(zhuǎn)錄組研究能夠從整體水平研究基因功能及基因結(jié)構(gòu),揭示特定生物學(xué)過程中的分子機(jī)理,目前在分子育種、臨床診斷和藥物研發(fā)等領(lǐng)域廣泛應(yīng)用。轉(zhuǎn)錄組不同于基因組,其定義中包含了時(shí)間和空間的限定,同一細(xì)胞在不同生長(zhǎng)時(shí)期及不同環(huán)境其基因表達(dá)情況是不完全相同的。該測(cè)序的優(yōu)勢(shì)不僅可以檢測(cè)已知轉(zhuǎn)錄本的表達(dá),還可預(yù)測(cè)新的轉(zhuǎn)錄本。在未知物種基因或基因組信息時(shí),就能夠直接對(duì)任何物種進(jìn)行最全面的轉(zhuǎn)錄組分析。轉(zhuǎn)錄組測(cè)序主要應(yīng)用于以下領(lǐng)域:

  • 差異基因表達(dá)分析:差異基因中篩選到候選基因,通過RT-PCR技術(shù)鑒定。

  • 開發(fā)SNP標(biāo)記:

  • 發(fā)現(xiàn)新基因完善基因組注釋:

  • 開發(fā)SSR標(biāo)記:

3.2.2 Small RNA(miRNAs、siRNAs、piRNAS)

3.3 在表觀基因組學(xué)研究中的應(yīng)用

3.3.1 DNA甲基化
  • 全基因組Bisulfite測(cè)序

  • MeDIP-Seq

3.3.2 組蛋白修飾

4. 高通量測(cè)序和基因芯片的區(qū)別

高通量測(cè)序和基因芯片是兩種重要的高通量基因組學(xué)研究技術(shù),對(duì)于解釋基因組的結(jié)構(gòu)和功能都發(fā)揮了重要的作用。基因芯片和基因測(cè)序都屬于分子診斷的范疇,而分子診斷與化學(xué)診斷、免疫診斷一起構(gòu)成了大家熟悉的體外診斷行業(yè)。新一代基因測(cè)序技術(shù)飛速發(fā)展,市場(chǎng)上的報(bào)告都集中關(guān)注于基因測(cè)序,使得原本紅火的基因芯片技術(shù)沉寂了不少。誠(chéng)然,在某些方面,新一代測(cè)序讓芯片失色,但就很多應(yīng)用而言,芯片仍然是不可取代的。

4.1 DNA芯片關(guān)鍵是“篩”!

基因芯片技術(shù)應(yīng)用領(lǐng)域主要有基因表達(dá)譜分析、新基因發(fā)現(xiàn)、基因突變及多態(tài)性分析、基因組文庫作圖、疾病診斷和預(yù)測(cè)、藥物篩選、基因測(cè)序等。

4.2 RNA 測(cè)序關(guān)鍵是“測(cè)”!

RNA 測(cè)序(RNA-seq)即轉(zhuǎn)錄組測(cè)序技術(shù),就是把mRNA、小RNA和非編碼RNA等或者其中一些用高通量測(cè)序技術(shù)把它們的序列測(cè)出來。反映出它們的表達(dá)水平。RNA-Seq可進(jìn)行全基因組水平的基因表達(dá)差異研究,具有定量更準(zhǔn)確、可重復(fù)性更高、檢測(cè)范圍更廣、分析更可靠等特點(diǎn)。除了分析基因表達(dá)水平,RNA-Seq還能發(fā)現(xiàn)新的轉(zhuǎn)錄本、SNP和剪接變體,并提供等位基因特異的基因表達(dá)。

4.3 本質(zhì)不同:

基因芯片的本質(zhì)是核酸雜交。只不過是同時(shí)進(jìn)行上萬個(gè)核酸雜交而已;第二代測(cè)序在本質(zhì)上是PCR,先用PCR的方法構(gòu)建測(cè)序文庫(SOLiD的油包水PCR,Solexa的橋式PCR),隨后再以“邊合成邊測(cè)序”或者“連接介導(dǎo)的測(cè)序”,得到序列信息。

4.4 應(yīng)用不同:

由于是核酸雜交,不需要擴(kuò)增。因此基因芯片是個(gè)相對(duì)封閉的系統(tǒng),只能檢測(cè)序列已知的片段的濃度;另外,由于不需要擴(kuò)增,保真性也較好。第二代測(cè)序本質(zhì)上是測(cè)序,因此是個(gè)開放的系統(tǒng),能檢測(cè)到那些沒有參考序列的片段,并且給出序列。由于在構(gòu)建測(cè)序文庫的過程中有PCR放大的過程,因此相對(duì)靈敏度較高(需要高覆蓋倍數(shù)的測(cè)序深度配合),但也由于PCR放大過程的不均衡性,樣品中片段的內(nèi)在濃度比例常常會(huì)被破壞掉。所以:

  • microarray不能發(fā)現(xiàn)新序列,而NGS可以發(fā)現(xiàn)一些以前沒有檢測(cè)到的基因。
  • 由于NGS本質(zhì)上還是PCR,在建庫的過程中樣本被擴(kuò)增上千倍,因此樣本中基因的量的線性關(guān)系會(huì)有所偏差。因此NGS定量不是很好。如果想檢測(cè)基因的表達(dá)量,還是用microarray的好。

4.5 RNA-seq對(duì)芯片的優(yōu)勢(shì):

RNA-seq檢測(cè)基因表達(dá)主要集中在7個(gè)方面相比芯片有優(yōu)勢(shì)。首先,RNA-seq不同于基因芯片,檢測(cè)轉(zhuǎn)錄本不需要依賴已知基因組或轉(zhuǎn)錄組的參考序列,RNA-seq可以通過比對(duì)或者拼接的方法,分別檢測(cè)有參考序列和無參考序列的轉(zhuǎn)錄組?;蛐酒淖畲笕秉c(diǎn),就在于它是一個(gè)“封閉系統(tǒng)”,只能檢測(cè)已知的序列或有限的變異;而RNA-seq的最大優(yōu)勢(shì),就在于它是一個(gè)“開放系統(tǒng)”,能發(fā)現(xiàn)和尋找新的信息。

動(dòng)態(tài)范圍大,是RNA-seq技術(shù)的第二大優(yōu)勢(shì),它最低可以檢測(cè)(即靈敏度)到總RNA中千萬分之一的表達(dá)量,只要足夠的測(cè)序深度,最高表達(dá)量不受限制;而芯片由于非特異性雜交帶來的噪聲,不能檢測(cè)低豐度表達(dá)的轉(zhuǎn)錄本,而且,超過一定豐度,檢測(cè)會(huì)產(chǎn)生飽和現(xiàn)象。如Affymetrix芯片上最多檢測(cè)50 000個(gè)拷貝,超過這個(gè)數(shù)值,檢測(cè)信號(hào)也不會(huì)增大。另外,芯片的非特異性雜交還帶來的背景噪聲還影響了檢測(cè)準(zhǔn)確度。

RNA-seq提供了更為豐富的序列信息,包括可變剪切、 融合基因或SNP等大量序列變 異信息,而且鏈特異性技術(shù)可以測(cè)定轉(zhuǎn)錄本來自于DNA哪條鏈。

對(duì)于芯片數(shù)據(jù),由于多種因素降低了芯片實(shí)驗(yàn)的可重復(fù)性,造成了同一類芯片樣本之間的相似度大幅降低: 而RNA-seq實(shí)驗(yàn)可重復(fù)性非常高,同類樣本間的相關(guān)系數(shù)往往能夠達(dá)到0.9以上。

比較項(xiàng)目 基因芯片 RNA-seq
參考序列 需要 不需要
動(dòng)態(tài)范圍
背景噪聲
受降解影響
序列變異 無法檢測(cè) 可以檢測(cè)
轉(zhuǎn)錄組方向 不能確定 能確定
可重復(fù)性 一般

4.6 RNA-seq存在的問題:

RNA-seq 檢測(cè)基因表達(dá)比基因芯片有如此多的優(yōu)勢(shì),大有取代基因芯片之勢(shì),那么它是否就是一個(gè)完美的技術(shù)呢?回答是否定的。盡管RNA叫相對(duì)于基因芯片技術(shù)的提高是顯著的,甚至是革命性的,即使不考慮當(dāng)前相對(duì)高的成本(這個(gè)隨著應(yīng)用范圍增大會(huì)慢慢降低),而且RNA-seq依然存在著很多問題:

  • RNA-seq 測(cè)序之前需要一個(gè)比較復(fù)雜的文庫構(gòu)建過程,這個(gè)過程中的每個(gè)步驟都會(huì)帶來誤差,甚至導(dǎo)致實(shí)驗(yàn)失敗。如cDNA片段化、 PCR擴(kuò)增等都會(huì)帶來偏倚(Bias),最終導(dǎo)致有的片段被反復(fù)測(cè)了多次,有的沒有測(cè)到。rRNA去除不干凈等因素也會(huì)帶來大量污染。還有很多其他由實(shí)驗(yàn)帶來的問題,如鏈特異性轉(zhuǎn)錄組建庫中很容易導(dǎo)致第二鏈中的dUTP消化不全。

  • RNA-seq檢測(cè)靈敏度和最大值是隨測(cè)序深度變化的,深度不夠,不能發(fā)現(xiàn)超低表達(dá)的轉(zhuǎn)錄本, 需要在測(cè)序前預(yù)估轉(zhuǎn)錄組的大小。由于復(fù)雜的RNA編輯等原因,高等生物的轉(zhuǎn)錄組數(shù)量與其編碼的基因數(shù)量沒有固定的比例關(guān)系,因此預(yù)估可能會(huì)有較大誤差。

  • 參考基因組或轉(zhuǎn)錄組不準(zhǔn)確、測(cè)序誤差、錯(cuò)誤拼接或者比對(duì)帶來的錯(cuò)誤會(huì)大大影響各種變異或者可變剪切事件的識(shí)別。例如,使用Trinity拼接轉(zhuǎn)錄組時(shí),有可能把同源基因或者同一家族的相似基因誤拼在一起: 當(dāng)使用Bowtie+ Top hat軟件比對(duì)高等生物的轉(zhuǎn)錄組時(shí), 其外顯子——內(nèi)含子邊界的確定也是一個(gè)難題。 因此,RNA-seq發(fā)現(xiàn)多樣性的能力就大打折扣。

  • 各種其他問題。如整個(gè)實(shí)驗(yàn)流程中有可能引進(jìn)各種污染:多樣品混用同一個(gè)泳道時(shí),Barcode會(huì)出現(xiàn)錯(cuò)誤分配,其原因很多;原始數(shù)據(jù)的預(yù)處理,表達(dá)差異分析的數(shù)學(xué)模型等各方面都還不是很完善。

參考資料:
  1. 高通量測(cè)序技術(shù)的發(fā)展及其在生命科學(xué)中的應(yīng)用
  2. 高通量測(cè)序技術(shù)及其應(yīng)用
  3. 高通量測(cè)序
  4. 芯片與測(cè)序又掐架了,這次你站哪方?
  5. DNA芯片技術(shù)和RNA測(cè)序,有啥不一樣?
  6. 7種測(cè)序平臺(tái)
  7. 三個(gè)視頻看懂測(cè)序原理
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容