測序原理
共有的特點:
優(yōu)點:無需前期擴(kuò)增,不引入偏向性;讀長長
缺點:錯誤率高;
10X Genomics:Illumina二代測序的升級版
10X Genomics,是常規(guī)Illumina二代測序的升級版,由于開發(fā)出了一套巧妙的Barcoding建庫方案,使得Illumina這種短讀長二代測序能夠得到跨度在30-100Kb的linked reads信息,與二代測序數(shù)據(jù)相結(jié)合,在Scaffold的組裝上能夠得到媲美三代測序的組裝結(jié)果

首先將每一條長片段的DNA分配至不同的油滴微粒中,通過專利的GEM建庫技術(shù),長片段DNA被切碎成適合測序的大小,并且來源于相同油滴(同一條長片段DNA)的DNA片段,會帶上相同的一段DNA序列標(biāo)記(Barcode),之后在Illumina系統(tǒng)上測序完成后,可以理論上再將來源相同的DNA序列獨立拼接,得到原先的長片段DNA序列。
其GC偏好性如何?

10X Genomics技術(shù)相對于Illumina來說,有改進(jìn),但依舊是個拱形,而PacBio則是無偏倚的均一分布。10X的技術(shù),其Coverage一樣是受GC含量影響較大的,那么如果真要應(yīng)用10X技術(shù),那么必須注意目標(biāo)DNA的GC含量分布最好能控制在30~70%。
Helicos:tSMS
真正的單分子測序(Helicos True Single Molecule Sequencing)

待測DNA 被隨機(jī)打斷成小片段,在每個小片段( 200bp)的末端加上poly-dA,并于玻璃芯片上隨機(jī)固定多個 poly-dT 引物,其末端皆帶有熒光標(biāo)記,以利于精確定位。
首先,將小片段 DNA 模板與檢測芯片上的poly-dT 引物進(jìn)行雜交并精確定位,然后逐一加入熒光標(biāo)記的末端終止子。這個終止子與 Illumina 的終止子可不一樣,不是四色的,是單色的,也就是說所有終止子都標(biāo)有同一種染料。
在摻入了單個熒光標(biāo)記的核苷酸后,洗滌,單色成像,之后切開熒光染料和抑制基團(tuán),洗滌,加帽,允許下一個核苷酸的摻入。通過摻入、檢測和切除的反復(fù)循環(huán),即可實時讀取大量序列。最后以軟件系統(tǒng)輔助,可分析出完整的核酸序列。
缺點:Heliscope 在面對同聚物時也會遇到一些困難,但可以通過二次測序提高準(zhǔn)確度;由于在合成中可能摻有未標(biāo)記的堿基,因此其最主要的錯誤來源是缺失。
PacBio:SMRT
PacBio SMRT(single molecule real time sequencing)技術(shù)也應(yīng)用了邊合成邊測序的思想,并以SMRT 芯片為測序載體。
基本原理是:DNA 聚合酶和模板結(jié)合,4 色熒光標(biāo)記4 種堿基(即是dNTP),在堿基配對階段,不同堿基的加入,會發(fā)出不同光,根據(jù)光的波長與峰值可判斷進(jìn)入的堿基類型。
DNA 聚合酶是實現(xiàn)超長讀長的關(guān)鍵之一,讀長主要跟酶的活性保持有關(guān),它主要受激光對其造成的損傷所影響。
PacBio SMRT 技術(shù)的一個關(guān)鍵是怎樣將反應(yīng)信號與周圍游離堿基的強大熒光背景區(qū)別出來:
它們利用的是ZMW(Zero Mode Waveguide,零模波導(dǎo)孔)原理,如同微波爐壁上可看到的很多密集小孔。小孔直徑有考究,如果直徑大于微波波長,能量就會在衍射效應(yīng)的作用下穿透面板而泄露出來,從而與周圍小孔相互干擾。如果孔徑小于波長,能量不會輻射到周圍,而是保持直線狀態(tài)(光衍射的原理),從而可起保護(hù)作用。同理,在一個反應(yīng)管(SMRT Cell,單分子實時反應(yīng)孔)中有許多這樣的圓形納米小孔,即ZMW(零模波導(dǎo)孔),外徑100 多納米,比檢測激光波長?。〝?shù)百納米),激光從底部打上去后不能穿透小孔進(jìn)入上方溶液區(qū),能量被限制在一個小范圍(體積20x10-21L )里,正好足夠覆蓋需要檢測的部分,使得信號僅來自這個小反應(yīng)區(qū)域,孔外過多游離核苷酸單體依然留在黑暗中,從而實現(xiàn)將背景降到最低。

優(yōu)缺點:
優(yōu)點:
可以通過檢測相鄰兩個堿基之間的測序時間,來檢測一些堿基修飾情況,即如果堿基存在修飾,則通過聚合酶時的速度會減慢,相鄰兩峰之間的距離增大,可以通過這個來直接檢測甲基化等信息
SMRT can detect base modification測序速度很快,每秒約10 個dNTP
讀長長
無需PCR擴(kuò)增,也避免了由此帶來的bias
SMRT features
- 需要的樣品量很少,樣品制備時間花費少
缺點:
測序錯誤率比較高(這幾乎是目前單分子測序技術(shù)的通病),達(dá)到15%
SMRT reads error rate好在它的出錯是隨機(jī)的,并不會像第二代測序技術(shù)那樣存在測序錯誤的偏向,因而可以通過多次測序來進(jìn)行有效的糾錯
Nanopore sequencing
該技術(shù)的關(guān)鍵之一是,它們設(shè)計了一種特殊的納米孔,孔內(nèi)共價結(jié)合有分子接頭。當(dāng)DNA 堿基通過納米孔時,它們使電荷發(fā)生變化,從而短暫地影響流過納米孔的電流強度(每種堿基所影響的電流變化幅度是不同的),靈敏的電子設(shè)備檢測到這些變化從而鑒定所通過的堿基。

測序原理:
解螺旋,將雙鏈DNA解開成單鏈。
DNA單鏈分子通過一個孔道蛋白,孔道中有個充當(dāng)轉(zhuǎn)換器的蛋白分子。
DNA單分子停留在孔道中,有一些離子通過帶來電流變化,而不同的堿基帶來的電流變化是不同的。
轉(zhuǎn)化器蛋白分子感受5個堿基的電流變化。
根據(jù)電流變化的頻譜,應(yīng)用模式識別算法得到堿基序列。
特點:
- 測序讀長
因為測序原理無需要DNA聚合酶的鏈?zhǔn)椒磻?yīng),所以不存在DNA聚合酶的失活問題,理論上只要DNA分子不斷開,就一直可以通過納米孔,目前在對于人和大腸桿菌的測序種觀測到的read是1Mb。
要問測多長,請問您提取的DNA是否夠長?
三種不同建庫方法Nanopore測序情況
DNA建庫方法 序列數(shù) 平均讀長 Read N50 Ligation Library 451,020 8,012 13,920 Rapid Kit Library 315,684 13,796 30,397 Ultralong reads Protocol 694,659 24,179 99,790 數(shù)據(jù)說話,Ligation建庫方法測序讀長的read N50達(dá)到14k左右,超長建庫方法read N50達(dá)到 100k。
- 測序準(zhǔn)確率
Nanopore測序準(zhǔn)確率和Pacbio持平,為86%左右。而且起始位置正確率偏低,在大約100nt位置達(dá)到穩(wěn)定,且錯誤為隨機(jī)測序錯誤。
Nanopore position specific error rate如果選擇 1D2測序方式,即對于DNA的正負(fù)鏈都進(jìn)行測序,可以達(dá)到96%的準(zhǔn)確率
1D2 reads can imporve correction rate
Nanopore 測序儀 MinION 的一些特征:
1、早期使用基因工程改造過的a-hemolysin蛋白,稱為作為biosensor,最新的nanopore使用CsgG 蛋白,它允許ssDNA通過
2、MinION的flow cells中有512 channels,每個channel含有4個pores和sensors,每個channel作為一個獨立的測序單元,對一條DNA分子進(jìn)行測序,DNA分子從四個納米孔中的一個穿過,產(chǎn)生電流信號。因此一個flow cell可以同時對512條DNA進(jìn)行測序
3、為了進(jìn)行dsDNA的測序,需要在dsDNA的兩端加上兩個接頭:leader-adapter 和 hairpin-adapters,且都被預(yù)先固定在馬達(dá)蛋白 (motor proteins) 上
Nanopore sequencing processleader-adapter帶著dsDNA到鄰近的納米孔,然后原先固定在leader-adapter的馬達(dá)蛋白開始將dsDNA打開,使得第一條鏈,即模板鏈(template),能夠穿過納米孔,測序過程隨即開始
Nanopore sequencing process3、MinION的flow cell有多個升級版本(R6.0, R7.0, R7.3, R9 and R9.4),在通量,讀長和準(zhǔn)確率方面都有很大的提高
Improvement of Nanopore sequencing quanlity4、納米孔中的電流傳感器的采樣頻率為5000 Hz,測序速度為250 bases/s(早期為75 bases/s)
5、目前唯一的便攜式DNA和RNA測序儀,注意這里有兩個概念,一是便攜式,MinION只有100g重,相當(dāng)于1個大一點的U盤或者小一點的移動電源;二是DNA和RNA測序,和所有NGS測序儀、甚至三代Pacbio不同的是,MinION和其他的ONT儀器們,可以直接對RNA進(jìn)行測序,無需預(yù)先轉(zhuǎn)化為cDNA。此外,一旦啟動測序,實時的數(shù)據(jù)會不斷產(chǎn)生,而不用像傳統(tǒng)的NGS測序中一個run結(jié)束后才能收獲數(shù)據(jù),一旦數(shù)據(jù)量足夠可隨時終止測序進(jìn)程,簡直不要太爽!
ONT公司目前推出的幾款測序儀:
- MinION —— flow cell最新版本是R9,內(nèi)含2048 wells。48h即可產(chǎn)出10~20 Gb數(shù)據(jù)

- GridION X5 —— 一款桌面式測序儀,通量介于大家熟悉的MinIon和高通量的PromethIon之間。GridIon X5系統(tǒng)一次最多可運行五個MinIon flow cells,可以根據(jù)實際數(shù)據(jù)量的需求一次運行1~5個flow cells。目前的最大通量是,每運行48小時可產(chǎn)出高達(dá)100 GB的測序數(shù)據(jù)。

- PromethION —— 一個具有模塊化設(shè)計的更大的臺式測序儀,其在全功率時的運行能力約為MinION的300倍,通量在Tb級。包括48個flow cells,這些flow cells可以單獨運行,也可以一起運行

PacBio-SMRT數(shù)據(jù)分析
QC
- 下機(jī)數(shù)據(jù)

在analysis文件夾中,下機(jī)的數(shù)據(jù)被分割為三個文件進(jìn)行存儲
- 以bax.h5為后綴的是原始二進(jìn)制文件;
- 以subreads.fasta / subreads.fastq為后綴的是經(jīng)一級處理得到的標(biāo)準(zhǔn)格式的堿基文件;
- 以sts.csv / sts.xml為后綴的是記錄測序過程中每個ZMW度量指標(biāo)的統(tǒng)計文件
數(shù)據(jù)的命名:
m 140415_143853_42175_c100635972550000001823121909121417_s1_p0
└1┘└─────2─────┘ └──3──┘└───────────────4───────────────┘└5┘└6┘
1. m是movie的縮寫;
2. 測序時間,格式為yymmdd_hhmmss;
3. 儀器編號;
4. SMRT Cell Barcode;
5和6無實際意義,一般是固定的
- 數(shù)據(jù)結(jié)構(gòu)
Pacbio 數(shù)據(jù)的文庫模型是兩端加接頭的啞鈴型結(jié)構(gòu),測序時會環(huán)繞著文庫進(jìn)行持續(xù)的進(jìn)行,由此得到的測序片段稱為 polymerase reads,即一條含接頭的測序序列,其長度由反應(yīng)酶的活性和上機(jī)時間決定。目前,采用最新的 P6-C4 酶,最長的讀長可達(dá)到 60kb 以上。

polymerase reads 是需要進(jìn)行一定的處理才能獲得用于后續(xù)分析的。這個過程首先是去除低質(zhì)量序列和接頭序列:

處理后得到的序列稱為 subreads,根據(jù)不同文庫的插入片段長度,subreads 的類型也有所不同。
對長插入片段文庫的測序基本是少于2 passes的(pass即環(huán)繞測序的次數(shù)),得到的reads也稱為Continuous Long Reads (CLR),這樣的reads測序錯誤率等同于原始的測序錯誤率。
而對于全長轉(zhuǎn)錄組或全長16s測序,構(gòu)建的文庫插入片段較短,測序會產(chǎn)生多個passes,這時會對多個reads進(jìn)行一致性校正,得到一個唯一的read,也稱為Circular Consensus Sequencing(CCS)Reads,這樣的reads測序準(zhǔn)確率會有顯著的提升。
polymerase reads 與 subreads 是相對應(yīng)的兩個概念
Continuous Long Reads (CLR) 與 Circular Consensus Sequencing(CCS)Reads 是是相對應(yīng)的兩個概念
- 數(shù)據(jù)質(zhì)量
不同于二代測序的堿基質(zhì)量標(biāo)準(zhǔn)Q20/Q30,三代測序由于其隨機(jī)分布的堿基錯誤率,其單堿基的準(zhǔn)確性不能直接用于衡量數(shù)據(jù)質(zhì)量。那么,怎么判斷三代測序的數(shù)據(jù)好不好呢?
-
長度
長度短的測序數(shù)據(jù)不一定差(與文庫大小有關(guān)),但差的數(shù)據(jù)長度一定短。在上游實驗環(huán)節(jié),最關(guān)鍵的影響因素是文庫的構(gòu)建。高質(zhì)量的文庫產(chǎn)出的數(shù)據(jù)長度長,質(zhì)量好;而低質(zhì)量的文庫產(chǎn)出的數(shù)據(jù)長度短,質(zhì)量差。

- 比例
需要關(guān)注的是兩個比例:
一個是subreads與polymerase reads數(shù)據(jù)量的比例,比例過低反映測序過程中的低質(zhì)量的序列較多;
一個是zmw孔載入的比例,根據(jù)孔中載入的DNA片段數(shù)分為P0、P1和P2。P1合理比例在40%-60%之間。上樣濃度異常會導(dǎo)致P0或P2比例過高,有效數(shù)據(jù)量減少。需要注意的是P2比例過低時,可能存在P2轉(zhuǎn)P1的情況,測序結(jié)果包含較多的嵌合型reads。
PacBio QC-quality zmw loading一張芯片上有15萬個孔,其中只有大概三分之一有一個測序復(fù)合物(聚合酶+測序引物+測序模版),另外三分之一是空的,剩下的三分之一是有>2個以上的測序復(fù)合物產(chǎn)生的數(shù)據(jù)再接下來的分析中是要去掉
組裝
目前采用的組裝策略:
PacBio-only de novo assembly :只使用 PacBio 產(chǎn)生的 long reads 進(jìn)行拼接,在拼接之前要進(jìn)行預(yù)處理,然后采用 Overlap-Layout-Consensus 算法進(jìn)行拼接
Hybrid de novo assembly :結(jié)合 PacBio 的長reads 和 二代的短 reads
Gap filling :用二代的短reads(包括Pair-end和Mate-pair reads)拼接得到scaffod,然后用 PacBio 的長 reads 進(jìn)行補洞
Scaffolding :用二代的短reads(包括Pair-end和Mate-pair reads)拼接得到 contigs / scaffod,用 PacBio 的長 reads 確定 contigs / scaffod 之間的位置關(guān)系

這四種組裝策略并不是完全孤立的,在一個組裝任務(wù)的不同階段會用到不同的方法
不同的組裝策略可以選用的工具:
-
PacBio-only
- HGAP:先進(jìn)行reads的預(yù)組裝(preassembly),然后用Celera? Assembler進(jìn)行進(jìn)一步組裝,最后用 Quiver 進(jìn)行校正
- Falcon:一個試驗性的二倍體組裝工具,已經(jīng)在Gb級別大小的基因組上做了試驗
- Canu:以Celera Assembler為基礎(chǔ),為三代單分子測序而開發(fā)出的分支工具
- Celera? Assembler:現(xiàn)在,Celera? Assembler 8.1 已經(jīng)可以直接用于subreads的組裝
-
Hybrid
- pacBioToCA:Celera? Assembler的一個error correction模塊,最初是用來align short reads to PacBio reads 和 generate consensus sequences。隨后,這些錯誤校正過的PacBio reads可以用Celera? Assembler進(jìn)行組裝
- ECTools:使用 unitigs (High quality contigs formed from unambiguous, unique overlaps of reads) 而非short reads進(jìn)行校正
- SPAdes :SPAdes原本是進(jìn)行短序列組裝,在3.0版本后增加了對PacBio的混合組裝的支持
- Cerulean :用ABySS構(gòu)建de Bruijn graph,在圖的bubbles位置利用PacBio的long reads解決bubbles帶來的分支選擇問題,從而延伸contigs
-
Gap Filling
PBJelly 2 :對已經(jīng)組裝過的基因組,用PacBio的long reads進(jìn)行補洞

de novo assembly 算法
基因組的組裝問題,實際上就是從序列得到的圖中搜尋遍歷路徑的問題,有兩種構(gòu)建圖的方法:
- overlap-layout-consensus (OLC)
- de Bruijn graph

可以看到,隨著reads長度的增加,基于OLC算法的組裝工具組裝出的contigs的長度幾乎在線性增長,而基于de Bruijn圖算法的組裝效果并沒有隨著reads長度的增加而提高
三代單分子測序會產(chǎn)生較高的隨機(jī)錯誤,平均正確率在82.1%-84.6%。這么高的錯誤率顯然不能直接用于后續(xù)的分析,需要進(jìn)行錯誤校正:
多測幾個pass:由于測序序列是發(fā)夾結(jié)構(gòu),可以進(jìn)行多輪的滾環(huán)測序,靠覆蓋度來自我糾錯,如果通量不是限制因素,那么PacBio是目前最準(zhǔn)確的測序方式:錯誤率可以無限接近罕見突變的發(fā)生率(即無法分辨是測序錯誤還是罕見突變),不過這會極大縮短有效測序的插入序列的長度
用二代的短reads校正:2012年冷泉港實驗室的Michael Schatz開發(fā)了一種糾錯算法,用二代測序的短讀長高精確數(shù)據(jù)對三代長讀長數(shù)據(jù)進(jìn)行糾錯,這種稱為”混合糾錯拼接”(PBcR (PacBio corrected Reads) algorithm)
- Map short reads to long reads
- Trim long reads at coverage gaps
- Compute consensus for each long read

粉色長方形:單個PacBio RS reads;黑色豎線:測序錯誤;(a)由于測序錯誤堿基的存在使得兩條reads就難確定是否在末端重疊;(b)高質(zhì)量的短reads比對到存在錯誤的長reads;短reads中的黑色豎線表示 ‘mapping errors’ ,是長reads和短reads中測序錯誤的組合,此外雙拷貝的重復(fù)序列的存在(灰色輪廓)導(dǎo)致在每一個拷貝中出現(xiàn)短reads的堆擠,為避免reads map到錯誤的重復(fù)區(qū),僅保留最高比對值的短reads;(c)剩余的比對形成一致性序列(紫色長方形),長reads和短reads中共有的部分錯誤未能得到糾正;(d)overlap糾正后的長reads;(e) 最后的組裝能夠跨越重復(fù)區(qū)域。
校正過程中會將short reads未覆蓋到的Gap進(jìn)行裁剪,short reads在PacBio long reads上的覆蓋情況:
這樣做的其中一個考慮是去除adapter

那么是什么原因?qū)е铝说透采w度區(qū)域的產(chǎn)生的呢?
- Simple Repeats – Kmer Frequency Too High to Seed Overlaps
- GC Rich Regions – Known Illumina Bias
- Error Dense Regions – Difficult to compute overlaps with many errors
Position specific coverage and error rate
3GS-assembly-error-correction-position-coverage-3.png為了克服第三中情況導(dǎo)致的高測序錯誤率區(qū)域的低覆蓋度,研究人員提出了用Unitigs進(jìn)行校正的方法
Pacbio error correction by Unitigs
Nanopore數(shù)據(jù)分析
Base-calling
Base-calling做的就是從測序儀輸出的電流信號波形圖中將堿基解碼 (decoding) 出來
第一步就是就是對波形圖進(jìn)行分段 (segmentation),即檢測每個current shift的邊界,這一步由ONT公司提供的 MinKNOW 完成,但是分段基于的假設(shè)是ssDNA分子勻速穿過nanopores,但是由于ssDNA穿過nanopore的速度很快,很容易產(chǎn)生一兩個堿基的速度差異,這樣就容易在decoding時造成insert和delete

接著就基于current shift進(jìn)行base calling,ONT公司提供的base caller為Metrichor,其底層算法基于HMM,將可能的k-tuple(由k個堿基組成的序列)作為隱藏狀態(tài),將current signals作為觀測狀態(tài)。ONT公司最新開發(fā)出的Metrichor用RNN取代了HMM,并將其整合到其開發(fā)出的新的生物信息數(shù)據(jù)分析平臺EPI2ME中
隨后,科研圈又開發(fā)出了開源的base calling工具,Nanocall 和 DeepNano。
- Nanocall類似于Metrichor,也是基于HMM。
- DeepNano 采用的是RNN(循環(huán)神經(jīng)網(wǎng)絡(luò)),又稱為RNN base-caller,其輸入為:mean, SD and duration of each segmented event ,其輸出為各種堿基的概率分布。DeepNano在base calling準(zhǔn)確率和計算速度上,都比ONT官方提供的Metrichor表現(xiàn)更好
DeepNano outperforms the Metrichor basecaller in terms of both accuracy (from 70 to 75%
sequence identityfor 1D read and from 85 to 87% for 2D reads) and computational speed
(190 s for a 2D read with Metrichor and 11 s with DeepNano)
ONT后來又在github上開源了一個RNN base-caller —— Nanonet
Data formats and handling
測序時,測序儀 MinION 連接上主機(jī),安裝在主機(jī)上的軟件 MinKNOW 控制測序儀,對于每條reads,其 signal segmentation 結(jié)果(包括segment mean, variance and duration)以及測序過程中的 metadata 會被保存成FAST5格式的二進(jìn)制文件(基于 HDF5標(biāo)準(zhǔn) 的變種)。
保存在FAST5文件中的原始數(shù)據(jù)會經(jīng)過云端的Metrichor的處理,產(chǎn)生的解碼的序列會被保存在另外的以.FAST5為后綴的HDF5文件中,包含一條template read和一條complement read或只有一條 2D read 。

MAP (MinION Access Programme) community 開發(fā)出的用于處理FAST5文件的工具,它們均能從FAST5文件中解析出FASTA/FASTQ文件,除此之外還有各自特色的質(zhì)量統(tǒng)計功能:
Poretools: 輸出quality plot,包括read-length histograms,yield-over-time
plots,和 squiggle plot (sequence of the segmented signals)NanoOK:評估三種類型的測序錯誤(substitutions, insertions and deletions),并繪制errors, coverage 和 k-mer 分布圖
npReader:能夠在測序進(jìn)行過程中,進(jìn)行實時評估,以GUI形式展示質(zhì)量統(tǒng)計結(jié)果

參考資料:
(1) 生物技能樹論壇:PacBio sequence error correction amd assemble via pacBioToCA
(2) 天津醫(yī)科大學(xué),伊現(xiàn)富《系統(tǒng)生物學(xué)-chapter2》
(4) Magi A, Semeraro R, Mingrino A, et al. Nanopore sequencing data analysis: state of the art, applications and challenges.[J]. Briefings in Bioinformatics, 2017.
(5) 細(xì)節(jié)曝光!Oxford Nanopore真機(jī)還原,聽聽圈內(nèi)人怎么說
(6) 三代測序--QC篇
(7) PacBio Training: Large Genome Assembly with PacBio Long Reads
(8) Koren S, Schatz M C, Walenz B P, et al. Hybrid error correction and de novo assembly of single-molecule sequencing reads[J]. Nature Biotechnology, 2012, 30(7):693-700.
(9) 冷泉港ppt:Hybrid De Novo Assembly of Eukaryo6c Genomes
(10) Leggett R M, Darren H, Mario C, et al. NanoOK: multi-reference alignment analysis of nanopore sequencing data, quality and error profiles[J]. Bioinformatics, 2016, 32(1):142-144.











