基因組組裝專題
隨著測序技術(shù)的不斷發(fā)展,越來越多的物種的基因組成功完成了組裝,其中不乏一些完整的,高質(zhì)量的染色體水平的基因組。近些年甚至出現(xiàn)了每條染色體的兩端都組裝出端粒的T2T和0 Gap的GapFree基因組。相信未來的幾年基因組的數(shù)量會呈現(xiàn)井噴式的增長,因此掌握如何組裝出高質(zhì)量、T2T甚至GapFree的基因組是非常重要的?;诨蚪M組裝的重要性。我決定制作一個基因組組裝專題,從基因組的基本概念開始,依次介紹:
(1) 基因組組裝原理和測序策略
(2) 基因組Survey分析
(3) 傳統(tǒng)二倍體基因組組裝
(4) 復雜多倍體基因組組裝
(5) 單倍型水平的基因組組裝
(6) T2T、Gapfree基因組的組裝
整個專題暫時決定分為6偏文章完成記錄。
基因組基本概念
在進行測序和基因組組裝之前,我們先了解一下一些在基因組組裝中出現(xiàn)的基本的名詞及其含義。
- Contig:指的是組成完整基因組或者一條染色體的多段的片段序列,需要注意的是,Contig是不含Gap的,因此在進行Gap填充的時候,會用到Contig。
- Scaffold:由多個Contig組成的,長度更長的序列,在基因組中,一般指的是一條完整的染色體,會出現(xiàn)Gap。
- T2T:Telomere-to-Telomere的簡稱,顧名思義,指的是染色體的兩端都能檢測到端粒重復序列,因為端粒位于染色體兩端,因為如果一個染色體能夠檢測到端粒,說明整個染色體的組裝是完整的。
- GapFree:不存在Gap的基因組,代表的基因組組裝的最終、最完美的結(jié)果。
- 重復序列:基因組中高度重復的區(qū)域。也是造成基因組中存在gap的主要原因,一些長度很長的重復序列區(qū)域單條HIFI reads或者Ont reads不能完全覆蓋,導致局部不能完整的組裝。
- 單倍型:來源于同一條親本染色體、在同一條 DNA 分子上連鎖遺傳的一整套等位變異組合。通俗的來講,對于一個二倍體,每條染色體都有一個拷貝,分別來自于父本和母本,每一份拷貝本身,就是一個單倍型。
- 單倍型基因組(haplotype-resolved genome):在基因組組裝結(jié)果中,將來自不同親本的染色體拷貝明確區(qū)分開來,分別進行組裝與表示,而不是把它們混合成一條“共識序列”。
- ContigN50:衡量基因組組裝質(zhì)量的重要指標,計算方法為把所有的Contig按照從大到小排序,按照從長到短依次求和,直到得到全基因組大小的1/2,最后的那條Contig的長度。
基因組組裝原理
由于后續(xù)的組裝部分通過Hifiasm完成,所以只介紹Hifiasm的基因組組裝辦法。首先根據(jù) HiFi reads 之間可靠的重疊關(guān)系(overlap),把大量長序列“首尾相接”地連成一個整體結(jié)構(gòu)圖(字符串圖),并去掉多余或明顯不必要的連接,使圖變得盡量簡單。由于 HiFi 數(shù)據(jù)錯誤率很低,圖中出現(xiàn)的分叉大多是真實存在的親本差異(雜合位點),而不是測序錯誤,因此 hifiasm 能在組裝過程中直接判斷哪些序列來自同一條染色體拷貝,并把不同來源的序列分開。這樣,在生成 contig 的同時,就已經(jīng)完成了單倍型的區(qū)分,而不是等組裝完成后再去修正。最終,hifiasm 可以輸出一套主要的組裝結(jié)果以及對應的另一套單倍型序列,在結(jié)合 Hi-C 等長距離數(shù)據(jù)時,還可以進一步拼接到染色體水平。

<center>Hifiasm組裝算法示意圖</center>
測序策略
主要用于基因組組裝的測序技術(shù)有
- PacBio HiFi
- 讀長:15–25 kb,可能不能跨過長的重復序列區(qū)域,因此純PacBio HiFi組裝的基因組可能會存在大量Gap
- 準確率:≥99.8%(Q30–Q40)
- ONT
- 讀長:理論上無上限,ultra-long reads 甚至可達 100 kb–1 Mb,可以跨越大多數(shù)Gap區(qū)域,因此通過用來補Gap
- 準確率遜色于PacBio HiFi
- HIC
- 將 contig 排序、定向并連接成 染色體級 scaffold
如果只想組裝傳統(tǒng)的染色體水平的基因組,PacBio HiFi 30X,HIC 100X對于大多數(shù)物種就足夠了。如果想組裝單倍型水平的基因組則HIFI推薦測到60X。此外,如果想進一步提升基因組的質(zhì)量,達到T2T和GapFree水平,PacBio HiFi 60X的基礎(chǔ)上還需要測20X的ONT ultra-long reads來進行Gap的填補。
| PacBio HiFi | HIC | ONT ultra-long reads | |
|---|---|---|---|
| 染色體水平 | 30X | 100X | - |
| 單倍型水平 | 60X | 100X | - |
| T2T | 60X | 100X | 20X |
最近李恒大神更新了hifiasm的算法,ONT 60X也可以完成近T2T基因組的組裝
結(jié)語
基因組組裝原理和測序策略就到此結(jié)束了,希望能幫助讀者對基因組和測序策略有一個初步的認識。專題的下一個文章會介紹如何基于二代測序的短Reads進行基因組Survey分析,評估基因組大小、倍性、雜合度和重復序列含量。關(guān)注我,我會盡快趕出下一篇。如果關(guān)于基因組的組裝有什么問題,也可以添加我的微信,一起討論學習。