一篇文章講清楚基因組組裝

基因組組裝專題

隨著測序技術(shù)的不斷發(fā)展,越來越多的物種的基因組成功完成了組裝,其中不乏一些完整的,高質(zhì)量的染色體水平的基因組。近些年甚至出現(xiàn)了每條染色體的兩端都組裝出端粒的T2T和0 Gap的GapFree基因組。相信未來的幾年基因組的數(shù)量會呈現(xiàn)井噴式的增長,因此掌握如何組裝出高質(zhì)量、T2T甚至GapFree的基因組是非常重要的?;诨蚪M組裝的重要性。我決定制作一個基因組組裝專題,從基因組的基本概念開始,依次介紹:


(1) 基因組組裝原理和測序策略

(2) 基因組Survey分析

(3) 傳統(tǒng)二倍體基因組組裝

(4) 復雜多倍體基因組組裝

(5) 單倍型水平的基因組組裝

(6) T2T、Gapfree基因組的組裝

整個專題暫時決定分為6偏文章完成記錄。


基因組基本概念

在進行測序和基因組組裝之前,我們先了解一下一些在基因組組裝中出現(xiàn)的基本的名詞及其含義。
  1. Contig:指的是組成完整基因組或者一條染色體的多段的片段序列,需要注意的是,Contig是不含Gap的,因此在進行Gap填充的時候,會用到Contig。
  2. Scaffold:由多個Contig組成的,長度更長的序列,在基因組中,一般指的是一條完整的染色體,會出現(xiàn)Gap。
  3. T2T:Telomere-to-Telomere的簡稱,顧名思義,指的是染色體的兩端都能檢測到端粒重復序列,因為端粒位于染色體兩端,因為如果一個染色體能夠檢測到端粒,說明整個染色體的組裝是完整的。
  4. GapFree:不存在Gap的基因組,代表的基因組組裝的最終、最完美的結(jié)果。
  5. 重復序列:基因組中高度重復的區(qū)域。也是造成基因組中存在gap的主要原因,一些長度很長的重復序列區(qū)域單條HIFI reads或者Ont reads不能完全覆蓋,導致局部不能完整的組裝。
  6. 單倍型:來源于同一條親本染色體、在同一條 DNA 分子上連鎖遺傳的一整套等位變異組合。通俗的來講,對于一個二倍體,每條染色體都有一個拷貝,分別來自于父本和母本,每一份拷貝本身,就是一個單倍型。
  7. 單倍型基因組(haplotype-resolved genome):在基因組組裝結(jié)果中,將來自不同親本的染色體拷貝明確區(qū)分開來,分別進行組裝與表示,而不是把它們混合成一條“共識序列”。
  8. ContigN50:衡量基因組組裝質(zhì)量的重要指標,計算方法為把所有的Contig按照從大到小排序,按照從長到短依次求和,直到得到全基因組大小的1/2,最后的那條Contig的長度。

基因組組裝原理

由于后續(xù)的組裝部分通過Hifiasm完成,所以只介紹Hifiasm的基因組組裝辦法。首先根據(jù) HiFi reads 之間可靠的重疊關(guān)系(overlap),把大量長序列“首尾相接”地連成一個整體結(jié)構(gòu)圖(字符串圖),并去掉多余或明顯不必要的連接,使圖變得盡量簡單。由于 HiFi 數(shù)據(jù)錯誤率很低,圖中出現(xiàn)的分叉大多是真實存在的親本差異(雜合位點),而不是測序錯誤,因此 hifiasm 能在組裝過程中直接判斷哪些序列來自同一條染色體拷貝,并把不同來源的序列分開。這樣,在生成 contig 的同時,就已經(jīng)完成了單倍型的區(qū)分,而不是等組裝完成后再去修正。最終,hifiasm 可以輸出一套主要的組裝結(jié)果以及對應的另一套單倍型序列,在結(jié)合 Hi-C 等長距離數(shù)據(jù)時,還可以進一步拼接到染色體水平。

<center>Hifiasm組裝算法示意圖</center>

測序策略

主要用于基因組組裝的測序技術(shù)有

  1. PacBio HiFi
  • 讀長:15–25 kb,可能不能跨過長的重復序列區(qū)域,因此純PacBio HiFi組裝的基因組可能會存在大量Gap
  • 準確率:≥99.8%(Q30–Q40)
  1. ONT
  • 讀長:理論上無上限,ultra-long reads 甚至可達 100 kb–1 Mb,可以跨越大多數(shù)Gap區(qū)域,因此通過用來補Gap
  • 準確率遜色于PacBio HiFi
  1. HIC
  • 將 contig 排序、定向并連接成 染色體級 scaffold

如果只想組裝傳統(tǒng)的染色體水平的基因組,PacBio HiFi 30X,HIC 100X對于大多數(shù)物種就足夠了。如果想組裝單倍型水平的基因組則HIFI推薦測到60X。此外,如果想進一步提升基因組的質(zhì)量,達到T2T和GapFree水平,PacBio HiFi 60X的基礎(chǔ)上還需要測20X的ONT ultra-long reads來進行Gap的填補。

PacBio HiFi HIC ONT ultra-long reads
染色體水平 30X 100X -
單倍型水平 60X 100X -
T2T 60X 100X 20X

最近李恒大神更新了hifiasm的算法,ONT 60X也可以完成近T2T基因組的組裝

結(jié)語

基因組組裝原理和測序策略就到此結(jié)束了,希望能幫助讀者對基因組和測序策略有一個初步的認識。專題的下一個文章會介紹如何基于二代測序的短Reads進行基因組Survey分析,評估基因組大小、倍性、雜合度和重復序列含量。關(guān)注我,我會盡快趕出下一篇。如果關(guān)于基因組的組裝有什么問題,也可以添加我的微信,一起討論學習。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容