最近看了一篇人基因組組裝的文章,和大家分享一下。
國際人類基因組測序協(xié)會在2001年發(fā)表了人類基因組草圖,今天這篇文獻2021年5月27由Telomere-to-Telomere (T2T)發(fā)表于bioRxiv,剛好在草圖發(fā)布20周年之后。。主要研究內(nèi)容是通過整合各種測序手段,對人類基因組進行組裝、完善,發(fā)布版本CHM13v1.1,是目前最完整的人類基因組序列。
創(chuàng)新及突破點
對22條常染色體、X染色體進行組裝,獲得無gap的染色體序列
糾正之前版本中存在的組裝錯誤、重復區(qū)錯位等問題
對5條常染色體短臂及著絲粒區(qū)域進行組裝,獲取完整序列
數(shù)據(jù)基礎
測序樣本選擇單倍型CHM13細胞系,可以有效避免兩個單倍型因雜合導致的組裝問題。
測序基本上使用了目前所有的測序手段,包括以下幾種。
| 測序平臺 | 測序/建庫方法 | 測序深度(x) |
|---|---|---|
| PacBio | CCS (HiFi) | 30 |
| Oxford Nanopore | Ultra-long | 120 |
| Illumina | PCR free sequencing | 100 |
| Illumina/Arima | Hi-C | 70 |
| BioNano | 光學圖譜 | - |
| - | Strand seq | - |
本篇文章主要使用的數(shù)據(jù)來源于PacBio和Nonopore平臺,其他平臺測序數(shù)據(jù)在驗證基因組完整度和準確度時使用;bionano光譜數(shù)據(jù)用來組裝X染色體(其他染色體是否使用不清楚),見文獻2。
組裝graph
使用PacBio平臺HiFi數(shù)據(jù)構(gòu)件組裝graph草圖
草圖中A為單獨染色體的grapth圖形,其中13,14,15,21,22五條染色體上因為存在大量的rDNA拷貝,出現(xiàn)重疊區(qū)域;B、C為2和9號染色體中存在的loop區(qū)域;D為無條染色體rDNA重復區(qū)連接情況。這些區(qū)域也是后續(xù)組裝中需要處理的位置。
組裝結(jié)果
著重解決目前基因組中著絲粒區(qū)、端粒區(qū)、重復區(qū)組裝效果不佳的問題,并且很大程度上填補了全基因組范圍內(nèi)的gap,各染色體信息如下(來源于NCBI數(shù)據(jù)庫)。
| Chrosome | GenBank-Accn | Length (bp) |
|---|---|---|
| 1 | CP068277.2 | 248387328 |
| 2 | CP068276.2 | 242696752 |
| 3 | CP068275.2 | 201105948 |
| 4 | CP068274.2 | 193574945 |
| 5 | CP068273.2 | 182045439 |
| 6 | CP068272.2 | 172126628 |
| 7 | CP068271.2 | 160567428 |
| 8 | CP068270.2 | 146259331 |
| 9 | CP068269.2 | 150617247 |
| 10 | CP068268.2 | 134758134 |
| 11 | CP068267.2 | 135127769 |
| 12 | CP068266.2 | 133324548 |
| 13 | CP068265.2 | 113566686 |
| 14 | CP068264.2 | 101161492 |
| 15 | CP068263.2 | 99753195 |
| 16 | CP068262.2 | 96330374 |
| 17 | CP068261.2 | 84276897 |
| 18 | CP068260.2 | 80542538 |
| 19 | CP068259.2 | 61707364 |
| 20 | CP068258.2 | 66210255 |
| 21 | CP068257.2 | 45090682 |
| 22 | CP068256.2 | 51324926 |
| X | CP068255.2 | 154259566 |
| MT | CP068254.1 | 16569 |
該組裝版本并沒有Y染色體,除MT之外,所有染色體總長3,054,815,472 bp。NCBI及UCSC均收錄該版本基因組,對應登錄號GCA_009914755.3和t2t-chm13-v1.1。
在2022年01月24日,該組織又更新了一版基因組,編號CHM13 T2T v2.0(GCA_009914755.4),在v1.1版本基礎上增加了Y染色體序列(62,460,029 bp),包括MT在內(nèi)基因組總長3,117,292,070 bp。
基因組序列對比
相比于GRCh38而言,該版本基因組對gap區(qū)域進行了填充,新增182 Mbp序列,預測獲得2226個新基因,其中115個基因可能具有編碼蛋白的功能。
A圖為與GRCh38序列比對圖(部分染色體),刻度上方第一層為序列,綠色代表GRCh38中基因分布,紅色為新發(fā)現(xiàn)的基因分布,黑色為GRCh38中g(shù)ap區(qū)域;B圖為新增序列在各染色體的分布;C圖為各版本基因組長度
基因及重復序列等對比
文獻中與GRCh38進行對比,相比而言,增加/矯正了238 Mbp的區(qū)域,包括180 Mbp的著絲粒區(qū)域、68 Mbp的片段重復以及9.9 Mbp的rDNA區(qū)域(在全基因組范圍內(nèi)共包含219個rDNA序列拷貝)。
文章中用到的所有數(shù)據(jù)、軟件、參數(shù)以及運行命令在文獻中都給了,有興趣的可以測試一下。
參考文獻
[1] bioRxiv 2021.05.26.445798; doi: https://doi.org/10.1101/2021.05.26.445798
[2] Miga KH, Koren S, Rhie A, et al. Telomere-to-telomere assembly of a complete human X chromosome. Nature. 2020;585(7823):79-84. doi:10.1038/s41586-020-2547-7