最完整的人參考基因組

最近看了一篇人基因組組裝的文章,和大家分享一下。

國際人類基因組測序協(xié)會在2001年發(fā)表了人類基因組草圖,今天這篇文獻2021年5月27由Telomere-to-Telomere (T2T)發(fā)表于bioRxiv,剛好在草圖發(fā)布20周年之后。。主要研究內(nèi)容是通過整合各種測序手段,對人類基因組進行組裝、完善,發(fā)布版本CHM13v1.1,是目前最完整的人類基因組序列。

創(chuàng)新及突破點

  1. 對22條常染色體、X染色體進行組裝,獲得無gap的染色體序列

  2. 糾正之前版本中存在的組裝錯誤、重復區(qū)錯位等問題

  3. 對5條常染色體短臂及著絲粒區(qū)域進行組裝,獲取完整序列

數(shù)據(jù)基礎

測序樣本選擇單倍型CHM13細胞系,可以有效避免兩個單倍型因雜合導致的組裝問題。

測序基本上使用了目前所有的測序手段,包括以下幾種。

測序平臺 測序/建庫方法 測序深度(x)
PacBio CCS (HiFi) 30
Oxford Nanopore Ultra-long 120
Illumina PCR free sequencing 100
Illumina/Arima Hi-C 70
BioNano 光學圖譜 -
- Strand seq -

本篇文章主要使用的數(shù)據(jù)來源于PacBio和Nonopore平臺,其他平臺測序數(shù)據(jù)在驗證基因組完整度和準確度時使用;bionano光譜數(shù)據(jù)用來組裝X染色體(其他染色體是否使用不清楚),見文獻2。

組裝graph

使用PacBio平臺HiFi數(shù)據(jù)構(gòu)件組裝graph草圖

HiFi-based-graph (文獻1)

草圖中A為單獨染色體的grapth圖形,其中13,14,15,21,22五條染色體上因為存在大量的rDNA拷貝,出現(xiàn)重疊區(qū)域;B、C為2和9號染色體中存在的loop區(qū)域;D為無條染色體rDNA重復區(qū)連接情況。這些區(qū)域也是后續(xù)組裝中需要處理的位置。

組裝結(jié)果

著重解決目前基因組中著絲粒區(qū)、端粒區(qū)、重復區(qū)組裝效果不佳的問題,并且很大程度上填補了全基因組范圍內(nèi)的gap,各染色體信息如下(來源于NCBI數(shù)據(jù)庫)。

Chrosome GenBank-Accn Length (bp)
1 CP068277.2 248387328
2 CP068276.2 242696752
3 CP068275.2 201105948
4 CP068274.2 193574945
5 CP068273.2 182045439
6 CP068272.2 172126628
7 CP068271.2 160567428
8 CP068270.2 146259331
9 CP068269.2 150617247
10 CP068268.2 134758134
11 CP068267.2 135127769
12 CP068266.2 133324548
13 CP068265.2 113566686
14 CP068264.2 101161492
15 CP068263.2 99753195
16 CP068262.2 96330374
17 CP068261.2 84276897
18 CP068260.2 80542538
19 CP068259.2 61707364
20 CP068258.2 66210255
21 CP068257.2 45090682
22 CP068256.2 51324926
X CP068255.2 154259566
MT CP068254.1 16569

該組裝版本并沒有Y染色體,除MT之外,所有染色體總長3,054,815,472 bp。NCBI及UCSC均收錄該版本基因組,對應登錄號GCA_009914755.3和t2t-chm13-v1.1。

在2022年01月24日,該組織又更新了一版基因組,編號CHM13 T2T v2.0(GCA_009914755.4),在v1.1版本基礎上增加了Y染色體序列(62,460,029 bp),包括MT在內(nèi)基因組總長3,117,292,070 bp。

基因組序列對比

相比于GRCh38而言,該版本基因組對gap區(qū)域進行了填充,新增182 Mbp序列,預測獲得2226個新基因,其中115個基因可能具有編碼蛋白的功能。

gene_seq (文獻1)

A圖為與GRCh38序列比對圖(部分染色體),刻度上方第一層為序列,綠色代表GRCh38中基因分布,紅色為新發(fā)現(xiàn)的基因分布,黑色為GRCh38中g(shù)ap區(qū)域;B圖為新增序列在各染色體的分布;C圖為各版本基因組長度

基因及重復序列等對比

文獻中與GRCh38進行對比,相比而言,增加/矯正了238 Mbp的區(qū)域,包括180 Mbp的著絲粒區(qū)域、68 Mbp的片段重復以及9.9 Mbp的rDNA區(qū)域(在全基因組范圍內(nèi)共包含219個rDNA序列拷貝)。

seq&gene (文獻1)

文章中用到的所有數(shù)據(jù)、軟件、參數(shù)以及運行命令在文獻中都給了,有興趣的可以測試一下。

參考文獻

[1] bioRxiv 2021.05.26.445798; doi: https://doi.org/10.1101/2021.05.26.445798

[2] Miga KH, Koren S, Rhie A, et al. Telomere-to-telomere assembly of a complete human X chromosome. Nature. 2020;585(7823):79-84. doi:10.1038/s41586-020-2547-7

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容