https://mp.weixin.qq.com/s/Sn0Rju-oalhd-pnI4K2MKg
導語
生信界大牛李恒、Evan E. Eichler及分子生物界大牛George M. Church等人在Nat Biotechnol 聯(lián)合發(fā)表兩篇文章,開發(fā)了新的基因組組裝方法,用來分型和組裝染色體水平的人的基因組。
第一篇來自李恒和Church團隊
單倍型解析或分型的基因組組裝可提供基因組及其復雜遺傳變異的完整圖譜。但是,當前用于分型組裝的算法要么無法生成染色體尺度的分型,要么需要譜系信息,這限制了它們的應(yīng)用。
本研究提出了一種稱為二倍體組裝(DipAsm)的方法,該方法使用HiFi數(shù)據(jù)和Hi-C數(shù)據(jù),可以在1天之內(nèi)生成染色體規(guī)模的分相組裝。DipAsm應(yīng)用于四個公共人類基因組(PGP1,HG002,NA12878和HG00733),產(chǎn)生了單倍型解析的組裝,contig N50高達25 Mb,大約90.5%的雜合位點可以分型成功,具有98-99%的準確性,在連續(xù)性和定相完整性方面均優(yōu)于其他方法。
研究者證明了染色體規(guī)模的分型組裝對于發(fā)現(xiàn)結(jié)構(gòu)變異(SV)的重要性,包括數(shù)千個新的轉(zhuǎn)座子插入,以及高度多態(tài)性和醫(yī)學上重要的區(qū)域,例如人白細胞抗原(HLA)和殺傷細胞免疫球蛋白樣受體(KIR)區(qū)域。 DipAsm將促進高質(zhì)量的精準醫(yī)學以及個體單倍型變異和種群多樣性的研究。

(1)使用Peregrine將HiFi組裝成不分相位的 contig;
(2)使用HiRise / 3D-DNA(3D從頭組裝)將contig與具有Hi-C數(shù)據(jù)的scaffold進行排序;
(3)將 HiFi 數(shù)據(jù)mapping到scaffold上,并使用DeepVariant call雜合SNP;
(4)使用 WhatsHap 和 HapCUT2 處理 HiFi 和 Hi-C 數(shù)據(jù)的雜合SNP;
(5)使用WhatsHap根據(jù)相位分區(qū)reads;
(6)使用Peregrine將分區(qū)的reds組裝為分型的contig。
第二篇來自Evan E.Eichler等團隊
Strand-seq是一種利用短reads,單細胞測序方法,可保留每個單個細胞中單個同源物的結(jié)構(gòu)連續(xù)性。這是通過使用胸苷類似物選擇性標記和去除一條DNA鏈(新生鏈,在DNA復制過程中合成)來實現(xiàn)的,該DNA鏈僅生成DNA模板鏈的定向測序文庫。
Strand-seq具有三個重要功能:
1)它可以按染色體對reads或contig進行排序;
2)它可以定序和定向contig;
3)它提供了一個染色體范圍內(nèi)的相位信號,而與物理距離無關(guān)。這些功能使Strand-seq成為理想的方法,可與長reads測序數(shù)據(jù)結(jié)合使用,以物理方式進行分型組裝二倍體基因組。
本項工作展示了如何通過利用Strand-seq的額外能力來將contig分配給染色體以對其進行分型以及如何將這種連接技術(shù)與長讀測序(連續(xù)長讀(CLR),高保真( HiFi)或ONT)。
本研究為二倍體基因組組裝提供了一個重要的參考方法,并演示了?6-Gbp基因組的親本單倍型的精確組裝。

- Garg, S., Fungtammasan, A.,Carroll, A. et al. Chromosome-scale, haplotype-resolved assembly of humangenomes. Nat Biotechnol (2020).https://doi.org/10.1038/s41587-020-0711-0
- Porubsky, D., Ebert, P.,Audano, P.A. et al. Fully phased human genome assembly withoutparental data using single-cell strand sequencing and long reads. NatBiotechnol (2020).https://doi.org/10.1038/s41587-020-0719-5