Hi-C輔助基因組組裝原理|主流軟件

導(dǎo)語

  • Hi-C是高通量染色體構(gòu)象捕獲(High-throughput Chromosome Conformation Capture, Hi-C)技術(shù)的簡稱,開發(fā)于2009年,最初用于捕獲全基因組范圍內(nèi)所有的染色質(zhì)內(nèi)和染色質(zhì)間的空間互作信息,目前已應(yīng)用于基因表達(dá)的空間調(diào)控機(jī)制研究、構(gòu)建染色體水平參考基因組、構(gòu)建單體型圖譜等。

  • Hi-C技術(shù)源于染色體構(gòu)象捕獲(Chromosome Conformation Capture, 3C)技術(shù),利用高通量測序技術(shù),結(jié)合生物信息分析方法,研究全基因組范圍內(nèi)整個(gè)染色質(zhì)DNA在空間位置上的關(guān)系,獲得高分辨率的染色質(zhì)三維結(jié)構(gòu)信息。Hi-C技術(shù)不僅可以研究染色體片段之間的相互作用,建立基因組折疊模型,還可以應(yīng)用于基因組組裝、單體型圖譜構(gòu)建、輔助宏基因組組裝等,并可以與RNA-Seq、ChIP-Seq等數(shù)據(jù)進(jìn)行聯(lián)合分析,從基因調(diào)控網(wǎng)絡(luò)和表觀遺傳網(wǎng)絡(luò)來闡述生物體性狀形成的相關(guān)機(jī)制。

3C,4C,5C以及HiC測序技術(shù)

3C,4C,5C

3C

染色質(zhì)構(gòu)象捕獲(3C)技術(shù)是用福爾馬林瞬時(shí)固定細(xì)胞核染色質(zhì),用過量的限制性內(nèi)切酶酶切消化染色質(zhì) - 蛋白質(zhì)交聯(lián)物,在 DNA 濃度極低而連接酶濃度極高的條件下用連接酶連接消化物,蛋白酶 K 消化交聯(lián)物以釋放出結(jié)合的蛋白質(zhì),用推測可能有互作的目的片段的引物進(jìn)行普通PCR和定量PCR來確定是否存在相互作用。3C 技術(shù)假定物理上互作的 DNA 片段連接頻率最高,以基因座特異性 PCR 來檢測基因組中 DNA 片段之間的物理接觸,最終以 PCR 產(chǎn)物的豐度來確定是否存在相互作用。

3C,可以驗(yàn)證1個(gè)點(diǎn)與1個(gè)點(diǎn)的相互作用,每1對相互作用需要1對引物

4C

4C 技術(shù)稱環(huán)狀染色質(zhì)構(gòu)象捕獲 (circular chromosome conformation capture) 或芯片染色質(zhì)構(gòu)象捕獲(chromosome conformation capture-on-chip),特點(diǎn)就是對于酶切下來的片段進(jìn)行環(huán)化,然后用反向PCR從已知區(qū)域開始擴(kuò)增出環(huán)狀的部分。然后用芯片進(jìn)行序列分析。此時(shí)做PCR,我們不需要知道序列兩端的信息,只需要知道一段的信息。

4C技術(shù),可以驗(yàn)證1個(gè)點(diǎn)與多個(gè)點(diǎn)的相互作用,因?yàn)楦鶕?jù)這1個(gè)點(diǎn)設(shè)計(jì),關(guān)鍵步驟是成環(huán)。

5C

若研究幾百個(gè)染色質(zhì)片段之間可能存在的相互作用,使用3C技術(shù)需要設(shè)計(jì)大量PCR引物來確定已知片段與假定片段的關(guān)系,通量較低,較難實(shí)現(xiàn)。因此,人們設(shè)計(jì)出3C碳拷貝(3C-carbon copy,5C)技術(shù),這個(gè)技術(shù)是基于3C的基本原理,結(jié)合連接介導(dǎo)的擴(kuò)增 (ligation-mediated amplification,LMA)來增加3C檢測的通量。以3C酶切連接文庫為模板 ,在3C引物端加上通用接頭(例如T7、T3),例如在正向引物(bait)的5’端加上T7接頭,在反向引物的3’端加上T3接頭,若兩個(gè)推測片段存在相互連接,由于連接酶介導(dǎo)的連接作用的性質(zhì),只有連接上的片段才有擴(kuò)增。 這樣,利用通用引物T7、T3進(jìn)行PCR,而后將產(chǎn)物進(jìn)行高通量測序即可實(shí)現(xiàn)高通量的3C實(shí)驗(yàn)。

HiC

是在3C的基礎(chǔ)上,在酶切后將缺口進(jìn)行補(bǔ)平(dCTP 進(jìn)行生物素標(biāo)記),然后用連接酶進(jìn)行連接,將樣本進(jìn)行超聲破碎,隨后用生物素親和層析將片段沉淀(也就是抓下來帶有生物素標(biāo)記的片段),加上接頭進(jìn)行深度測序。

Hi-C,獲得all-to-all的互作關(guān)系

  • 具體如下圖介紹:


    cuCfF1.png

Hi-C輔助組裝實(shí)驗(yàn)流程

利用甲醛對樣本進(jìn)行交聯(lián),質(zhì)檢合格后使用限制性內(nèi)切酶(如MboI等)進(jìn)行酶切,酶切片段經(jīng)生物素標(biāo)記、平末端連接、DNA純化提取,超聲打斷后釣取含有生物素的片段,進(jìn)行建庫測序。

隨后,對原始下機(jī)數(shù)據(jù)進(jìn)行質(zhì)控,并將質(zhì)控截取后的Clean reads與參考基因組比對,獲得用于互作分析的Valid reads。由于Hi-C文庫的構(gòu)建具有一定的復(fù)雜性,在實(shí)際的項(xiàng)目執(zhí)行過程中,會(huì)先通過對小規(guī)模的測序數(shù)據(jù)進(jìn)行評估,以檢測所構(gòu)建文庫的質(zhì)量。小數(shù)據(jù)評估合格后,啟動(dòng)大數(shù)據(jù)的上機(jī)測序,以保證測序數(shù)據(jù)的質(zhì)量。

Hi-C技術(shù)的大致流程

  1. 通過甲醛交聯(lián)固定,將細(xì)胞內(nèi)由蛋白質(zhì)介導(dǎo)的空間上鄰近的染色質(zhì)片段進(jìn)行共價(jià)連接。

  2. 限制性內(nèi)切酶進(jìn)行酶切

  3. 使用生物素標(biāo)記末端標(biāo)記

  4. 將連接的DNA純化后超聲打斷,并用生物素親和層析,將生物素化的DNA片段分離,加上接頭進(jìn)行高通量測序

Hi-C技術(shù)的大致流程

Hi-C互作三大規(guī)律

1.染色體內(nèi)互作富集
2.互作隨距離衰減
3.局部互作平滑
可以通過以上三個(gè)規(guī)律來判斷組裝的好壞

Hi-C互作三大規(guī)律

Hi-C建庫測序流程

Hi-C建庫測序流程
  1. DNA樣品檢測
    (1) 瓊脂糖凝膠電泳分析DNA降解程度以及是否有污染
    (2) Nanodrop檢測DNA的純度(OD260/280比值)
    (3) Qubit對DNA濃度進(jìn)行精確定量

  2. 文庫構(gòu)建
    檢測合格的DNA樣品通過Covaris超聲波破碎儀隨機(jī)打斷,經(jīng)末端修復(fù)、加A尾、加測序接頭、純化、PCR擴(kuò)增等步驟完成整個(gè)文庫制備。文庫構(gòu)建原理圖如下:

  3. 庫檢
    (1) Agilent 2100檢測文庫DNA片段的完整性及插入片段大小。
    (2) QPCR及QPCR檢測文庫有效濃度。
    檢測合格后進(jìn)行下一步上機(jī)測序。

  4. 上機(jī)測序
    庫檢合格后,把不同文庫按照有效濃度及目標(biāo)下機(jī)數(shù)據(jù)量的需求pooling后進(jìn)行Illumina測序。

Hi-C組裝軟件

在組裝基因組時(shí),使用二代或三代數(shù)據(jù)組裝到contigs后,下一步就是將contig提升到染色體水平。利用HiC數(shù)據(jù)目前常見的組裝軟件有下面幾個(gè):

HiRise: 2015年后的GitHub就不再更新
LACHESIS: 發(fā)表在NBT,2017年后不再更新
SALSA: 發(fā)表在BMC genomics, 仍在更新中
3D-DNA: 發(fā)表在science,仍在更新中
ALLHiC: 發(fā)表在Nature Plants, 用于解決植物多倍體組裝問題
HiC-Pro:發(fā)表在FGenome Biology

LACHESIS

LACHESIS的工作分為三個(gè)步驟:
第一步,將contigs或支架聚集到染色體組;
第二步,在每個(gè)染色體組內(nèi)排列contigs或支架;
最后,分配相對位置

LACHESIS
  1. 輸入包括一組來自草稿裝配的contigs (or scaffolds) 和一組全基因組染色質(zhì)相互作用數(shù)據(jù),例如Hi-C links。

  2. 與不同染色體上的contigs相比,同一染色體上的contigs之間往往有更多的Hi-C links。LACHESIS利用這一點(diǎn)將contigs聚集成與個(gè)體染色體基本一致的群體。

  3. 在一條染色體內(nèi),近在咫尺的contigs往往比相距遙遠(yuǎn)的contigs有更多的聯(lián)系。LACHESIS利用這一點(diǎn)來排列每個(gè)染色體組內(nèi)的contigs。

  4. 最后,LACHESIS利用相鄰contigs之間連接的精確位置來預(yù)測每個(gè)contigs的相對方向。

LACHESIS的輸入包括一組contigs or scaffolds以及一組全基因組染色質(zhì)相互作用數(shù)據(jù)集
在第一步中,LACHESIS利用Hi-C數(shù)據(jù)集中染色體內(nèi)接觸平均比染色體間接觸更可能的事實(shí),利用層次聚集聚類對可能來自同一染色體的contigs進(jìn)行分組。該聚類使用平均連鎖度量,連鎖定義為連接任何給定一對重疊的Hi-C讀對的標(biāo)準(zhǔn)化密度。groups的最終數(shù)目是預(yù)先指定的,理想情況下設(shè)置為預(yù)期的染色體數(shù)目。

在第二步中,LACHESIS利用較高的Hi-C links,在每個(gè)染色體組內(nèi)線性排列重疊序列。對于每個(gè)染色體組,用表示重疊的頂點(diǎn)和對應(yīng)于重疊對之間偶合對之間的標(biāo)準(zhǔn)化Hi-C連鎖密度構(gòu)建一個(gè)圖。

在第三步中,通過精確地計(jì)算Hi-C在每個(gè)contigs上的位置,確定contigs的方向。
For each chromosome group, a weighted, directed, acyclic graph is built representing all possible ways to orient the contigs, given the predicted order.

HiC-Pro

HiC-Pro是一款高效的Hi-C數(shù)據(jù)分析軟件,提供了從原始數(shù)據(jù)到歸一化之后的HI-C圖譜構(gòu)建的完整功能,運(yùn)行效率高,用法簡便。
完整的pipeline如下圖所示:

HiC-Pro

與HiCUP一樣,HiCPro也是將中R1與R2分開比對,再合并過濾酶切片段,獲取valid pairs 紅色方框標(biāo)記的是數(shù)據(jù)預(yù)處理部分,包括序列比對和篩選valid pairs;預(yù)處理之后就是binning, 構(gòu)建不同分辨率下的原始的交互矩陣contact map, 最后對原始的contact map進(jìn)行歸一化處理,得到校正后的contact map。

其具體上機(jī)使用方法可以參考鏈接

序列比對

對首先使用end-to-end algorithm將R1和R2分別與基因組進(jìn)行比對。對于Unmapped Reads可能是存在連接點(diǎn)的嵌合體reads, 也可能本身就是unmapping reads,在第一步中沒有對齊的reads在連接位點(diǎn)被修剪,它們的5′端在基因組上被重新對齊。在這兩個(gè)步驟之后的所有對齊讀數(shù)都用于進(jìn)一步分析。如A圖所示

篩選Valid pairs

比對時(shí)將R1和R2端分開單獨(dú)考慮,但是二者其實(shí)來自于同一個(gè)fragment, 這一步的篩選其實(shí)是能夠代表染色質(zhì)交互的有效fragment,這樣的fragment肯定是一個(gè)嵌合體序列,有來自交互作用的兩個(gè)染色質(zhì)區(qū)域的序列構(gòu)成,只有來自嵌合體fragment的reads才被定義為valid pairs, 然后進(jìn)行后續(xù)分析。如B圖所示

HiC-Pro2

構(gòu)建原始Hi-C圖譜

根據(jù)指定的分辨率,統(tǒng)計(jì)兩個(gè)bin區(qū)域內(nèi)valid pairs的數(shù)目, 去除PCR重復(fù)之后,構(gòu)建原始的交互矩陣。

歸一化

不同區(qū)域GC含量,mapping概率等系統(tǒng)誤差都使得原始的交互矩陣不能夠有效代表染色質(zhì)交互信息, 所以需要進(jìn)行歸一化。采用了一種迭代校正的歸一化算法對原始的交互矩陣進(jìn)行歸一化,矯正系統(tǒng)誤差。

ALLHiC

ALLHiC一共分為五步:pruning, partition, rescue, optimization, building

  1. prune 步驟去除了等位基因之間的聯(lián)系,因此同源染色體更易于單獨(dú)分離。

  2. partition 功能將修剪的bam文件作為輸入,并根據(jù)Hi-C建議的鏈接對鏈接的contigs進(jìn)行聚類,大概是沿著相同同源染色體在預(yù)設(shè)數(shù)量的分區(qū)中進(jìn)行。

  3. rescue 功能從原始未修剪的bam文件中搜索分區(qū)步驟中不涉及的contigs,并根據(jù)Hi-C信號(hào)密度將它們分配給特定的群集。

  4. optimize 步驟采用每個(gè)分區(qū),并優(yōu)化所有contigs的順序和方向。

  5. build 步驟通過連接contigs來重建每個(gè)染色體

如下圖所示:

ALLHiC

]

Explanation of Prune

  1. 同源四倍體基因組的示意圖。四個(gè)同源染色體顯示為不同的顏色(分別為<font color=#0000FF >藍(lán)色</font>,<font color=#FF8C00 >橙色</font>,<font color=#008000 >綠色</font>和<font color=#9400D3 >紫色</font>)。染色體中的<font color=#FF0000 >紅色</font>區(qū)域表示具有高度相似性的序列。

  2. 檢測自身四倍體基因組中的Hi-C信號(hào)。黑色虛線表示折疊區(qū)域和未折疊區(qū)域contigs之間的Hi-C信號(hào)。<font color=#FF69B4 >粉色</font>虛線表示單體型Hi-C鏈接,<font color=#808080 >灰色</font>虛線表示單體型Hi-C鏈接。在組裝過程中,<font color=#FF0000 >紅色</font>區(qū)域會(huì)因高度的序列相似性而崩潰;同時(shí),如果其他區(qū)域之間存在大量差異,則會(huì)將它們分為不同的contigs。由于塌陷區(qū)域與來自不同單倍型的contigs在物理上相關(guān),因此將在塌陷區(qū)域與所有其他未塌陷的contigs之間檢測到Hi-C信號(hào)。

  3. 傳統(tǒng)的Hi-C腳手架方法將檢測來自不同單倍型和折疊區(qū)域的contigs中的信號(hào),并將所有序列聚在一起。

  4. 修剪Hi-C信號(hào):1-去除等位基因區(qū)域之間的信號(hào);2-僅在折疊區(qū)域和未折疊contigs之間保留最強(qiáng)的信號(hào)。

  5. 基于修剪的Hi-C信息進(jìn)行分區(qū)。理想情況下,根據(jù)修剪結(jié)果將contigs分為不同的組。

Prune

參考文獻(xiàn)

[1] Burton, J., Adey, A., Patwardhan, R. et al. Chromosome-scale scaffolding of de novo genome assemblies based on chromatin interactions. Nat Biotechnol 31, 1119–1125 (2013).

[2] Servant N, Varoquaux N, Lajoie B R, et al. HiC-Pro: an optimized and flexible pipeline for Hi-C data processing[J]. Genome biology, 2015, 16(1): 1-11.

[3] Lieberman-Aiden E, Van Berkum N L, Williams L, et al. Comprehensive mapping of long-range interactions reveals folding principles of the human genome[J]. science, 2009, 326(5950): 289-293.

[4] Ghurye J, Rhie A, Walenz B P, et al. Integrating Hi-C links with assembly graphs for chromosome-scale assembly[J]. PLoS computational biology, 2019, 15(8): e1007273.

[5] Dudchenko O, Batra S S, Omer A D, et al. De novo assembly of the Aedes aegypti genome using Hi-C yields chromosome-length scaffolds[J]. Science, 2017, 356(6333): 92-95.

[6] Zhang X, Zhang S, Zhao Q, et al. Assembly of allele-aware, chromosomal-scale autopolyploid genomes based on Hi-C data[J]. Nature plants, 2019, 5(8): 833-845.

[7] Durand N C, Shamim M S, Machol I, et al. Juicer provides a one-click system for analyzing loop-resolution Hi-C experiments[J]. Cell systems, 2016, 3(1): 95-98.

[8] Wu S, Turner K M, Nguyen N, et al. Circular ecDNA promotes accessible chromatin and high oncogene expression[J]. Nature, 2019, 575(7784): 699-703.

[9] Oddes S, Zelig A, Kaplan N. Three invariant Hi-C interaction patterns: applications to genome assembly[J]. Methods, 2018, 142: 89-99.

[10] Zhang, J. Zhang, X. Tang, H. Zhang, Q. et al. Allele-defined genome of the autopolyploid sugarcane Saccharum spontaneum L. Nature Genetics, doi:10.1038/s41588-018-0237-2 (2018).

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容