導(dǎo)語

Hi-C是高通量染色體構(gòu)象捕獲（High-throughput Chromosome Conformation Capture, Hi-C）技術(shù)的簡稱，開發(fā)于2009年，最初用于捕獲全基因組范圍內(nèi)所有的染色質(zhì)內(nèi)和染色質(zhì)間的空間互作信息，目前已應(yīng)用于基因表達(dá)的空間調(diào)控機(jī)制研究、構(gòu)建染色體水平參考基因組、構(gòu)建單體型圖譜等。
Hi-C技術(shù)源于染色體構(gòu)象捕獲（Chromosome Conformation Capture, 3C）技術(shù)，利用高通量測序技術(shù)，結(jié)合生物信息分析方法，研究全基因組范圍內(nèi)整個(gè)染色質(zhì)DNA在空間位置上的關(guān)系，獲得高分辨率的染色質(zhì)三維結(jié)構(gòu)信息。Hi-C技術(shù)不僅可以研究染色體片段之間的相互作用，建立基因組折疊模型，還可以應(yīng)用于基因組組裝、單體型圖譜構(gòu)建、輔助宏基因組組裝等，并可以與RNA-Seq、ChIP-Seq等數(shù)據(jù)進(jìn)行聯(lián)合分析，從基因調(diào)控網(wǎng)絡(luò)和表觀遺傳網(wǎng)絡(luò)來闡述生物體性狀形成的相關(guān)機(jī)制。

3C，4C，5C以及HiC測序技術(shù)

3C，4C，5C

3C

染色質(zhì)構(gòu)象捕獲（3C）技術(shù)是用福爾馬林瞬時(shí)固定細(xì)胞核染色質(zhì)，用過量的限制性內(nèi)切酶酶切消化染色質(zhì) - 蛋白質(zhì)交聯(lián)物，在 DNA 濃度極低而連接酶濃度極高的條件下用連接酶連接消化物，蛋白酶 K 消化交聯(lián)物以釋放出結(jié)合的蛋白質(zhì)，用推測可能有互作的目的片段的引物進(jìn)行普通PCR和定量PCR來確定是否存在相互作用。3C 技術(shù)假定物理上互作的 DNA 片段連接頻率最高，以基因座特異性 PCR 來檢測基因組中 DNA 片段之間的物理接觸，最終以 PCR 產(chǎn)物的豐度來確定是否存在相互作用。

3C，可以驗(yàn)證1個(gè)點(diǎn)與1個(gè)點(diǎn)的相互作用，每1對相互作用需要1對引物

4C

4C 技術(shù)稱環(huán)狀染色質(zhì)構(gòu)象捕獲（circular chromosome conformation capture）或芯片染色質(zhì)構(gòu)象捕獲（chromosome conformation capture-on-chip），特點(diǎn)就是對于酶切下來的片段進(jìn)行環(huán)化，然后用反向PCR從已知區(qū)域開始擴(kuò)增出環(huán)狀的部分。然后用芯片進(jìn)行序列分析。此時(shí)做PCR，我們不需要知道序列兩端的信息，只需要知道一段的信息。

4C技術(shù)，可以驗(yàn)證1個(gè)點(diǎn)與多個(gè)點(diǎn)的相互作用，因?yàn)楦鶕?jù)這1個(gè)點(diǎn)設(shè)計(jì)，關(guān)鍵步驟是成環(huán)。

5C

若研究幾百個(gè)染色質(zhì)片段之間可能存在的相互作用，使用3C技術(shù)需要設(shè)計(jì)大量PCR引物來確定已知片段與假定片段的關(guān)系，通量較低，較難實(shí)現(xiàn)。因此，人們設(shè)計(jì)出3C碳拷貝（3C-carbon copy，5C）技術(shù)，這個(gè)技術(shù)是基于3C的基本原理，結(jié)合連接介導(dǎo)的擴(kuò)增（ligation-mediated amplification，LMA）來增加3C檢測的通量。以3C酶切連接文庫為模板，在3C引物端加上通用接頭（例如T7、T3），例如在正向引物（bait）的5’端加上T7接頭，在反向引物的3’端加上T3接頭，若兩個(gè)推測片段存在相互連接，由于連接酶介導(dǎo)的連接作用的性質(zhì)，只有連接上的片段才有擴(kuò)增。這樣，利用通用引物T7、T3進(jìn)行PCR，而后將產(chǎn)物進(jìn)行高通量測序即可實(shí)現(xiàn)高通量的3C實(shí)驗(yàn)。

HiC

是在3C的基礎(chǔ)上，在酶切后將缺口進(jìn)行補(bǔ)平（dCTP 進(jìn)行生物素標(biāo)記），然后用連接酶進(jìn)行連接，將樣本進(jìn)行超聲破碎，隨后用生物素親和層析將片段沉淀（也就是抓下來帶有生物素標(biāo)記的片段），加上接頭進(jìn)行深度測序。

Hi-C，獲得all-to-all的互作關(guān)系

具體如下圖介紹：

cuCfF1.png

Hi-C輔助組裝實(shí)驗(yàn)流程

利用甲醛對樣本進(jìn)行交聯(lián)，質(zhì)檢合格后使用限制性內(nèi)切酶（如MboI等）進(jìn)行酶切，酶切片段經(jīng)生物素標(biāo)記、平末端連接、DNA純化提取，超聲打斷后釣取含有生物素的片段，進(jìn)行建庫測序。

隨后，對原始下機(jī)數(shù)據(jù)進(jìn)行質(zhì)控，并將質(zhì)控截取后的Clean reads與參考基因組比對，獲得用于互作分析的Valid reads。由于Hi-C文庫的構(gòu)建具有一定的復(fù)雜性，在實(shí)際的項(xiàng)目執(zhí)行過程中，會(huì)先通過對小規(guī)模的測序數(shù)據(jù)進(jìn)行評估，以檢測所構(gòu)建文庫的質(zhì)量。小數(shù)據(jù)評估合格后，啟動(dòng)大數(shù)據(jù)的上機(jī)測序，以保證測序數(shù)據(jù)的質(zhì)量。

Hi-C技術(shù)的大致流程

通過甲醛交聯(lián)固定，將細(xì)胞內(nèi)由蛋白質(zhì)介導(dǎo)的空間上鄰近的染色質(zhì)片段進(jìn)行共價(jià)連接。
限制性內(nèi)切酶進(jìn)行酶切
使用生物素標(biāo)記末端標(biāo)記
將連接的DNA純化后超聲打斷，并用生物素親和層析，將生物素化的DNA片段分離，加上接頭進(jìn)行高通量測序

Hi-C技術(shù)的大致流程

Hi-C互作三大規(guī)律

1.染色體內(nèi)互作富集
2.互作隨距離衰減
3.局部互作平滑
可以通過以上三個(gè)規(guī)律來判斷組裝的好壞

Hi-C互作三大規(guī)律

Hi-C建庫測序流程

DNA樣品檢測
(1) 瓊脂糖凝膠電泳分析DNA降解程度以及是否有污染
(2) Nanodrop檢測DNA的純度（OD260/280比值）
(3) Qubit對DNA濃度進(jìn)行精確定量
文庫構(gòu)建
檢測合格的DNA樣品通過Covaris超聲波破碎儀隨機(jī)打斷，經(jīng)末端修復(fù)、加A尾、加測序接頭、純化、PCR擴(kuò)增等步驟完成整個(gè)文庫制備。文庫構(gòu)建原理圖如下:
庫檢
(1) Agilent 2100檢測文庫DNA片段的完整性及插入片段大小。
(2) QPCR及QPCR檢測文庫有效濃度。
檢測合格后進(jìn)行下一步上機(jī)測序。
上機(jī)測序
庫檢合格后，把不同文庫按照有效濃度及目標(biāo)下機(jī)數(shù)據(jù)量的需求pooling后進(jìn)行Illumina測序。

Hi-C組裝軟件

在組裝基因組時(shí)，使用二代或三代數(shù)據(jù)組裝到contigs后，下一步就是將contig提升到染色體水平。利用HiC數(shù)據(jù)目前常見的組裝軟件有下面幾個(gè)：

HiRise: 2015年后的GitHub就不再更新
LACHESIS: 發(fā)表在NBT，2017年后不再更新
SALSA: 發(fā)表在BMC genomics, 仍在更新中
3D-DNA: 發(fā)表在science，仍在更新中
ALLHiC: 發(fā)表在Nature Plants, 用于解決植物多倍體組裝問題
HiC-Pro：發(fā)表在FGenome Biology

LACHESIS

LACHESIS的工作分為三個(gè)步驟：
第一步，將contigs或支架聚集到染色體組；
第二步，在每個(gè)染色體組內(nèi)排列contigs或支架；
最后，分配相對位置

LACHESIS

輸入包括一組來自草稿裝配的contigs (or scaffolds) 和一組全基因組染色質(zhì)相互作用數(shù)據(jù)，例如Hi-C links。
與不同染色體上的contigs相比，同一染色體上的contigs之間往往有更多的Hi-C links。LACHESIS利用這一點(diǎn)將contigs聚集成與個(gè)體染色體基本一致的群體。
在一條染色體內(nèi)，近在咫尺的contigs往往比相距遙遠(yuǎn)的contigs有更多的聯(lián)系。LACHESIS利用這一點(diǎn)來排列每個(gè)染色體組內(nèi)的contigs。
最后，LACHESIS利用相鄰contigs之間連接的精確位置來預(yù)測每個(gè)contigs的相對方向。

LACHESIS的輸入包括一組contigs or scaffolds以及一組全基因組染色質(zhì)相互作用數(shù)據(jù)集
在第一步中，LACHESIS利用Hi-C數(shù)據(jù)集中染色體內(nèi)接觸平均比染色體間接觸更可能的事實(shí)，利用層次聚集聚類對可能來自同一染色體的contigs進(jìn)行分組。該聚類使用平均連鎖度量，連鎖定義為連接任何給定一對重疊的Hi-C讀對的標(biāo)準(zhǔn)化密度。groups的最終數(shù)目是預(yù)先指定的，理想情況下設(shè)置為預(yù)期的染色體數(shù)目。

在第二步中，LACHESIS利用較高的Hi-C links，在每個(gè)染色體組內(nèi)線性排列重疊序列。對于每個(gè)染色體組，用表示重疊的頂點(diǎn)和對應(yīng)于重疊對之間偶合對之間的標(biāo)準(zhǔn)化Hi-C連鎖密度構(gòu)建一個(gè)圖。

在第三步中，通過精確地計(jì)算Hi-C在每個(gè)contigs上的位置，確定contigs的方向。
For each chromosome group, a weighted, directed, acyclic graph is built representing all possible ways to orient the contigs, given the predicted order.

HiC-Pro

HiC-Pro是一款高效的Hi-C數(shù)據(jù)分析軟件，提供了從原始數(shù)據(jù)到歸一化之后的HI-C圖譜構(gòu)建的完整功能，運(yùn)行效率高，用法簡便。
完整的pipeline如下圖所示：

HiC-Pro

與HiCUP一樣，HiCPro也是將中R1與R2分開比對，再合并過濾酶切片段，獲取valid pairs 紅色方框標(biāo)記的是數(shù)據(jù)預(yù)處理部分，包括序列比對和篩選valid pairs；預(yù)處理之后就是binning, 構(gòu)建不同分辨率下的原始的交互矩陣contact map, 最后對原始的contact map進(jìn)行歸一化處理，得到校正后的contact map。

其具體上機(jī)使用方法可以參考鏈接

序列比對

對首先使用end-to-end algorithm將R1和R2分別與基因組進(jìn)行比對。對于Unmapped Reads可能是存在連接點(diǎn)的嵌合體reads, 也可能本身就是unmapping reads,在第一步中沒有對齊的reads在連接位點(diǎn)被修剪，它們的5′端在基因組上被重新對齊。在這兩個(gè)步驟之后的所有對齊讀數(shù)都用于進(jìn)一步分析。如A圖所示

篩選Valid pairs

比對時(shí)將R1和R2端分開單獨(dú)考慮，但是二者其實(shí)來自于同一個(gè)fragment, 這一步的篩選其實(shí)是能夠代表染色質(zhì)交互的有效fragment，這樣的fragment肯定是一個(gè)嵌合體序列，有來自交互作用的兩個(gè)染色質(zhì)區(qū)域的序列構(gòu)成，只有來自嵌合體fragment的reads才被定義為valid pairs, 然后進(jìn)行后續(xù)分析。如B圖所示

HiC-Pro2

構(gòu)建原始Hi-C圖譜

根據(jù)指定的分辨率，統(tǒng)計(jì)兩個(gè)bin區(qū)域內(nèi)valid pairs的數(shù)目, 去除PCR重復(fù)之后，構(gòu)建原始的交互矩陣。

歸一化

不同區(qū)域GC含量，mapping概率等系統(tǒng)誤差都使得原始的交互矩陣不能夠有效代表染色質(zhì)交互信息，所以需要進(jìn)行歸一化。采用了一種迭代校正的歸一化算法對原始的交互矩陣進(jìn)行歸一化，矯正系統(tǒng)誤差。

ALLHiC

ALLHiC一共分為五步:pruning, partition, rescue, optimization, building

prune 步驟去除了等位基因之間的聯(lián)系，因此同源染色體更易于單獨(dú)分離。
partition 功能將修剪的bam文件作為輸入，并根據(jù)Hi-C建議的鏈接對鏈接的contigs進(jìn)行聚類，大概是沿著相同同源染色體在預(yù)設(shè)數(shù)量的分區(qū)中進(jìn)行。
rescue 功能從原始未修剪的bam文件中搜索分區(qū)步驟中不涉及的contigs，并根據(jù)Hi-C信號(hào)密度將它們分配給特定的群集。
optimize 步驟采用每個(gè)分區(qū)，并優(yōu)化所有contigs的順序和方向。
build 步驟通過連接contigs來重建每個(gè)染色體

如下圖所示：

ALLHiC

]

Explanation of Prune

同源四倍體基因組的示意圖。四個(gè)同源染色體顯示為不同的顏色（分別為藍(lán)色，橙色，綠色和紫色）。染色體中的紅色區(qū)域表示具有高度相似性的序列。
檢測自身四倍體基因組中的Hi-C信號(hào)。黑色虛線表示折疊區(qū)域和未折疊區(qū)域contigs之間的Hi-C信號(hào)。粉色虛線表示單體型Hi-C鏈接，灰色虛線表示單體型Hi-C鏈接。在組裝過程中，紅色區(qū)域會(huì)因高度的序列相似性而崩潰；同時(shí)，如果其他區(qū)域之間存在大量差異，則會(huì)將它們分為不同的contigs。由于塌陷區(qū)域與來自不同單倍型的contigs在物理上相關(guān)，因此將在塌陷區(qū)域與所有其他未塌陷的contigs之間檢測到Hi-C信號(hào)。
傳統(tǒng)的Hi-C腳手架方法將檢測來自不同單倍型和折疊區(qū)域的contigs中的信號(hào)，并將所有序列聚在一起。
修剪Hi-C信號(hào)：1-去除等位基因區(qū)域之間的信號(hào)；2-僅在折疊區(qū)域和未折疊contigs之間保留最強(qiáng)的信號(hào)。
基于修剪的Hi-C信息進(jìn)行分區(qū)。理想情況下，根據(jù)修剪結(jié)果將contigs分為不同的組。

Prune

參考文獻(xiàn)

[1] Burton, J., Adey, A., Patwardhan, R. et al. Chromosome-scale scaffolding of de novo genome assemblies based on chromatin interactions. Nat Biotechnol 31, 1119–1125 (2013).

[2] Servant N, Varoquaux N, Lajoie B R, et al. HiC-Pro: an optimized and flexible pipeline for Hi-C data processing[J]. Genome biology, 2015, 16(1): 1-11.

[3] Lieberman-Aiden E, Van Berkum N L, Williams L, et al. Comprehensive mapping of long-range interactions reveals folding principles of the human genome[J]. science, 2009, 326(5950): 289-293.

[4] Ghurye J, Rhie A, Walenz B P, et al. Integrating Hi-C links with assembly graphs for chromosome-scale assembly[J]. PLoS computational biology, 2019, 15(8): e1007273.

[5] Dudchenko O, Batra S S, Omer A D, et al. De novo assembly of the Aedes aegypti genome using Hi-C yields chromosome-length scaffolds[J]. Science, 2017, 356(6333): 92-95.

[6] Zhang X, Zhang S, Zhao Q, et al. Assembly of allele-aware, chromosomal-scale autopolyploid genomes based on Hi-C data[J]. Nature plants, 2019, 5(8): 833-845.

[7] Durand N C, Shamim M S, Machol I, et al. Juicer provides a one-click system for analyzing loop-resolution Hi-C experiments[J]. Cell systems, 2016, 3(1): 95-98.

[8] Wu S, Turner K M, Nguyen N, et al. Circular ecDNA promotes accessible chromatin and high oncogene expression[J]. Nature, 2019, 575(7784): 699-703.

[9] Oddes S, Zelig A, Kaplan N. Three invariant Hi-C interaction patterns: applications to genome assembly[J]. Methods, 2018, 142: 89-99.

[10] Zhang, J. Zhang, X. Tang, H. Zhang, Q. et al. Allele-defined genome of the autopolyploid sugarcane Saccharum spontaneum L. Nature Genetics, doi:10.1038/s41588-018-0237-2 (2018).

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

Hi-C輔助基因組組裝原理｜主流軟件

Hi-C輔助基因組組裝原理｜主流軟件

導(dǎo)語

3C，4C，5C以及HiC測序技術(shù)

3C

4C

5C

HiC

Hi-C輔助組裝實(shí)驗(yàn)流程

Hi-C技術(shù)的大致流程

Hi-C互作三大規(guī)律

Hi-C建庫測序流程

Hi-C組裝軟件

LACHESIS

HiC-Pro