前言
在完成Contig 水平的二倍體基因組組裝后,接下來(lái)就是基于 Hi-C 數(shù)據(jù)進(jìn)行染色體掛載,將基因組進(jìn)一步提升至染色體水平。 這一步通常是二倍體基因組組裝中的最后一步,也是整個(gè)組裝過(guò)程中最為關(guān)鍵的環(huán)節(jié)之一。如果你已經(jīng)閱讀到這里,那么說(shuō)明你已經(jīng)掌握了組裝一個(gè)基礎(chǔ)的二倍體基因組的技能,接下來(lái)的任務(wù)就是將這些單獨(dú)的 contig 通過(guò) Hi-C 數(shù)據(jù),合理地“拼接”成完整的染色體結(jié)構(gòu)。接下來(lái),我們將詳細(xì)介紹如何利用 Hi-C 數(shù)據(jù)完成染色體級(jí)別的組裝。
什么是Hi-C測(cè)序?
Hi-C(高通量染色體構(gòu)象捕獲)是一種利用基因組空間結(jié)構(gòu)的信息來(lái)幫助基因組組裝的技術(shù)。通過(guò) Hi-C,我們能夠捕獲基因組不同部分之間的物理接觸信息,這對(duì)完成染色體級(jí)別的基因組組裝至關(guān)重要。
Hi-C 技術(shù)的原理
在基因組中,不同染色體區(qū)域并非孤立存在,而是通過(guò)染色質(zhì)的折疊和空間結(jié)構(gòu)相互接觸,這些接觸是基因表達(dá)和基因調(diào)控的基礎(chǔ),同時(shí)也提供了基因組空間的三維信息。Hi-C 技術(shù)通過(guò)捕捉這些接觸點(diǎn)并將其轉(zhuǎn)化為數(shù)據(jù),幫助研究人員了解不同基因組區(qū)域在三維空間中的位置關(guān)系。通過(guò) Hi-C 技術(shù),我們不僅能夠獲得基因組中的序列信息,還能夠得到基因組不同部分之間的相對(duì)位置和距離信息。這意味著,即便在傳統(tǒng)的二代測(cè)序中,只獲得了基因組的單條 contig,Hi-C 仍然能通過(guò)提供物理接觸信息,幫助我們將這些 contig 正確地排列到相應(yīng)的染色體上。

<center>圖 1. Hi-C測(cè)序技術(shù)的原理</center>
為什么 Hi-C 技術(shù)能將 Contig 組裝到染色體水平?
1. 提供空間位置信息
- 在沒(méi)有 Hi-C 數(shù)據(jù)的情況下,基因組組裝僅依賴(lài)于序列重疊來(lái)拼接 contig,這對(duì)于復(fù)雜基因組,尤其是多倍體、重復(fù)區(qū)域較多的基因組,常常會(huì)導(dǎo)致contig無(wú)法準(zhǔn)確排列。而Hi-C技術(shù)通過(guò)提供 染色體區(qū)域之間的物理接觸信息,幫助我們確定contig之間的相對(duì)位置,從而完成染色體的正確排列。
2. 幫助解決重復(fù)區(qū)域的組裝問(wèn)題
- 多倍體基因組中通常有大量的重復(fù)序列,這些序列在傳統(tǒng)組裝中容易被錯(cuò)誤地拼接或折疊成同一個(gè)contig,導(dǎo)致 無(wú)法正確區(qū)分不同單倍型的區(qū)域。Hi-C 數(shù)據(jù)則通過(guò)將這些區(qū)域“拉開(kāi)”并通過(guò)接觸信息幫助我們明確每個(gè)contig的真正位置,避免了因重復(fù)序列造成的組裝錯(cuò)誤。
3. 精確定位和拼接
- Hi-C 技術(shù)能夠幫助我們通過(guò)染色體區(qū)間的接觸頻率來(lái)判斷 contig 之間的相對(duì)距離。這些信息使得組裝程序能夠自動(dòng)將不同 contig 拼接到正確的位置,最終生成染色體級(jí)的基因組。
4. 高效構(gòu)建染色體級(jí)結(jié)構(gòu)
- 在得到合適的 Hi-C 數(shù)據(jù)后,組裝工具可以利用這些接觸信息,不僅拼接 contig,還可以解決由不同染色體間的重排產(chǎn)生的問(wèn)題,最終形成一個(gè)連貫且接近真實(shí)染色體結(jié)構(gòu)的基因組。
以上是專(zhuān)業(yè)解釋?zhuān)旅媸钦f(shuō)人話版本:Contig水平的基因組是一大堆Contig,這些Contig有長(zhǎng)有段,并且彼此誰(shuí)也不認(rèn)識(shí)誰(shuí),根本不知道那些Contig是來(lái)源于一條染色體的。而HIC reads可以給把基因組打碎的同時(shí),給每個(gè)打碎的短reads加上一個(gè)”身份信息“,這些身份信息可以幫助reads之間互相識(shí)別,并且基因組中距離越近的reads,身份信息就越相似。因此通過(guò)這些”身份信息”,就可以讓這些Contig找到和自己挨著的Contig,從而逐步配對(duì),最終形成染色體水平的基因組。
染色體掛載
適用于二倍體基因組的染色體掛載的軟件其實(shí)非常多,但是從準(zhǔn)確性、速度和難度上綜合考慮,我選擇yahs這個(gè)軟件。
軟件下載
mamba install bioconda::yahs
掛載
首先使用bwa將hic reads比對(duì)到Contig水平的基因組上。
# 構(gòu)建索引
bwa index purged.fa
# purged.fa Contig水平的基因組
# 比對(duì)
bwa mem -5SP -t 28 purged.fa huangwenwucifeng_R1.fastq.gz huangwenwucifeng_R2.fastq.gz|samblaster| samtools view - -@ 14 -S -h -b -F 3340 -o HiC.bam
# -t 28: 指定使用 28 個(gè)線程進(jìn)行計(jì)算,以加快比對(duì)速度。
# purged.fa: 這是參考基因組文件(FASTA格式),即contigs或初步組裝的序列。
# huangwenwucifeng_R1.fastq.gz和huangwenwucifeng_R2.fastq.gz: 雙端測(cè)序的兩個(gè)FASTQ文件(R1和R2)。
# -@ 14: 指定samtools使用14個(gè)線程。
# -S: 指定輸入為SAM格式。
# -h: 在輸出中包含頭信息(header)。
# -b: 指定輸出格式為BAM。
# -F 3340: 過(guò)濾器參數(shù),用于排除標(biāo)記為不合格的比對(duì)記錄(如未比對(duì)、非主要比對(duì)、重復(fù)等)。
# -o HiC.bam: 指定輸出文件名為HiC.bam。
隨后使用yahs進(jìn)行染色體掛載
yahs ./purged.fa Hic.bam
基于yahs的輸出結(jié)果,通過(guò)juicer生成Juicebox手動(dòng)調(diào)整需要的.hic和.assembly文件
juicer pre \
-a -o out_JBAT \
hic-to-contigs.bin \
scaffolds_final.agp \
contigs.fa.fai >out_JBAT.log 2>&1
# -o out_JBAT: 指定輸出文件的前綴為out_JBAT
# hic-to-contigs.bin: yahs生成的二進(jìn)制文件,包含Hi-C鏈接信息
# scaffolds_final.agp: yahs生成的AGP文件,定義了contigs如何組成scaffolds
# contigs.fa.fai: 參考基因組的索引文件(通過(guò)`samtools faidx`生成)
(java -jar -Xmx32G juicer_tools.1.9.9_jcuda.0.8.jar pre out_JBAT.txt out_JBAT.hic.part <(cat out_JBAT.log | grep PRE_C_SIZE | awk '{print $2" "$3}')) && (mv out_JBAT.hic.part out_JBAT.hic)
運(yùn)行結(jié)束后就會(huì)生成Juicebox手動(dòng)調(diào)整需要的.hic和.assembly文件,隨后導(dǎo)入Juicebox手動(dòng)調(diào)整并通過(guò)下面的命令生成最終的染色體水平的基因組。
juicer post \
-o out_JBAT \
out_JBAT.review.assembly \
out_JBAT.liftover.agp \
contigs.fa
# -o out_JBAT: 指定輸出文件的前綴。
# out_JBAT.review.assembly: 輸入的程序集審查文件,通常是在Juicebox等工具中手動(dòng)審查和校對(duì)后的結(jié)果。
# out_JBAT.liftover.agp: Juicer生成的AGP文件,用于坐標(biāo)轉(zhuǎn)換。
# contigs.fa: 原始的contigs FASTA文件。
最后生成的out_JBAT.FINAL.fa就是最終的基因組
繪制HIC熱圖
借助曾老師開(kāi)發(fā)的Haphic進(jìn)行熱圖的繪制
/path/to/HapHiC/haphic plot \
out_JBAT.FINAL.agp \
HiC.bam
--min_len 10 \
--threads 20
# --min_len 繪制熱圖的sacffod最小長(zhǎng)度,可以通過(guò)調(diào)整長(zhǎng)度來(lái)設(shè)置只繪制染色體水平的sacffod
# --threads 運(yùn)行的線程數(shù)

結(jié)語(yǔ)
傳統(tǒng)二倍體基因組的組裝已經(jīng)接近尾聲了,其實(shí)以現(xiàn)在的測(cè)序技術(shù)和軟件,組裝一個(gè)高質(zhì)量的染色體水平的二倍體基因組可以說(shuō)是沒(méi)有任何難度,真正的難點(diǎn)是多倍體基因組的組裝。
本文由mdnice多平臺(tái)發(fā)布