導(dǎo)讀
本文將介紹基因組組裝過程中,如何利用HiC測序數(shù)據(jù),進(jìn)行染色體級別基因組的組裝。該過程主要利用 Juicer 和 3D-DNA 進(jìn)行,有關(guān)第一步Juicer的過程,已經(jīng)下方的文章中介紹了,本文主要介紹第二步:3D-DNA的安裝與使用。
1. 背景介紹
目前基因組組裝的主要流程是,利用二代或者三代技術(shù)進(jìn)行測序,利用得到的測序數(shù)據(jù),拼接為contig級別的基因組,如果需要上升到染色體級別,那么就需要對物種進(jìn)行HiC測序,進(jìn)一步進(jìn)行染色體掛載。目前對于二倍體動物,3D-DNA是效果最好的,下面就介紹3D-DNA的使用方法。
2. 安裝
2.1. 流程圖
上圖是使用3D-DNA進(jìn)行染色體掛載的流程圖,其中第一步是測序和基礎(chǔ)組裝,測序一般是交給測序公司來完成,contig組裝利用物種對應(yīng)的組裝軟件即可。第二步時(shí)利用Juicer對HiC數(shù)據(jù)進(jìn)行分析。第三步是利用3D-DNA進(jìn)行掛載。
2.2. 依賴
下面這些是3D-DNA的依賴,如果閱讀過之前Juicer的使用教程,那么環(huán)境已經(jīng)配置完成,沒有閱讀過的讀者,可以在文末選擇跳轉(zhuǎn)。
-
LastZ (version 1.03.73 released 20150708)–僅適用于二倍體 Java version >=1.7Bash >=4GNU Awk >=4.0.2GNU coreutils sort >=8.11-
Python >=2.7- 僅適用于染色體編號感知分離器模塊 -
scipy numpy matplotlib- 僅適用于染色體編號感知分離器模塊
2.3. clone
# 從Github拉取倉庫
git clone https://github.com/theaidenlab/3d-dna.git
3. 實(shí)戰(zhàn)
3.1. 數(shù)據(jù)準(zhǔn)備
- 基因組文件:
genome.fa -
Juicer結(jié)果:merged_nodups.txt
3.2. run
# 對組裝的信心高,用-r 0, 否則用默認(rèn)的-r 2就行了
# -r 代表 3d-dna 修正的次數(shù)
# merged_nodups.txt 在 上一步Juicer運(yùn)行的aligned目錄下
/home/ubuntu/3d-dna/run-asm-pipeline.sh -r 2 \
reference/genome.fa aligned/merged_nodups.txt &> log.txt &
3.3. 結(jié)果
最終的輸出文件最關(guān)鍵的是下面三類:
-
.fasta: 以FINAL標(biāo)記的是最終結(jié)果 -
.hic: 各個(gè)階段都會有輸出結(jié)果,用于在JABT中展示 -
.assembly: 各個(gè)階段都會有輸出,一共兩列,存放contig的組裝順序
將結(jié)果中的.hic文件和.assembly文件導(dǎo)入Juicebox中進(jìn)行調(diào)整,最后輸出修改后的.assembly文件,再運(yùn)行下面命令,即可獲取染色體級別的基因組。
/home/ubuntu/3d-dna/run-asm-pipeline-post-review.sh \
-r genome.review.assembly \
genome.fa aligned/merged_nodups.txt
# genome.review.assembly 來自Juicebox中導(dǎo)出
讀者有任何問題,可在評論區(qū)進(jìn)行交流。
本文由mdnice多平臺發(fā)布