基因組組裝: 3D-DNA 染色體掛載

導(dǎo)讀

本文將介紹基因組組裝過程中,如何利用HiC測序數(shù)據(jù),進(jìn)行染色體級別基因組的組裝。該過程主要利用 Juicer3D-DNA 進(jìn)行,有關(guān)第一步Juicer的過程,已經(jīng)下方的文章中介紹了,本文主要介紹第二步:3D-DNA的安裝與使用。

1. 背景介紹

目前基因組組裝的主要流程是,利用二代或者三代技術(shù)進(jìn)行測序,利用得到的測序數(shù)據(jù),拼接為contig級別的基因組,如果需要上升到染色體級別,那么就需要對物種進(jìn)行HiC測序,進(jìn)一步進(jìn)行染色體掛載。目前對于二倍體動物,3D-DNA是效果最好的,下面就介紹3D-DNA的使用方法。

2. 安裝

2.1. 流程圖

上圖是使用3D-DNA進(jìn)行染色體掛載的流程圖,其中第一步是測序和基礎(chǔ)組裝,測序一般是交給測序公司來完成,contig組裝利用物種對應(yīng)的組裝軟件即可。第二步時(shí)利用JuicerHiC數(shù)據(jù)進(jìn)行分析。第三步是利用3D-DNA進(jìn)行掛載。

2.2. 依賴

下面這些是3D-DNA的依賴,如果閱讀過之前Juicer的使用教程,那么環(huán)境已經(jīng)配置完成,沒有閱讀過的讀者,可以在文末選擇跳轉(zhuǎn)。

  • LastZ (version 1.03.73 released 20150708) –僅適用于二倍體
  • Java version >=1.7
  • Bash >=4
  • GNU Awk >=4.0.2
  • GNU coreutils sort >=8.11
  • Python >=2.7 - 僅適用于染色體編號感知分離器模塊
  • scipy numpy matplotlib - 僅適用于染色體編號感知分離器模塊

2.3. clone

# 從Github拉取倉庫
git clone https://github.com/theaidenlab/3d-dna.git

3. 實(shí)戰(zhàn)

3.1. 數(shù)據(jù)準(zhǔn)備

  • 基因組文件:genome.fa
  • Juicer結(jié)果:merged_nodups.txt

3.2. run

# 對組裝的信心高,用-r 0, 否則用默認(rèn)的-r 2就行了
# -r 代表 3d-dna 修正的次數(shù)
# merged_nodups.txt 在 上一步Juicer運(yùn)行的aligned目錄下
/home/ubuntu/3d-dna/run-asm-pipeline.sh -r 2 \
reference/genome.fa aligned/merged_nodups.txt &> log.txt &

3.3. 結(jié)果

最終的輸出文件最關(guān)鍵的是下面三類:

  • .fasta: 以FINAL標(biāo)記的是最終結(jié)果
  • .hic: 各個(gè)階段都會有輸出結(jié)果,用于在JABT中展示
  • .assembly: 各個(gè)階段都會有輸出,一共兩列,存放contig的組裝順序

將結(jié)果中的.hic文件和.assembly文件導(dǎo)入Juicebox中進(jìn)行調(diào)整,最后輸出修改后的.assembly文件,再運(yùn)行下面命令,即可獲取染色體級別的基因組。

/home/ubuntu/3d-dna/run-asm-pipeline-post-review.sh \
-r genome.review.assembly \
genome.fa aligned/merged_nodups.txt

# genome.review.assembly 來自Juicebox中導(dǎo)出

讀者有任何問題,可在評論區(qū)進(jìn)行交流。

本文由mdnice多平臺發(fā)布

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容