3D-DNA 掛載染色體

3D-DNA是一款簡單,方便的處理Hi-C軟件,可將contig提升到染色體水平, githup,也可以用于對(duì)已經(jīng)組裝好的contig進(jìn)行糾錯(cuò),繼而用其它軟件(ALLHIC)進(jìn)行掛載。

3D-DNA流程簡介

  • 將Hi-C數(shù)據(jù)比對(duì)到draft.genome.fa。(利用Juicer分析Hi-C數(shù)據(jù))
  • 利用自動(dòng)化流程進(jìn)行糾錯(cuò)(misjoin),排序(order),確定正確方向(orient),最后scaffolding,得到染色體水平的組裝結(jié)果(3D-DNA分析)
  • Juicebox 進(jìn)行人工糾錯(cuò)

所需軟件及安裝

  • LastZ (version 1.03.73 released 20150708)` – for diploid mode only
  • Java version >=1.8
  • Bash >=4
  • GNU Awk >=4.0.2
  • GNU coreutils sort >=8.11
  • Python >=2.7 - for chromosome number-aware splitter module only
  • scipy numpy matplotlib - for chromosome number-aware splitter module only
  • GUN Parallel >=20150322 (可選,建議裝)
  • bwa
  • 兩個(gè)核心軟件 juicer 和3D-DNA

安裝軟件

## 安裝juice
git clone https://github.com/theaidenlab/juicer.git
cd juicer
ln -s CPU scripts
cd scripts/common
wget https://hicfiles.tc4ga.com/public/juicer/juicer_tools.1.9.9_jcuda.0.8.jar
ln -s juicer_tools.1.9.9_jcuda.0.8.jar  juicer_tools.jar

## 安裝3D-DNA
git clone https://github.com/theaidenlab/3d-dna.git

大概流程

數(shù)據(jù)準(zhǔn)備

  • ref 文件夾: 存放draft.genome.fa
  • fastq 文件夾:存放HI-C測(cè)序雙端reads, 注意reads文件名的格式 保證*.R1.fastq, *.R2.fastq

1. 利用Juicer 分析HI-C數(shù)據(jù)

  • 基因組建立索引
bwa index draft.genome.fa
  • 創(chuàng)建可能的酶切位點(diǎn)文件
python ~/software/juicer/misc/generate_site_positions.py  HindIII  draft.genome  draft.genome.fa
# 本次使用的是 HindIII 進(jìn)行酶切;選擇自己所有的酶
  • 獲取每條contig的長度
awk 'BEGIN{OFS="\t"}{print $1, $NF}' draft.genome_HindIII.txt > draft.genome.chrom.sizes
  • 運(yùn)行juicer
~/software/juicer/scripts/juicer.sh \
                              -g draft_genome \
                               -s HindIII \
                               -z ./ref/draft.genome.fa \
                                -y ./ref/draft.genome_HindIII.txt \
                                 -p ./ref/draft.genome.chrom.sizes \
                                 -t 8

## 參數(shù)
-g: 定義一個(gè)物種名
-s:酶切類型, HindIII(AAGCTAGCTT), MboI(GATCGATC) , DpnII(GATCGATC), NcoI(CCATGCATGG)
-z : 參考基因組文件
-y: 限制性酶切位點(diǎn)可能出現(xiàn)位置文件
-p: 染色體大小文件
-C: 將原來的文件進(jìn)行拆分,必須是4的倍數(shù),默認(rèn)是90000000, 即22.5M reads
-S: 和任務(wù)重運(yùn)行有關(guān),從中途的某一步開始,"merge", "dedup", "final", "postproc" 或 "early"
-d: juicer的目錄
-D: juicer scripts的目錄
-t: 線程數(shù)

結(jié)果:結(jié)果文件在aligned目錄下,其中\color{red}{merged_nodups.txt}就是下一步3D-DNA的輸入文件之一。

2. 運(yùn)行3D-DNA

使用默認(rèn)參數(shù)進(jìn)行3D-DNA

~/software/3d-dna/run-asm-pipeline.sh ./ref/draft.genome.fa ./aligned/merged_nodups.txt

最后輸出文件中,包含F(xiàn)INAL.fasta就是我們需要的結(jié)果。

3. juicerbox進(jìn)行手動(dòng)糾錯(cuò)

點(diǎn)擊該處進(jìn)行下載

一般組裝錯(cuò)誤為:

  • misjoin
  • translocations
  • inversions
  • chromosome boundaries

糾錯(cuò)完以后,會(huì)得到genome.review.assembly用于下一步的分析

4. 再次運(yùn)行3D-DNA

~/software/3d-dna/run-asm-pipeline-post-review.sh -r genome.review.assembly ./ref/draft.genome.fa aligned/merged_nodups.txt
參考

利用3D-DNA掛載基因組
githup
juicer
利用3D-DNA流程組裝基因組

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容