1.數(shù)據(jù)準(zhǔn)備:HIFI數(shù)據(jù)(bam轉(zhuǎn)換成fa或fq均可)和HIC數(shù)據(jù)
2.軟件準(zhǔn)備
Hifasm、seqkit(均可以通過conda安裝)
3.運(yùn)行代碼拆分
對(duì)于二倍體,結(jié)合HiC數(shù)據(jù)拆單倍體成功率還是挺高的,相對(duì)也比較準(zhǔn)確,建議首先使用該方法嘗試組裝:目前組裝的還是contig水平還未掛載至染色體水平
bsub-Jhifiasm-n20-Rspan[hosts=1]-o%J.out-e%J.err-qsmp"hifiasm-oloach.asm.hic-t10--h1hic_R1.fastq.gz--h2hic_R2.fastq.gzhifi_reads.fq"
-o輸出單倍型的名稱,自己決定;我用的loach.asm.hic意思是hifiasm使用hic拆分的泥鰍單倍型--h1和--h2分別是HiC數(shù)據(jù)的雙端
結(jié)果中主要查看loach.asm.hic.hap1.p_ctg.gfa和loach.asm.hic.hap2.p_ctg.gfa兩個(gè)文件
分析單倍型hap1和hap2的大小是否符合預(yù)期;本人拆分了二倍體的泥鰍,大鱗副泥鰍和兩種螺螄的單倍型,效果不錯(cuò)。但是同源多倍體的效果不是很理想;異源多倍體還未嘗試。。。
4.轉(zhuǎn)換gfa格式為fa格式
awk'/^S/{print">"$2;print$3}'hap1.p_ctg.gfa?>?hap1.p_ctg.fa
5.seqkit查看初次組裝的單倍型基因組基本信息
bsub-Jhifiasm-n20-Rspan[hosts=1]-o%J.out-e%J.err-qsmp"seqkitstats-aloach.asm.p_ctg.fa"
查看num_seqs,N50即可
至此可以拆分出初步的單倍型基因組;后續(xù)將contig掛載至染色體上。。。