多倍體中組裝染色體水平的基因組,除了ALLHiC/HapHiC, 大家還可以嘗試一款新的軟件C-Phasing,該軟件主要基于Pore-C數(shù)據(jù)開發(fā),同時(shí)也兼容Hi-C數(shù)據(jù)。
安裝流程
下載軟件并使用conda 構(gòu)建環(huán)境安裝依賴
git clone https://github.com/wangyibin/CPhasing.git
cd CPhasing
conda env create -f environment.yml
conda activate cphasing
配置軟件路徑到bash環(huán)境
vim ~/.bash_profile
export PATH=/path/to/CPhasing/bin:$PATH
export PYTHONPATH=/path/to/CPhasing:$PYTHONPATH
軟件運(yùn)行方法
輸入Pore-C數(shù)據(jù)
輸入contig水平的基因組contigs.fasta和Pore-C數(shù)據(jù)porec.fastq.gz,根據(jù)倍性和染色體基數(shù)設(shè)置-n參數(shù),例如,組裝一個(gè)2n=4x=32的多倍體,則設(shè)置為-n 8:4。
cphasing pipeline -f contigs.fasta -pcd porec.fastq.gz -t 40 -n 8:4
輸入Hi-C數(shù)據(jù)
cphasing pipeline -f contigs.fasta -hic1 hic_R1.fastq.gz -hic2 hic_R2.fastq.gz -t 40 -n 8:4
具體性能官方未描述
下載了一個(gè)同源四倍體(2n=10x=40)的基因組和Hi-C數(shù)據(jù)進(jìn)行測(cè)試,運(yùn)行命令如下:
source activate cphasing
cphasing pipeline -f contigs.fasta -hic1 SRR22405988_Hi-C_reads_of_S._spontaneum_Np-X_1.fastq.gz -hic2 SRR22405988_Hi-C_reads_of_S._spontaneum_Np-X_2.fastq.gz -t 30 -n 10:4
最終從cphasing_out/5.plot里面直接出圖,效果看起來非常好,30個(gè)線程耗時(shí)4個(gè)小時(shí)。

NpX_CPhasing_test.heatmap.png