生信 | 基因組組裝實(shí)戰(zhàn)(五):三代數(shù)據(jù)糾錯(cuò)gcpp、racon

寫在前面

  • 以下內(nèi)容均來自我在菲沙基因(Frasergen)暑期生信培訓(xùn)班上記錄的課堂筆記

1.三代數(shù)據(jù)糾錯(cuò)

  • \color{red}{軟件一}gcpp,封裝到了pb-assembly中,使用conda安裝
conda install -c bioconda pb-assembly -y 
  • 使用方法,一輪糾錯(cuò)就差不多了
pbmm2 index contig.fasta ref.mmi
pbmm2 align ref.mmi *subreadset.xml contigs.fasta.bam
samtools sort -@ 32 -o contigs.fasta.sorted.bam contigs.fasta.bam
gcpp -j60 --algorithm=arrow contigs.fasta.sorted.bam -r contig.fasta -o myConsensus.fasta
  • \color{red}{軟件二}racon,使用conda安裝
#比對要用到minimap2,因此順手安裝一下
conda install -c bioconda minimap2 -y
conda install -c bioconda racon -y
  • 軟件用法,進(jìn)行多輪糾錯(cuò)更加準(zhǔn)確
input=/test/4-fsa/contigs.fasta
data=/00.data/all_subreads.bam.fasta
#第一輪糾錯(cuò)
minimap2 -t 10 $input $data > round1.paf
racon -t 10 $data round1.paf $input > round1.fasta
#第二輪糾錯(cuò)
minimap2 -t 10 round1.fasta $data > round2.paf
racon -t 10 $data round2.paf round1.fasta > round2.fasta
#第三輪糾錯(cuò)
minimap2 -t 10 round2.fasta $data > round3.paf
racon -t 10 $data round3.paf round2.fasta > round3.fasta

2.二代糾錯(cuò)

  • 軟件:pilon
  • 使用conda安裝
#比對用到了bwa與samtools ,也順手安裝一下
conda install -c bioconda bwa -y
conda install -c bioconda pilon -y
conda install -c bioconda samtools -y
  • 比對
bwa index -p index/draft draft.fa
bwa mem -t 16 index/draft raed1_fq.gz read2_fq.gz |samtools sort -@ 10 -O bam -o align.bam
samtools index -@ 10 align.bam

draft.fa:三代數(shù)據(jù)組裝好的基因組文件
read1_fq.gz read2_fq.gz:illumina的雙端測序數(shù)據(jù)經(jīng)過質(zhì)控之后的數(shù)據(jù)

  • 糾錯(cuò)
pilon \
--genome draft.fa \
--frags align_filter.bam \
--fix snp,indels \
--output pilon_polished \
--vcf

--frags 表示輸入的是1kb以內(nèi)的paired-end文庫,
--jumps 表示 大于1k以上的mate pair文庫,
--bam 則是讓軟件自己猜測
-vcf 輸出一個(gè)vcf文件,包含每個(gè)堿基的信息
--fix Pilon將會(huì)處理的內(nèi)容,基本上選snps和indels就夠了
--variant 啟發(fā)式的變異檢測,等價(jià)于--vcf --fix all,breaks, 如果是polish不要使用該選項(xiàng)
--minmq 用于Pilon堆疊的read最低比對質(zhì)量,默認(rèn)是0。

3.Hi-C掛載

  • Hi-C技術(shù)簡介
    Hi-C技術(shù)是3C技術(shù)(Chromosome Conformation Capture染色體構(gòu)象捕獲)的一種衍生技術(shù)。
    Hi-C是結(jié)合3C技術(shù)高通量測序技術(shù)捕獲基因組的三維結(jié)構(gòu)的技術(shù)。
    Hi-C技術(shù)
  • Hi-C 輔助組裝簡介
    使用Hi-C輔助組裝,可以將contigs組裝到假染色體水平
    Hi-C輔助組裝
  • Hi-C輔助組裝原理
    首先對下機(jī)數(shù)據(jù)進(jìn)行質(zhì)控去接頭獲得高質(zhì)量的clean reads,然后將數(shù)據(jù)比對到已經(jīng)組裝的基因組序列上并去除PCR重復(fù)。利用去噪矯正之后的交互數(shù)據(jù),構(gòu)建染色質(zhì)交互矩陣,針對其染色質(zhì)三維空間結(jié)構(gòu)特征,選取合適的聚類模型將未定位scaffolds錨定到染色體上,并采用相應(yīng)的排序算法確定掛載scaffolds的正確順序和方向,組裝出染色體水平的全基因組序列。
Hi-C輔助組裝原理
  • 關(guān)于Hi-C的介紹單獨(dú)記錄一篇
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容