用annovar對vcf(SNP&INDEL)文件進行注釋

將原始fq文件通過FastQC-align-samtools||GATK等流程最終得到vcf文件,也就是記錄某些位點變異的文本文件。但只是通過看vcf文件我們是不知道些變異位點到底是位于基因的exon、intron、UTR等的哪些區(qū)域的。所以我們需要對vcf文件也就是這些變異位點進行注釋。最常用的vcf注釋軟件有annovar和snpEff。

本文將介紹如何用annovar軟件對vcf文件進行注釋。

  1. 準備的輸入文件
    • reference.fa
    • reference.gtf或gff3文件
    • sample.vcf
  2. gff3ToGenePred與gtfToGenePred工具將gtf或gff3文件轉(zhuǎn)化為reference_refGene.txt
gtfToGenePred -genePredExt reference.gtf reference_refGene.txt
  1. 將reference.fa文件轉(zhuǎn)化為reference_refGeneMrna.fa
perl retrieve_seq_from_fasta.pl --format refGene --seqfile reference.fa all_refGene.txt --out reference_refGeneMrna.fa
  1. 再將vcf文件轉(zhuǎn)化為annovar格式
perl ~/biosoft/annovar/convert2annovar.pl -format vcf4 sample.vcf > sample.annovar
vcf2annovar
  1. 用table_annovar.pl進行注釋(可一次性完成三種類型的注釋)
perl ~/biosoft/annovar/annotate_variation.pl -buildver reference -geneanno -outfile sample.anno sample.annovar ~/biosoft/annovar/referencedb/

最終得到兩個注釋文件文件和一個log文件exonic_variant_function和variant_function


exonic_variant_function
variant_function

參考:https://zhengzexin.com/2016/04/28/annovar-zhu-shi-ruan-jian/

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容