- VariantFiltration
Filter variant calls based on INFO and/or FORMAT annotaitions.
gatk VariantFiltration \
-R reference.fasta\
-V input.vcf.gz\
-O output.vcf.gz\
--fitler-expression "AB<0.2 || MQ0 >50" \
--fitler-name "my_filters"
不能使用VQSR,但需要對(duì)HaplotypeCaller的結(jié)果進(jìn)行handfilter時(shí)可以用這個(gè)工具。
- FixMateInformation(Picard)
Verify mate-pair information between mates and fix if needed.
java -jar --Xmx4g picard.jar FixMateInformation \
I=input.bam \
O=fixed_mate.bam \
ADD_MATE_CIGAR=true AS=true \
SO=coordinate
這一步是放在MarkDuplicates后面,查到有別人說如果MarkDuplicates 把重復(fù)去掉了,會(huì)對(duì)mate信息產(chǎn)生影響。如果MarkDuplicates只是標(biāo)記而沒有去除重復(fù),則不會(huì)對(duì)mate信息產(chǎn)生影響,理論上可以不用做FixMate.
我比較了輸入文件和輸出文件的大小,fix之后的文件要大一些。
3.SelectVariants
Select a subset of variants from a VCF file.
gatk SelectVariants \
-R reference.fasta \
-V input.vcf \
-selectType SNP \
-O output.vcf
-selectType :INDEL,SNP,MIXED,MNP,SYMBOLIC,NO_VARIATION.(can be specified multiple times.)
常用的是從vcf中把snp和indel分別輸出到兩個(gè)文件。