GATK4 Mutect2 call Short Variant
先來看一下GATK 官網(wǎng)對Short Variant的定義:
Short variants include single nucleotide (SNV) and insertion and deletion (indel) variants.
Mutect2
Call somatic SNVs and indels via local assembly of haplotypes
Mutect2有兩種模式:
(i) somatic mode:分析中,一個(gè)腫瘤樣本與正常樣本相匹配;
(ii) tumor-only mode: 分析中, 只有一個(gè)腫瘤數(shù)據(jù)比對結(jié)果;
(i) Tumor with matched normal
利用提供的正常樣本數(shù)據(jù),Mutect2 只會找出那些體細(xì)胞變異;而在種系中普遍存在的變異會被Mutect2 忽略掉。對于那些在種系中無法很好界定的變異,Mutect2 會保留下來進(jìn)行后續(xù)分析。
調(diào)用gatk Mutect2
gatk Mutect2 \
-R reference.fa \
-I tumor.bam \
-tumor tumor_sample_name \
-I normal.bam \
-normal normal_sample_name \
--germline-resource af-only-gnomad.vcf.gz \
--af-of-alleles-not-in-resource 0.00003125 \ #變異不存在于種系中的期望值
--panel-of-normals pon.vcf.gz \
-O somatic.vcf.gz
Mutect2不需要運(yùn)算 a germline resource和a panel of normals (PoN) ;只是利用這兩個(gè)數(shù)據(jù)來過濾等位的變異位點(diǎn)。
種群等位位點(diǎn)頻率格式如下:
#CHROM POS ID REF ALT QUAL FILTER INFO
1 10067 . T TAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCC 30.35 PASS AC=3;AF=7.384E-5
1 10108 . CAACCCT C 46514.32 PASS AC=6;AF=1.525E-4
1 10109 . AACCCTAACCCT AAACCCT,* 89837.27 PASS AC=48,5;AF=0.001223,1.273E-4
1 10114 . TAACCCTAACCCTAACCCTAACCCTAACCCTAACCCCTAACCCTAACCCTAACCCTAACCCTAACCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCCTAACCCTAACCCTAAACCCTA *,CAACCCTAACCCTAACCCTAACCCTAACCCTAACCCCTAACCCTAACCCTAACCCTAACCCTAACCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCCTAACCCTAACCCTAAACCCTA,T 36728.97 PASS AC=55,9,1;AF=0.001373,2.246E-4,2.496E-5
1 10119 . CT C,* 251.23 PASS AC=5,1;AF=1.249E-4,2.498E-5
1 10120 . TA CA,* 14928.74 PASS AC=10,6;AF=2.5E-4,1.5E-4
1 10128 . ACCCTAACCCTAACCCTAAC A,* 285.71 PASS AC=3,1;AF=7.58E-5,2.527E-5
1 10131 . CT C,* 378.93 PASS AC=7,5;AF=1.765E-4,1.261E-4
1 10132 . TAACCC *,T 18025.11 PASS AC=12,2;AF=3.03E-4,5.049E-5
(ii) Tumor-only mode
單個(gè)樣本時(shí),使用CreateSomaticPanelOfNormals 生成a panel of normals;
CreateSequenceDictionary 是Picard中一個(gè)功能,利用參考序列生成參考序列的索引(.dict).
調(diào)用CreateSequenceDictionary
java -jar picard.jar CreateSequenceDictionary \
R=reference.fasta \ # .fasta 或 .fasta.gz
O=reference.dict
調(diào)用gatk Mutect2
gatk Mutect2 \
-R reference.fa \
-I sample.bam \
-tumor sample_name \
-O single_sample.vcf.gz
Mutect2 必須設(shè)定的參數(shù):
--input -I :BAM/SAM/CRAM文件
--output -O :寫入變異信息的加過文件
--reference -R :參考序列
--tumor-sample -tumor : 腫瘤樣品名
參考: