GATK4 Mutect2 call Short Variant

GATK4 Mutect2 call Short Variant

先來看一下GATK 官網(wǎng)對Short Variant的定義:

Short variants include single nucleotide (SNV) and insertion and deletion (indel) variants.

Mutect2

Call somatic SNVs and indels via local assembly of haplotypes

Mutect2有兩種模式:

(i) somatic mode:分析中,一個(gè)腫瘤樣本與正常樣本相匹配;

(ii) tumor-only mode: 分析中, 只有一個(gè)腫瘤數(shù)據(jù)比對結(jié)果;

(i) Tumor with matched normal

利用提供的正常樣本數(shù)據(jù),Mutect2 只會找出那些體細(xì)胞變異;而在種系中普遍存在的變異會被Mutect2 忽略掉。對于那些在種系中無法很好界定的變異,Mutect2 會保留下來進(jìn)行后續(xù)分析。

調(diào)用gatk Mutect2

gatk Mutect2 \
   -R reference.fa \
   -I tumor.bam \
   -tumor tumor_sample_name \
   -I normal.bam \
   -normal normal_sample_name \
   --germline-resource af-only-gnomad.vcf.gz \
   --af-of-alleles-not-in-resource 0.00003125 \ #變異不存在于種系中的期望值
   --panel-of-normals pon.vcf.gz \
   -O somatic.vcf.gz

Mutect2不需要運(yùn)算 a germline resource和a panel of normals (PoN) ;只是利用這兩個(gè)數(shù)據(jù)來過濾等位的變異位點(diǎn)。

種群等位位點(diǎn)頻率格式如下:

  #CHROM  POS     ID      REF     ALT     QUAL    FILTER  INFO
      1       10067   .       T       TAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCC      30.35   PASS    AC=3;AF=7.384E-5
      1       10108   .       CAACCCT C       46514.32        PASS    AC=6;AF=1.525E-4
      1       10109   .       AACCCTAACCCT    AAACCCT,*       89837.27        PASS    AC=48,5;AF=0.001223,1.273E-4
      1       10114   .       TAACCCTAACCCTAACCCTAACCCTAACCCTAACCCCTAACCCTAACCCTAACCCTAACCCTAACCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCCTAACCCTAACCCTAAACCCTA  *,CAACCCTAACCCTAACCCTAACCCTAACCCTAACCCCTAACCCTAACCCTAACCCTAACCCTAACCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCCTAACCCTAACCCTAAACCCTA,T      36728.97        PASS    AC=55,9,1;AF=0.001373,2.246E-4,2.496E-5
      1       10119   .       CT      C,*     251.23  PASS    AC=5,1;AF=1.249E-4,2.498E-5
      1       10120   .       TA      CA,*    14928.74        PASS    AC=10,6;AF=2.5E-4,1.5E-4
      1       10128   .       ACCCTAACCCTAACCCTAAC    A,*     285.71  PASS    AC=3,1;AF=7.58E-5,2.527E-5
      1       10131   .       CT      C,*     378.93  PASS    AC=7,5;AF=1.765E-4,1.261E-4
      1       10132   .       TAACCC  *,T     18025.11        PASS    AC=12,2;AF=3.03E-4,5.049E-5
 

(ii) Tumor-only mode

單個(gè)樣本時(shí),使用CreateSomaticPanelOfNormals 生成a panel of normals;

CreateSequenceDictionary 是Picard中一個(gè)功能,利用參考序列生成參考序列的索引(.dict).

調(diào)用CreateSequenceDictionary

java -jar picard.jar CreateSequenceDictionary \ 
      R=reference.fasta \ # .fasta 或 .fasta.gz
      O=reference.dict

調(diào)用gatk Mutect2

 gatk Mutect2 \
   -R reference.fa \
   -I sample.bam \
   -tumor sample_name \
   -O single_sample.vcf.gz

Mutect2 必須設(shè)定的參數(shù):

--input -I :BAM/SAM/CRAM文件

--output -O :寫入變異信息的加過文件

--reference -R :參考序列

--tumor-sample -tumor : 腫瘤樣品名

參考:

GATK4 Mutect2 User Guide

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容