GATK4.0和GATK3.5 Call SNV的差異

1.一個(gè)外顯子測(cè)序樣本數(shù)據(jù)的結(jié)果比較

用bwa和samtools做常規(guī)處理,再分別用GATK4.0和GATK3.5的HC去Call SNV,均使用默認(rèn)參數(shù)。


GATK4.0明顯比GATK3.5 Call出的SNV的數(shù)量多。

2.通過(guò)Vep注釋,挑選外顯子區(qū)域的SNV

vep -i merge_sort_dedup_GATK_v4.0.vcf -o tmp4.out --cache --cache_version 82 --offline --vcf vep注釋命令
通過(guò)vep分別對(duì)GATK4.0和GATK3.5的SNV注釋,統(tǒng)計(jì)屬于外顯子的SNV的數(shù)量。



同樣的,注釋后GATK4.0還是明顯比GATK3.5 Call出的SNV的數(shù)量多。

3.通過(guò)VQSR過(guò)濾SNV

GATK4.0和GATK3.5分別有自己的VQSR,有相同的地方也有不同的,也都用默認(rèn)參數(shù)。
注:分別用的是自己軟件的VQSR


VQSR后,SNV在GATK3.5中而不在GATK4.0中的數(shù)量變多了,當(dāng)然VQSR后總數(shù)變小了。
說(shuō)明兩個(gè)軟件的VQSR有差異,并對(duì)Call出的SNV的數(shù)量有很大的影響。
因?yàn)槭峭怙@子數(shù)據(jù),所以Call出SNV的數(shù)量可能受DP的影響。

4.比較VQSR前后不同DP下的SNV數(shù)量

grep -v ^# merge_sort_dedup_GATK_v4.0.vqsr.vcf |grep PASS|awk '{split($10,a,":");if(a[3]>=10){print $0}}' | wc -l
對(duì)VQSR前后的數(shù)據(jù)進(jìn)行DP的篩選,在GATK4.0和GATK3.5中,在不同的DP過(guò)濾下,統(tǒng)計(jì)Call出的SNV的數(shù)量。
注:兩個(gè)軟件生成的vcf文件都是用的GATK3.5的VQSR,以去除不同軟件不同VQSR的影響。
VQSR前后的SNV的數(shù)量都隨著DP值的增加而減少,減少到一定值后趨于平緩。
當(dāng)DP>=4/5 之后,GATK4.0和GATK3.5 Call出的SNV的數(shù)量已經(jīng)比較接近并趨于平緩。
VQSR后,GATK4.0和GATK3.5 Call出的SNV的數(shù)量比VQSR之前Call出的SNV數(shù)量更接近。
說(shuō)明VQSR對(duì)GATK4.0和GATK3.5 Call出SNV的數(shù)量的影響比較大,通過(guò)調(diào)整VQSR的具體參數(shù)可減少軟件間的差異。
另,VQSR中,當(dāng)分析外顯子測(cè)序數(shù)據(jù)時(shí),不要用 -an DP 這個(gè)參數(shù),因?yàn)樯疃葘?duì)外顯子測(cè)序數(shù)據(jù)影響比較大。

VQSR前

VQSR后

5.取DP>=10時(shí),在VQSR前后的GATK4.0和GATK3.5 Call出的SNV數(shù)量比較

VQSR前后的SNV的數(shù)量都隨著DP值的增加而減少,減少到一定值后趨于平緩。
我們?nèi)P>=10時(shí)的兩軟件Call出的SNV數(shù)量分別做VQSR前和VQSR后的韋恩圖。
注:兩個(gè)軟件生成的vcf文件都是用的GATK3.5的VQSR,以去除不同軟件不同VQSR的影響。


印證了DP對(duì)兩個(gè)軟件差異的影響,同時(shí)也說(shuō)明了VQSR前后對(duì)Call出的SNV數(shù)量的影響。

6.VQSR在GATK4.0和GATK3.5中的比較


紅色的是基本參數(shù),藍(lán)色的是變化,其中明顯變化是,GATK4.0的VQSR將snp和indel合并處理,而GATK3.5則是分開(kāi)的。

7.結(jié)論

GATK4.0和GATK3.5針對(duì)Call SNV數(shù)量上的差異主要在于外顯子測(cè)序數(shù)據(jù)的DP值比較低,導(dǎo)致兩個(gè)軟件對(duì)于低DP值Call出的SNV保留與否存在差異,GATK4.0有更大的包容性。我們可以通過(guò)VQSR的參數(shù)設(shè)置,針對(duì)DP值做詳細(xì)的篩選過(guò)濾,來(lái)縮小兩個(gè)軟件間的差異。

補(bǔ)充:
GATK4 速度:
https://gatkforums.broadinstitute.org/gatk/discussion/11283/gatk3-8-vs-gatk4-va-gatk4spark-the-newer-the-slower

HC在GATK4和GATK3:
https://gatkforums.broadinstitute.org/gatk/discussion/9957/haplotypecaller-in-gatk4-vs-gatk3

GATK4的云流程:
https://help.aliyun.com/document_detail/60414.html?spm=5176.11065259.1996646101.searchclickresult.14c51b0bIlpQgI


Performance benchmarking of GATK3.8 and GATK4:
https://www.biorxiv.org/content/biorxiv/early/2018/06/18/348565.full.pdf

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容