1.什么是GATK

GATK是Genome Analysis Toolkit的縮寫,是用來處理高通量測序數(shù)據(jù)的一套軟件。最初,GATK被設計用來分析人類基因組和外顯子,主要用來尋找SNP和indel。后開,GATK的功能越來越豐富,增加了short variant calling、計算copy number(CNV)和結構變異(SV)等新功能。同時,GATK也越來越廣泛地應用于其他物種的數(shù)據(jù)分析中?,F(xiàn)在,GATK已經成為了基因組和RNA-seq分析過程中,尋找變異的行業(yè)標準。
2. GATK分析的pepline

用GATK尋找SNP和Indel,有一個標準的分析流程叫做GATK Best Practise主要包括以下幾個步驟:
數(shù)據(jù)預處理:對從測序儀下機后的數(shù)據(jù)進行質控,去除低質量的reads,將過濾后的reads比對到參考基因組上,產生BAM格式的比對文件。
尋找變異:進行variant calling,尋找SNP和Indel,將比對數(shù)據(jù)存儲在VCF格式的文件中。
使用尋找出的變異位點進行后續(xù)的分析。
3.計算機平臺和運行環(huán)境

GATK支持Linux和MacOS X,不支持Windows系統(tǒng)。GATK是用java語言寫的,所以需要系統(tǒng)安裝Java 1.8,其中的一些工具還依賴R和Python。
4.GATK4中的工具

GATK中提供了豐富的工具,供我們對數(shù)據(jù)進行操作和處理,主要涵蓋以下方面:
Copy Number Variant Discovery
Coverage Analysis
Diagnostics and Quality Control
Intervals Manipulation
Metagenomics
Other
Read Data Manipulation
Reference
Short Variant Discovery
Structural Variant Discovery
Variant Evaluation and Refinement
Variant Filtering
Variant Manipulation
Base Calling
Read Filters
Variant Annotations
具體的工具和使用方法可參考官網。
另外,在GATK4中新增加了Picard Toolkit,用來對測序數(shù)據(jù)進行質控。所有的Picard工具都可以使用GATK命令行調用。