初識GATK

1.什么是GATK

GATK是Genome Analysis Toolkit的縮寫,是用來處理高通量測序數(shù)據(jù)的一套軟件。最初,GATK被設計用來分析人類基因組和外顯子,主要用來尋找SNP和indel。后開,GATK的功能越來越豐富,增加了short variant calling、計算copy number(CNV)和結構變異(SV)等新功能。同時,GATK也越來越廣泛地應用于其他物種的數(shù)據(jù)分析中?,F(xiàn)在,GATK已經成為了基因組和RNA-seq分析過程中,尋找變異的行業(yè)標準。

2. GATK分析的pepline

用GATK尋找SNP和Indel,有一個標準的分析流程叫做GATK Best Practise主要包括以下幾個步驟:

數(shù)據(jù)預處理:對從測序儀下機后的數(shù)據(jù)進行質控,去除低質量的reads,將過濾后的reads比對到參考基因組上,產生BAM格式的比對文件。

尋找變異:進行variant calling,尋找SNP和Indel,將比對數(shù)據(jù)存儲在VCF格式的文件中。

使用尋找出的變異位點進行后續(xù)的分析。

3.計算機平臺和運行環(huán)境

GATK支持Linux和MacOS X,不支持Windows系統(tǒng)。GATK是用java語言寫的,所以需要系統(tǒng)安裝Java 1.8,其中的一些工具還依賴R和Python。

4.GATK4中的工具

GATK中提供了豐富的工具,供我們對數(shù)據(jù)進行操作和處理,主要涵蓋以下方面:

Copy Number Variant Discovery

Coverage Analysis

Diagnostics and Quality Control

Intervals Manipulation

Metagenomics

Other

Read Data Manipulation

Reference

Short Variant Discovery

Structural Variant Discovery

Variant Evaluation and Refinement

Variant Filtering

Variant Manipulation

Base Calling

Read Filters

Variant Annotations

具體的工具和使用方法可參考官網。

另外,在GATK4中新增加了Picard Toolkit,用來對測序數(shù)據(jù)進行質控。所有的Picard工具都可以使用GATK命令行調用。

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

友情鏈接更多精彩內容