
??不想充值付費(fèi)的小伙伴可以點(diǎn)贊,會(huì)隨機(jī)挑選幸運(yùn)觀眾贈(zèng)送全文。
目錄
前言
1.分析環(huán)境的配置
2.數(shù)據(jù)準(zhǔn)備
3.QC處理
4.Index和Mapping
5.Variant Calling
-- 5.1 去重復(fù)
-- 5.2 read可視化(可選)
-- 5.3 BQSR處理
--- 5.3.1 Variant已知的情況
--- 5.3.2 Variant未知的情況
-- 5.4 對(duì)比BQSR的效果(可選)
-- 5.5 最終Variant Calling
全劇終
前言
GATK歷史悠久,2020年更新到了版本4,所有代碼都變成了完全開源,童叟無欺。想寫教程已經(jīng)很久了,拖延癌一直到了現(xiàn)在。所有管道流程已經(jīng)設(shè)置好,只需要復(fù)制黏貼代碼。從此SNPs, Indels分析再也不需要花錢找平臺(tái)了,本地硬盤夠大的話自己的電腦也可以操作,沒有服務(wù)器也不是問題。省下來的經(jīng)費(fèi)可以買排骨吃。
平臺(tái)是linux或者M(jìn)ac最好,windows學(xué)生黨用戶的話也沒有問題??梢詤⒖?a href="http://www.itdecent.cn/p/67fb3999af2e" target="_blank">Windows10下掛Linux子系統(tǒng)做生信分析。
本文參考了紐約大學(xué)的GATK4 Best Practices Workflows 官方指南,但是官方指南只能一個(gè)樣本一個(gè)樣本的操作,生產(chǎn)力低下。所以特此加以改編,可以把所有的樣本都最后歸納到一個(gè)VCF文件里。至于后續(xù)對(duì)VCF文件的分析可以參考我的專題vcf數(shù)據(jù)分析,有花篇幅介紹過。
1.分析環(huán)境的配置
整個(gè)分析流程可以細(xì)分成很多步驟,比方說下機(jī)序列數(shù)據(jù)fastq的質(zhì)量檢驗(yàn),Mapping, 最后的Variant Calling。途中會(huì)生成很多文件,為了不造成混亂,可以提前為每一步設(shè)置好文件夾。
PROJECT_PATH=/home/Jason/gatk4
mkdir -p ${PROJECT_PATH}
cd ${PROJECT_PATH}
pwd
## /home/Jason/gatk4
mkdir genome
mkdir fastq
mkdir cleaned_fastq
mkdir bam
mkdir bqsr
mkdir vcf
-
genome:參照序列 -
fastq:下機(jī)序列 -
cleaned_fastq:QC處理以后的數(shù)據(jù) -
bam: mapping以后的bam文件 -
bqsr: 經(jīng)過bqsr校準(zhǔn)過以后的bam文件 -
vcf:最后的vcf格式的結(jié)果