NGS分析手把手教學(xué):全基因組分析GATK4管道教程詳解(有完整代碼)

??不想充值付費(fèi)的小伙伴可以點(diǎn)贊,會(huì)隨機(jī)挑選幸運(yùn)觀眾贈(zèng)送全文。

目錄

前言
1.分析環(huán)境的配置
2.數(shù)據(jù)準(zhǔn)備
3.QC處理
4.Index和Mapping
5.Variant Calling
-- 5.1 去重復(fù)
-- 5.2 read可視化(可選)
-- 5.3 BQSR處理
--- 5.3.1 Variant已知的情況
--- 5.3.2 Variant未知的情況
-- 5.4 對(duì)比BQSR的效果(可選)
-- 5.5 最終Variant Calling
全劇終

前言

GATK歷史悠久,2020年更新到了版本4,所有代碼都變成了完全開源,童叟無欺。想寫教程已經(jīng)很久了,拖延癌一直到了現(xiàn)在。所有管道流程已經(jīng)設(shè)置好,只需要復(fù)制黏貼代碼。從此SNPs, Indels分析再也不需要花錢找平臺(tái)了,本地硬盤夠大的話自己的電腦也可以操作,沒有服務(wù)器也不是問題。省下來的經(jīng)費(fèi)可以買排骨吃。
平臺(tái)是linux或者M(jìn)ac最好,windows學(xué)生黨用戶的話也沒有問題??梢詤⒖?a href="http://www.itdecent.cn/p/67fb3999af2e" target="_blank">Windows10下掛Linux子系統(tǒng)做生信分析。
本文參考了紐約大學(xué)的GATK4 Best Practices Workflows 官方指南,但是官方指南只能一個(gè)樣本一個(gè)樣本的操作,生產(chǎn)力低下。所以特此加以改編,可以把所有的樣本都最后歸納到一個(gè)VCF文件里。至于后續(xù)對(duì)VCF文件的分析可以參考我的專題vcf數(shù)據(jù)分析,有花篇幅介紹過。

1.分析環(huán)境的配置

整個(gè)分析流程可以細(xì)分成很多步驟,比方說下機(jī)序列數(shù)據(jù)fastq的質(zhì)量檢驗(yàn),Mapping, 最后的Variant Calling。途中會(huì)生成很多文件,為了不造成混亂,可以提前為每一步設(shè)置好文件夾。

PROJECT_PATH=/home/Jason/gatk4

mkdir -p ${PROJECT_PATH}
cd ${PROJECT_PATH}

pwd
## /home/Jason/gatk4

mkdir genome
mkdir fastq
mkdir cleaned_fastq
mkdir bam
mkdir bqsr
mkdir vcf
  • genome:參照序列
  • fastq:下機(jī)序列
  • cleaned_fastq:QC處理以后的數(shù)據(jù)
  • bam: mapping以后的bam文件
  • bqsr: 經(jīng)過bqsr校準(zhǔn)過以后的bam文件
  • vcf:最后的vcf格式的結(jié)果

2.數(shù)據(jù)準(zhǔn)備

還有 84% 的精彩內(nèi)容
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。
禁止轉(zhuǎn)載,如需轉(zhuǎn)載請(qǐng)通過簡(jiǎn)信或評(píng)論聯(lián)系作者。
支付 ¥6.00 繼續(xù)閱讀

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容