不合適的人類參考基因組使mapping質(zhì)量為0

之前抄著gatk的Best Practices做了個somatic的流程,用的是gatk這個頁面發(fā)布的ucsc.hg19.fasta(md5sum a244d8a32473650b25c6e8e1654387d6)。
在測試某贏給的標(biāo)準(zhǔn)品時,發(fā)現(xiàn)有一個經(jīng)他們wes檢驗(yàn)的位點(diǎn),我這邊無法call出。其實(shí)對于gatk這些疑似bug,我也見怪不怪了,之前查過gatk論壇,發(fā)現(xiàn)這情況不在少數(shù),官方維護(hù)者似乎也給不出明確的答復(fù),我倒是遇見過一些由于soft cliping原因出不來的位點(diǎn)(但這種位點(diǎn)是否要保留,我也不太清楚,這里貼個我請教過bcftool的鏈接),總之gatk用個--alleles強(qiáng)制call,肯定是能出的。如果有想徹底弄明白的朋友,可以看看這兩篇帖子
Why do a clear expected variant not show up in the Mutect2 vcf file – GATK
Mutect2 missing a low AF known deletion – GATK
回過頭發(fā)現(xiàn)還是無法call出,到igv查看此位點(diǎn),發(fā)現(xiàn)mapping質(zhì)量為0,即匹配到參考基因組多個位置上。

chr6_30856775.png

而在運(yùn)行mutect2時,在控制臺上其實(shí)可以看到
mutect2默認(rèn)過濾.png

顯然,mutect2運(yùn)行時,默認(rèn)開啟的過濾器將其過濾了,關(guān)閉mapq相關(guān)過濾器-DF MappingQualityAvailableReadFilter -DF MappingQualityNotZeroReadFilter -DF MappingQualityReadFilter
這樣操作,結(jié)果當(dāng)然是能湊出來。但是,由此也讓人十分好奇這種大面積mapq為0的原因。
由于我igv用的不是太熟,不清楚有沒有辦法基于igv查是對比到了哪些序列,于是是在igv上復(fù)制了其中一條reads,在blat上比對。
比如CTGGGCATGCAGGACCGGACCATCCCAGACAGTGACATCTCTGCTTCCAGCTCCTGGTCAGATTCCACTGCCGGCCGCCACAGCAGGTACTTGGCACACCTGGCACACTTGTAGCTGCCCCGAGAGGAGCTCCTGGGACCTCTACTTCCC
blat結(jié)果chr6.png

可以看到,這段序列匹配到了(其它一些十幾bp的軟剪切就不說了)

>chr6_qbl_hap6
>chr6_mcf_hap5
>chr6_mann_hap4
>chr6_dbb_hap3
>chr6_cox_hap2
>chr6_apd_hap1
>chr6

根據(jù)小道消息(https://springwood.me/ngs-somatic-mutation/),只保留常染色體與性染色體,結(jié)果是全比上去了,甚至深度還和突變頻率還都提高不少。

chr6_30856775_限定染色體前后.png

那么,我們可以簡單粗暴地只要常染色體和性染色體嗎?我想答案是否定的。
這一點(diǎn),其實(shí)varsome給出了他們的答案Which reference genome is being used to align the reads? (varsome.com)
image.png

在學(xué)習(xí)gatk此網(wǎng)頁后(Human genome reference builds - GRCh38 or hg38 - b37 - hg19 – GATK (broadinstitute.org),也就可以了解其用意了,核心思想總之是,去除具有高度多態(tài)性的重疊區(qū)域,因?yàn)檫@些區(qū)域會影響比對質(zhì)量。
那為什么不把chr_random和chr_un這些都刪掉,反正我設(shè)計(jì)bed也沒打算測它們,或許還能提高運(yùn)行速度?
這時候就得考慮實(shí)際實(shí)驗(yàn)時候的脫靶了,chr_random和chr_un都是在人體內(nèi)真實(shí)存在的序列,假設(shè)一個不小心,脫靶測到了這段,比對時候各歸其位還好說。但倘若所用的參考序列里刪了這些chr_random和chr_un,本該比到chr_random和chr_un的序列強(qiáng)行比對上保留的常染色體和性染色體,會有假陽的風(fēng)險。如果覺得不太明白可以看biostars上的這個問題

到這里,問題也就解決了。后面在ucsc晃悠時,我才發(fā)現(xiàn)這個ucsc有對這個問題做出解決(http://hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/analysisSet/)

image.png

而且liheng大佬在17年就說這個事了(而我在22年還在全網(wǎng)狂搜.....),不過大佬推薦的是千人基因組的(https://ftp-trace.ncbi.nih.gov/1000genomes/ftp/technical/reference/human_g1k_v37.fasta.gz),ucsc還專門貼了鏈接,知恥而后勇了可能是。
還有一點(diǎn)奇怪的是,gatk存檔的ucsc參考基因組md5為 a244d8a32473650b25c6e8e1654387d6
http://hgdownload.cse.ucsc.edu/goldenPath/hg19/bigZips/hg19.fa.gz 806c02398f5ac5da8ffd6da2d1d5d1a9
http://hgdownload.cse.ucsc.edu/goldenPath/hg19/bigZips/latest/hg19.fa.gz 7707462fc100c7d987c075bc146b16ae
和ucsc的兩個版本都和其對不上,我個人猜測是初版--迭代版(gatk)--最新版的關(guān)系。
另外,云分析平臺DNAnexus也有關(guān)于參考基因組的說明與推薦
目前看來,我用bwa的話直接下載
http://hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/analysisSet/hg19.p13.plusMT.no_alt_analysis_set.bwa_index.tar.gz
可能是最省事的,或者下載human_g1k_v37與hs37d5。
這邊也看到一個比較全面的關(guān)于人類參考基因組的帖子
常用或特別的人類fasta參考基因組下載鏈接 - 知乎 (zhihu.com)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容