變異vcf文件可視化神器

今天給大家?guī)硪豢罘浅7奖愫糜玫腟NP變異vcf文件可視化神器:VariantQC。聽到這個(gè)名字有沒有似曾相識(shí)的感覺,嘿嘿嘿。沒錯(cuò),那就是FastqC了。相信大家對(duì)這個(gè)軟件肯定再再再熟悉不過了,畢竟它就是每個(gè)人接觸學(xué)習(xí)生物信息學(xué)一開始都會(huì)使用到的工具。相信通過這么一類比大家大概也知道VariantQC是拿來干嘛的了。好廢話不多說,下面和大家學(xué)習(xí)一下該工具的使用,簡(jiǎn)單了解一下其方便好用的功能。

工具簡(jiǎn)介

首先簡(jiǎn)單說說該工具的產(chǎn)生背景。大規(guī)模基因組研究往往會(huì)產(chǎn)生成百上千萬個(gè)變異序列。為確保變異和基因型數(shù)據(jù)的一致性和準(zhǔn)確性,每個(gè)研究者都有必要在進(jìn)行下游分析之前評(píng)估變異文件的質(zhì)量。然而產(chǎn)生的數(shù)據(jù)集由于太大,基本不可能通過人工進(jìn)行檢查檢驗(yàn)。另外,變異文件VCF并不便于生成變異摘要統(tǒng)計(jì)信息。

在這重重困難之下,變異文件可視化神器VariantQC填補(bǔ)了這一空白。這個(gè)工具不但能為用戶提供友好的交互式的變異可視化QC報(bào)告,生成并簡(jiǎn)明地總結(jié)了VCF文件的統(tǒng)計(jì)數(shù)據(jù)。更強(qiáng)大的是,該工具可以分別按照染色體,樣本和過濾條件分別匯產(chǎn)生匯總報(bào)告(后面會(huì)給大家詳盡介紹)。VariantQC產(chǎn)生的報(bào)告對(duì)于高級(jí)數(shù)據(jù)集摘要,質(zhì)量控制和幫助標(biāo)記具有異常值的變異位點(diǎn)或者樣本非常有用。此外,VariantQC可以直接在VCF文件上運(yùn)行,因此可以輕松地加載到不同變異calling的流程中。

工具下載

VariantQC其實(shí)是DISCVRSeq其中一個(gè)工具集,是一個(gè)JAVA編寫的程序。直接到GitHub上復(fù)制,就能直接使用了。

通過GitHub下載:

git clone https://github.com/BimberLab/DISCVRSeq/

幫助文檔地址:

https://bimberlab.github.io/DISCVRSeq/

正如上面提到的,VariantQC 可以通過DISVRseq.jar進(jìn)行調(diào)用:

java -jar DISCVRseq.jar VariantQC --help

java -jar DISCVRseq.jar VariantQC -O output_file -R ref.fa -V variant.vcf

###主要的三個(gè)參數(shù)分別是-O,-R和-V,分別對(duì)應(yīng)著輸入文件的名稱,參考序列文件和變異vcf文件。

當(dāng)然如果你有興趣了解DISCVRseq中其它的工具,可以通過下面的命令進(jìn)行查看:

java -jar DISCVRseq.jar --list 

實(shí)戰(zhàn)展示

在使用VariantQC之前,需要進(jìn)行一些準(zhǔn)備工作。首先是要分別對(duì)參考序列和變異vcf文件進(jìn)行index:

對(duì)參考序列進(jìn)行index,這一步一般在使用GATK去callSNP之前都會(huì)去做:

samtools faidx genome.fasta 
java -jar picard.jar CreateSequenceDictionary R=genome.fasta O=genome.dict

然后就是給變異文件進(jìn)行index,生成xxx.vcf.idx文件,這里使用到GATK4.0:

java -jar ~/biosoft/gatk-4.0.3.0/gatk-package-4.0.3.0-local.jar IndexFeatureFile -F variants.vcf

準(zhǔn)備工作做好了就可以開始使用我們的神器了,其運(yùn)行時(shí)間和你VCF文件的大小,變異的數(shù)量有關(guān),這里我使用的是一個(gè)簡(jiǎn)單的測(cè)試文件,不到一會(huì)就運(yùn)行完了,生成了一個(gè).html格式的報(bào)告文件:

java -jar DISCVRseq.jar VariantQC -O report.html -R ref.fa -V variant.vcf

那么事不宜遲,現(xiàn)在就讓我打開潘多拉寶盒。使用你的瀏覽器打開生成的html格式文件,來看看這個(gè)報(bào)告長(zhǎng)成什么樣子:

這里由于長(zhǎng)度的現(xiàn)在,只截取了部分的圖片。首先呢,該工具可以從四個(gè)角度來可視化VCF文件,分別是Entire VCF,By Contig,By SampleBy Filter Type。我個(gè)人是特別喜歡By Sample,因?yàn)闃O大的方便我找到看到不同樣本中VCF變異的數(shù)量等,以便快速發(fā)現(xiàn)outliner。

然后在每一個(gè)可視化的角度,里面提供了不同類別的VCF變異文件的統(tǒng)計(jì)數(shù)據(jù),這里我截取Entire VCF角度下的統(tǒng)計(jì)數(shù)據(jù),和大家簡(jiǎn)單了解一下其可視化的效果:

Variant Summary

這個(gè)圖中可以看到被called的,被filtered的變異(我的測(cè)試數(shù)據(jù)沒有進(jìn)行filter,所以這一行是空的)和原始Raw的變異統(tǒng)計(jì)信息。統(tǒng)計(jì)信息有多達(dá)27列,例如總的位點(diǎn),被called的位點(diǎn),總的變異位點(diǎn)數(shù)等等一些列的統(tǒng)計(jì)數(shù)據(jù)。你還可以使用上面的Configure Columns功能進(jìn)行自定義你的列,然后使用Plot功能畫出你想要的列的圖。

Variant Type

然后就是變異的類型,這里可以按照變異所對(duì)應(yīng)的reads的數(shù)目或者其對(duì)應(yīng)的百分比進(jìn)行展示。這樣就是可以清晰看到各種SNPs,Insertions,Deletions一系列變異的數(shù)量。該圖片也是可以使用export plot 功能隨時(shí)輸出的。

Genotype Summary

下面是基因型統(tǒng)計(jì)總結(jié),展示了被called還有沒有被called的基因型數(shù)目:

SNP/Indel Summary

接著是SNP和Indel的統(tǒng)計(jì)總結(jié),包括了SNPs的數(shù)目,singleton SNPs的數(shù)目,Indels數(shù)目等等的信息。

Ti/Tv Data

這個(gè)是Transition 和 Transversion變異的總結(jié):


最后兩個(gè)是按照變異過濾的類型和進(jìn)行統(tǒng)計(jì)的由于這里我沒有進(jìn)行進(jìn)行過濾,其輸出的圖片和信息基本沒什么意義,就不繼續(xù)展示了。

另外這個(gè)報(bào)告右側(cè)還有一個(gè)非常好用小工具欄:



便于你將圖表重命名,highlight你感興趣的樣本,隱藏你不想展示的樣本,還有下載對(duì)應(yīng)的圖等等,一系列實(shí)用幫助你快速出圖的小功能。

好啦,今天介紹就到這里了。紙上得來終覺淺,大家可以使用自己的數(shù)據(jù)測(cè)試了解一下。如果你沒有合適的數(shù)據(jù)也可以到評(píng)論區(qū)的百度云鏈接上下載我的測(cè)試報(bào)告,拿來耍一耍。最后大家有沒有覺得這個(gè)工具很溜,那么請(qǐng)轉(zhuǎn)發(fā),點(diǎn)擊文末的好看和關(guān)注我們,素質(zhì)三連發(fā)支持起來,分享給更多的朋友。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 這才是我最愛的季節(jié) 明亮的陽光 讓我不敢直視 只好謙卑地低著頭 像綠葉下正鼓脹甜蜜的果實(shí) 裁一片湛藍(lán)湛藍(lán)的天 做成...
    水仙書生閱讀 247評(píng)論 0 0
  • 我也曾愛過月亮, 直到我融化在陽光里。
    阿燈啊阿燈閱讀 426評(píng)論 0 0
  • 獨(dú)釣云煙閱讀 456評(píng)論 6 11

友情鏈接更多精彩內(nèi)容