今天給大家?guī)硪豢罘浅7奖愫糜玫腟NP變異vcf文件可視化神器:VariantQC。聽到這個(gè)名字有沒有似曾相識(shí)的感覺,嘿嘿嘿。沒錯(cuò),那就是FastqC了。相信大家對(duì)這個(gè)軟件肯定再再再熟悉不過了,畢竟它就是每個(gè)人接觸學(xué)習(xí)生物信息學(xué)一開始都會(huì)使用到的工具。相信通過這么一類比大家大概也知道VariantQC是拿來干嘛的了。好廢話不多說,下面和大家學(xué)習(xí)一下該工具的使用,簡(jiǎn)單了解一下其方便好用的功能。
工具簡(jiǎn)介
首先簡(jiǎn)單說說該工具的產(chǎn)生背景。大規(guī)模基因組研究往往會(huì)產(chǎn)生成百上千萬個(gè)變異序列。為確保變異和基因型數(shù)據(jù)的一致性和準(zhǔn)確性,每個(gè)研究者都有必要在進(jìn)行下游分析之前評(píng)估變異文件的質(zhì)量。然而產(chǎn)生的數(shù)據(jù)集由于太大,基本不可能通過人工進(jìn)行檢查檢驗(yàn)。另外,變異文件VCF并不便于生成變異摘要統(tǒng)計(jì)信息。
在這重重困難之下,變異文件可視化神器VariantQC填補(bǔ)了這一空白。這個(gè)工具不但能為用戶提供友好的交互式的變異可視化QC報(bào)告,生成并簡(jiǎn)明地總結(jié)了VCF文件的統(tǒng)計(jì)數(shù)據(jù)。更強(qiáng)大的是,該工具可以分別按照染色體,樣本和過濾條件分別匯產(chǎn)生匯總報(bào)告(后面會(huì)給大家詳盡介紹)。VariantQC產(chǎn)生的報(bào)告對(duì)于高級(jí)數(shù)據(jù)集摘要,質(zhì)量控制和幫助標(biāo)記具有異常值的變異位點(diǎn)或者樣本非常有用。此外,VariantQC可以直接在VCF文件上運(yùn)行,因此可以輕松地加載到不同變異calling的流程中。
工具下載
VariantQC其實(shí)是DISCVRSeq其中一個(gè)工具集,是一個(gè)JAVA編寫的程序。直接到GitHub上復(fù)制,就能直接使用了。
通過GitHub下載:
git clone https://github.com/BimberLab/DISCVRSeq/
幫助文檔地址:
https://bimberlab.github.io/DISCVRSeq/
正如上面提到的,VariantQC 可以通過DISVRseq.jar進(jìn)行調(diào)用:
java -jar DISCVRseq.jar VariantQC --help
java -jar DISCVRseq.jar VariantQC -O output_file -R ref.fa -V variant.vcf
###主要的三個(gè)參數(shù)分別是-O,-R和-V,分別對(duì)應(yīng)著輸入文件的名稱,參考序列文件和變異vcf文件。
當(dāng)然如果你有興趣了解DISCVRseq中其它的工具,可以通過下面的命令進(jìn)行查看:
java -jar DISCVRseq.jar --list
實(shí)戰(zhàn)展示
在使用VariantQC之前,需要進(jìn)行一些準(zhǔn)備工作。首先是要分別對(duì)參考序列和變異vcf文件進(jìn)行index:
對(duì)參考序列進(jìn)行index,這一步一般在使用GATK去callSNP之前都會(huì)去做:
samtools faidx genome.fasta
java -jar picard.jar CreateSequenceDictionary R=genome.fasta O=genome.dict
然后就是給變異文件進(jìn)行index,生成xxx.vcf.idx文件,這里使用到GATK4.0:
java -jar ~/biosoft/gatk-4.0.3.0/gatk-package-4.0.3.0-local.jar IndexFeatureFile -F variants.vcf
準(zhǔn)備工作做好了就可以開始使用我們的神器了,其運(yùn)行時(shí)間和你VCF文件的大小,變異的數(shù)量有關(guān),這里我使用的是一個(gè)簡(jiǎn)單的測(cè)試文件,不到一會(huì)就運(yùn)行完了,生成了一個(gè).html格式的報(bào)告文件:
java -jar DISCVRseq.jar VariantQC -O report.html -R ref.fa -V variant.vcf
那么事不宜遲,現(xiàn)在就讓我打開潘多拉寶盒。使用你的瀏覽器打開生成的html格式文件,來看看這個(gè)報(bào)告長(zhǎng)成什么樣子:
這里由于長(zhǎng)度的現(xiàn)在,只截取了部分的圖片。首先呢,該工具可以從四個(gè)角度來可視化VCF文件,分別是Entire VCF,By Contig,By Sample 和By Filter Type。我個(gè)人是特別喜歡By Sample,因?yàn)闃O大的方便我找到看到不同樣本中VCF變異的數(shù)量等,以便快速發(fā)現(xiàn)outliner。
然后在每一個(gè)可視化的角度,里面提供了不同類別的VCF變異文件的統(tǒng)計(jì)數(shù)據(jù),這里我截取Entire VCF角度下的統(tǒng)計(jì)數(shù)據(jù),和大家簡(jiǎn)單了解一下其可視化的效果:
Variant Summary
這個(gè)圖中可以看到被called的,被filtered的變異(我的測(cè)試數(shù)據(jù)沒有進(jìn)行filter,所以這一行是空的)和原始Raw的變異統(tǒng)計(jì)信息。統(tǒng)計(jì)信息有多達(dá)27列,例如總的位點(diǎn),被called的位點(diǎn),總的變異位點(diǎn)數(shù)等等一些列的統(tǒng)計(jì)數(shù)據(jù)。你還可以使用上面的Configure Columns功能進(jìn)行自定義你的列,然后使用Plot功能畫出你想要的列的圖。
Variant Type
然后就是變異的類型,這里可以按照變異所對(duì)應(yīng)的reads的數(shù)目或者其對(duì)應(yīng)的百分比進(jìn)行展示。這樣就是可以清晰看到各種SNPs,Insertions,Deletions一系列變異的數(shù)量。該圖片也是可以使用export plot 功能隨時(shí)輸出的。
Genotype Summary
下面是基因型統(tǒng)計(jì)總結(jié),展示了被called還有沒有被called的基因型數(shù)目:
SNP/Indel Summary
接著是SNP和Indel的統(tǒng)計(jì)總結(jié),包括了SNPs的數(shù)目,singleton SNPs的數(shù)目,Indels數(shù)目等等的信息。
Ti/Tv Data
這個(gè)是Transition 和 Transversion變異的總結(jié):
最后兩個(gè)是按照變異過濾的類型和進(jìn)行統(tǒng)計(jì)的由于這里我沒有進(jìn)行進(jìn)行過濾,其輸出的圖片和信息基本沒什么意義,就不繼續(xù)展示了。
另外這個(gè)報(bào)告右側(cè)還有一個(gè)非常好用小工具欄:
便于你將圖表重命名,highlight你感興趣的樣本,隱藏你不想展示的樣本,還有下載對(duì)應(yīng)的圖等等,一系列實(shí)用幫助你快速出圖的小功能。
好啦,今天介紹就到這里了。紙上得來終覺淺,大家可以使用自己的數(shù)據(jù)測(cè)試了解一下。如果你沒有合適的數(shù)據(jù)也可以到評(píng)論區(qū)的百度云鏈接上下載我的測(cè)試報(bào)告,拿來耍一耍。最后大家有沒有覺得這個(gè)工具很溜,那么請(qǐng)轉(zhuǎn)發(fā),點(diǎn)擊文末的好看和關(guān)注我們,素質(zhì)三連發(fā)支持起來,分享給更多的朋友。