2019-06-11 解讀vcf格式文件

https://blog.csdn.net/genome_denovo/article/details/78697679


第二章:生物信息分析

第一節(jié):解讀vcf格式文件

1,vcf格式說明

VCF格式:Variant Call Format,用于記錄variants (SNP / InDel)的文件格式,關(guān)于其說明,詳見:http://gatkforums.broadinstitute.org/discussion/1268/how-should-i-interpret-vcf-files-produced-by-the-gatk

VCF是用于描述SNP,InDel和SV結(jié)果的文本文件。VCF格式在GATK軟件中得到很好的支持。

2,vcf文件結(jié)構(gòu)

VCF文件分為兩部分內(nèi)容:以“#”開頭的注釋部分和沒有“#”開頭的主體部分。(注釋部分和主題部分);注釋部分有很多對(duì)VCF的介紹信息;主體部分包含10列數(shù)據(jù)。主題部分每一行代表一個(gè)variant的信息。

主體部分10列的范例:

chrM 150 . T C 7766.77 PASS AC=2;AF=1.00;AN=2;DP=199;ExcessHet=3.0103;FS=0.000;MLEAC=2;MLEAF=1.00;MQ=49.78;QD=32.91;SOR=0.904 GT:AD:DP:GQ:PL 1/1:0,175:175:99:7795,531,0

3,主體部分的10列分別代表的意義

CHROM : 參考序列名稱

POS : variant所在的left-most位置(1-base position)(發(fā)生變異的位置的第一個(gè)堿基所在的位置)

ID : variant的ID。同時(shí)對(duì)應(yīng)著dbSNP數(shù)據(jù)庫(kù)中的ID,若沒有,則默認(rèn)使用‘.’

REF : 參考序列的Allele,(等位堿基,即參考序列該位置的堿基類型及堿基數(shù)量)

ALT : variant的Allele,若有多個(gè),則使用逗號(hào)分隔,(變異所支持的堿基類型及堿基數(shù)量)這里的堿基類型和堿基數(shù)量,對(duì)于SNP來說是單個(gè)堿基類型的編號(hào),而對(duì)于Indel來說是指堿基個(gè)數(shù)的添加或缺失,以及堿基類型的變化

QUAL : variants的質(zhì)量。Phred格式的數(shù)值,代表著此位點(diǎn)是純合的概率,此值越大,則概率越低,代表著次位點(diǎn)是variants的可能性越大。(表示變異堿基的可能性)

FILTER : 次位點(diǎn)是否要被過濾掉。如果是PASS,則表示此位點(diǎn)可以考慮為variant。

INFO : variant的相關(guān)信息

FORMAT : variants的格式,例如GT:AD:DP:GQ:PL

SAMPLES : 各個(gè)Sample的值,由BAM文件中的@RG下的SM標(biāo)簽所決定,這些值對(duì)應(yīng)著第9列的各個(gè)格式,不同格式的值用冒號(hào)分開,每一個(gè)sample對(duì)應(yīng)著1列;多個(gè)samples則對(duì)應(yīng)著多列,這種情況下列的數(shù)多余10列。

4,vcf文件的基因型信息

VCF文件的主體部分的第9列是基因型信息的多個(gè)標(biāo)簽,這些標(biāo)簽之間以冒號(hào)分割,其對(duì)應(yīng)的值位于第10列,同樣以冒號(hào)分割,表示第一個(gè)樣品的基因型結(jié)果。若有多個(gè)樣品,則VCF文件超過10列,且第10列后的每一列表示一個(gè)樣品的基因型結(jié)果。第9列各個(gè)標(biāo)簽的意義展示如下:

GT : genotype

樣品的基因型(genotype),兩個(gè)數(shù)字中間用‘/’分開,這兩個(gè)數(shù)字表示雙倍體的sample的基因型。0表示樣品中有ref的allele(可初步理解為和ref的堿基相同,即和REF相同);1表示樣品中的variant的allele(可以理解為和variant變異后的堿基相同,即和ALT相同);2表示有第二個(gè)variant的allele(和ALT的第二種堿基相同)對(duì)于SNP是指單個(gè)堿基類型相同而對(duì)于Indel是指堿基類型及個(gè)數(shù)均相同

因此根據(jù)GT的結(jié)果得出以下結(jié)論:

0/0表示sample中該位點(diǎn)為純合位點(diǎn),和REF的堿基類型一致

0/1表示sample中該位點(diǎn)為雜合突變,有REF和ALT兩個(gè)基因型(部分堿基和REF堿基類型一致,部分堿基和ALT堿基類型一致)

1/1表示sample中該位點(diǎn)為純合突變,總體突變類型和ALT堿基類型一致

1/2表示sample中該位點(diǎn)為雜合突變,有ALT1和ALT2兩個(gè)基因型(部分和ALT1堿基類型一致,部分和ALT2堿基類型一致)

AD和DP

AD(Allele Depth)為sample中每一種allele(等位堿基)的reads覆蓋度,在diploid(二倍體,或可指代多倍型)中則是用逗號(hào)分隔的兩個(gè)值,前者對(duì)應(yīng)REF基因,后者對(duì)應(yīng)ALT基因型;

DP(Depth)為sample中該位點(diǎn)的覆蓋度,是所支持的兩個(gè)AD值(逗號(hào)前和逗號(hào)后)的加和;例如:

1/1:0,175:175—GT:AD(REF),AD(ALT):DP

0/1:79,96:175

1/2:0,20,56:76

這里的三種類型對(duì)應(yīng)的DP值均是其對(duì)應(yīng)的AD值的加和,1/1的175是0+175,0/1的175是79+96,1/2的76是0+20+56

GQ(基因型存在的概率)

基因型的質(zhì)量值(Genotype Quality)。Phred格式(Phred_scaled)的質(zhì)量值,表示在該位點(diǎn)該基因型存在的可能性;該值越高,則Genotype的可能性越大;計(jì)算方法:Phred值=-10*log(1-P),P為基因型存在的概率。(一般在final.snp.vcf文件中,該值為99,為99時(shí),其可能性最大)

PL(likelihood genotypes)

指定的三種基因型的質(zhì)量值(provieds the likelihoods of the given genotypes);這三種指定的基因型為(0/0,0/1,1/1),這三種基因型的概率總和為1。該值越大,表明為該種基因型的可能性越小。Phred值=-10*log(P),P為基因型存在的概率。最有可能的genotype的值為0。

例如:

0/1:889,0,216

0/1:94,0,940

1/1:269,18,0

1/1:580,54,0

1/2:3365,1522,1357,1842,0,1706

1/2:307,190,178,117,0,104

(0/0型3個(gè)數(shù)字,第一個(gè)為0

0/1型3個(gè)數(shù)字,中間為0

1/1型3個(gè)數(shù)字,最后一個(gè)為0

1/2型6個(gè)數(shù)字,倒數(shù)第二個(gè)為0)

5,vcf文件第8列信息

第8列的信息包括18種,都是以“TAG=Value”,并使用分號(hào)分隔的形式,其中很多的注釋信息在VCF文件的頭部注釋中給出,下面對(duì)常用的TAG進(jìn)行解釋:

AC,AF和AN

AC(Allele Count)表示基因型為與variant一致的Allele(等位堿基)的數(shù)目;AF(Allele Frequency)表示Allele的頻率,AF值=AC值/AN值;AN(Allele Number)表示Allele的總數(shù)目。比如:對(duì)2個(gè)sample的雙倍體進(jìn)行測(cè)序,則AN值為4。若REF上位點(diǎn)堿基為A,而2個(gè)sample在該位點(diǎn)分別為A/T和T/G,則AC值為2,1;AF值為0.50,0.25。AC:variant數(shù)目,AF:頻率,AN:總數(shù)目

DP(reads覆蓋度)

表示reads被過濾后的覆蓋度

FS

FisherStrand的縮寫,表示使用Fisher’s精確檢驗(yàn)來檢測(cè)strand bias而得到的Fhred格式的p值,該值越小越好;如果該值較大,表示strand bias(正負(fù)鏈偏移)越嚴(yán)重,即所檢測(cè)到的variants位點(diǎn)上,reads比對(duì)到正負(fù)義鏈上的比例不均衡。一般進(jìn)行filter的時(shí)候,推薦保留FS<10~20的variants位點(diǎn)。GATK可設(shè)定FS參數(shù)。

ReadPosRandSum

Z-score from Wilcoxon rank sum test of Alt vs. Ref read position bias.當(dāng)variants出現(xiàn)在reads尾部的時(shí)候,其結(jié)果可能不準(zhǔn)確。該值用于衡量alternative allele(變異的等位基因)相比于reference allele(參考基因組等位基因),其variant位點(diǎn)是否匹配到reads更靠中部的位置。因此只有基因型是雜合且有一個(gè)allele和參考基因組一致的時(shí)候,才能計(jì)算該值。若該值為正值,表明和alternative allele相當(dāng)于reference allele,落來reads更靠中部的位置;若該值是負(fù)值,則表示alternative allele相比于reference allele落在reads更靠尾部的位置。

進(jìn)行filter的之后,推薦保留ReadPosRankSum>-1.65~-3.0的variant位點(diǎn)

MQRankSum

該值用于衡量alternative allele上reads的mapping quality與reference allele上reads的mapping quality的差異。若該值是負(fù)數(shù)值,則表明alternative allele比reference allele的reads mapping quality差。進(jìn)行filter的時(shí)候,推薦保留MQRankSum>-1.65~-3.0的variant位點(diǎn)。

---------------------

作者:genome_denovo

來源:CSDN

原文:https://blog.csdn.net/genome_denovo/article/details/78697679

版權(quán)聲明:本文為博主原創(chuàng)文章,轉(zhuǎn)載請(qǐng)附上博文鏈接!

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容