https://blog.csdn.net/genome_denovo/article/details/78697679
第二章:生物信息分析
第一節(jié):解讀vcf格式文件
1,vcf格式說明
VCF格式:Variant Call Format,用于記錄variants (SNP / InDel)的文件格式,關(guān)于其說明,詳見:http://gatkforums.broadinstitute.org/discussion/1268/how-should-i-interpret-vcf-files-produced-by-the-gatk
VCF是用于描述SNP,InDel和SV結(jié)果的文本文件。VCF格式在GATK軟件中得到很好的支持。
2,vcf文件結(jié)構(gòu)
VCF文件分為兩部分內(nèi)容:以“#”開頭的注釋部分和沒有“#”開頭的主體部分。(注釋部分和主題部分);注釋部分有很多對(duì)VCF的介紹信息;主體部分包含10列數(shù)據(jù)。主題部分每一行代表一個(gè)variant的信息。
主體部分10列的范例:
chrM 150 . T C 7766.77 PASS AC=2;AF=1.00;AN=2;DP=199;ExcessHet=3.0103;FS=0.000;MLEAC=2;MLEAF=1.00;MQ=49.78;QD=32.91;SOR=0.904 GT:AD:DP:GQ:PL 1/1:0,175:175:99:7795,531,0
3,主體部分的10列分別代表的意義
CHROM : 參考序列名稱
POS : variant所在的left-most位置(1-base position)(發(fā)生變異的位置的第一個(gè)堿基所在的位置)
ID : variant的ID。同時(shí)對(duì)應(yīng)著dbSNP數(shù)據(jù)庫(kù)中的ID,若沒有,則默認(rèn)使用‘.’
REF : 參考序列的Allele,(等位堿基,即參考序列該位置的堿基類型及堿基數(shù)量)
ALT : variant的Allele,若有多個(gè),則使用逗號(hào)分隔,(變異所支持的堿基類型及堿基數(shù)量)這里的堿基類型和堿基數(shù)量,對(duì)于SNP來說是單個(gè)堿基類型的編號(hào),而對(duì)于Indel來說是指堿基個(gè)數(shù)的添加或缺失,以及堿基類型的變化
QUAL : variants的質(zhì)量。Phred格式的數(shù)值,代表著此位點(diǎn)是純合的概率,此值越大,則概率越低,代表著次位點(diǎn)是variants的可能性越大。(表示變異堿基的可能性)
FILTER : 次位點(diǎn)是否要被過濾掉。如果是PASS,則表示此位點(diǎn)可以考慮為variant。
INFO : variant的相關(guān)信息
FORMAT : variants的格式,例如GT:AD:DP:GQ:PL
SAMPLES : 各個(gè)Sample的值,由BAM文件中的@RG下的SM標(biāo)簽所決定,這些值對(duì)應(yīng)著第9列的各個(gè)格式,不同格式的值用冒號(hào)分開,每一個(gè)sample對(duì)應(yīng)著1列;多個(gè)samples則對(duì)應(yīng)著多列,這種情況下列的數(shù)多余10列。
4,vcf文件的基因型信息
VCF文件的主體部分的第9列是基因型信息的多個(gè)標(biāo)簽,這些標(biāo)簽之間以冒號(hào)分割,其對(duì)應(yīng)的值位于第10列,同樣以冒號(hào)分割,表示第一個(gè)樣品的基因型結(jié)果。若有多個(gè)樣品,則VCF文件超過10列,且第10列后的每一列表示一個(gè)樣品的基因型結(jié)果。第9列各個(gè)標(biāo)簽的意義展示如下:
GT : genotype
樣品的基因型(genotype),兩個(gè)數(shù)字中間用‘/’分開,這兩個(gè)數(shù)字表示雙倍體的sample的基因型。0表示樣品中有ref的allele(可初步理解為和ref的堿基相同,即和REF相同);1表示樣品中的variant的allele(可以理解為和variant變異后的堿基相同,即和ALT相同);2表示有第二個(gè)variant的allele(和ALT的第二種堿基相同)對(duì)于SNP是指單個(gè)堿基類型相同而對(duì)于Indel是指堿基類型及個(gè)數(shù)均相同
因此根據(jù)GT的結(jié)果得出以下結(jié)論:
0/0表示sample中該位點(diǎn)為純合位點(diǎn),和REF的堿基類型一致
0/1表示sample中該位點(diǎn)為雜合突變,有REF和ALT兩個(gè)基因型(部分堿基和REF堿基類型一致,部分堿基和ALT堿基類型一致)
1/1表示sample中該位點(diǎn)為純合突變,總體突變類型和ALT堿基類型一致
1/2表示sample中該位點(diǎn)為雜合突變,有ALT1和ALT2兩個(gè)基因型(部分和ALT1堿基類型一致,部分和ALT2堿基類型一致)
AD和DP
AD(Allele Depth)為sample中每一種allele(等位堿基)的reads覆蓋度,在diploid(二倍體,或可指代多倍型)中則是用逗號(hào)分隔的兩個(gè)值,前者對(duì)應(yīng)REF基因,后者對(duì)應(yīng)ALT基因型;
DP(Depth)為sample中該位點(diǎn)的覆蓋度,是所支持的兩個(gè)AD值(逗號(hào)前和逗號(hào)后)的加和;例如:
1/1:0,175:175—GT:AD(REF),AD(ALT):DP
0/1:79,96:175
1/2:0,20,56:76
這里的三種類型對(duì)應(yīng)的DP值均是其對(duì)應(yīng)的AD值的加和,1/1的175是0+175,0/1的175是79+96,1/2的76是0+20+56
GQ(基因型存在的概率)
基因型的質(zhì)量值(Genotype Quality)。Phred格式(Phred_scaled)的質(zhì)量值,表示在該位點(diǎn)該基因型存在的可能性;該值越高,則Genotype的可能性越大;計(jì)算方法:Phred值=-10*log(1-P),P為基因型存在的概率。(一般在final.snp.vcf文件中,該值為99,為99時(shí),其可能性最大)
PL(likelihood genotypes)
指定的三種基因型的質(zhì)量值(provieds the likelihoods of the given genotypes);這三種指定的基因型為(0/0,0/1,1/1),這三種基因型的概率總和為1。該值越大,表明為該種基因型的可能性越小。Phred值=-10*log(P),P為基因型存在的概率。最有可能的genotype的值為0。
例如:
0/1:889,0,216
0/1:94,0,940
1/1:269,18,0
1/1:580,54,0
1/2:3365,1522,1357,1842,0,1706
1/2:307,190,178,117,0,104
(0/0型3個(gè)數(shù)字,第一個(gè)為0
0/1型3個(gè)數(shù)字,中間為0
1/1型3個(gè)數(shù)字,最后一個(gè)為0
1/2型6個(gè)數(shù)字,倒數(shù)第二個(gè)為0)
5,vcf文件第8列信息
第8列的信息包括18種,都是以“TAG=Value”,并使用分號(hào)分隔的形式,其中很多的注釋信息在VCF文件的頭部注釋中給出,下面對(duì)常用的TAG進(jìn)行解釋:
AC,AF和AN
AC(Allele Count)表示基因型為與variant一致的Allele(等位堿基)的數(shù)目;AF(Allele Frequency)表示Allele的頻率,AF值=AC值/AN值;AN(Allele Number)表示Allele的總數(shù)目。比如:對(duì)2個(gè)sample的雙倍體進(jìn)行測(cè)序,則AN值為4。若REF上位點(diǎn)堿基為A,而2個(gè)sample在該位點(diǎn)分別為A/T和T/G,則AC值為2,1;AF值為0.50,0.25。AC:variant數(shù)目,AF:頻率,AN:總數(shù)目
DP(reads覆蓋度)
表示reads被過濾后的覆蓋度
FS
FisherStrand的縮寫,表示使用Fisher’s精確檢驗(yàn)來檢測(cè)strand bias而得到的Fhred格式的p值,該值越小越好;如果該值較大,表示strand bias(正負(fù)鏈偏移)越嚴(yán)重,即所檢測(cè)到的variants位點(diǎn)上,reads比對(duì)到正負(fù)義鏈上的比例不均衡。一般進(jìn)行filter的時(shí)候,推薦保留FS<10~20的variants位點(diǎn)。GATK可設(shè)定FS參數(shù)。
ReadPosRandSum
Z-score from Wilcoxon rank sum test of Alt vs. Ref read position bias.當(dāng)variants出現(xiàn)在reads尾部的時(shí)候,其結(jié)果可能不準(zhǔn)確。該值用于衡量alternative allele(變異的等位基因)相比于reference allele(參考基因組等位基因),其variant位點(diǎn)是否匹配到reads更靠中部的位置。因此只有基因型是雜合且有一個(gè)allele和參考基因組一致的時(shí)候,才能計(jì)算該值。若該值為正值,表明和alternative allele相當(dāng)于reference allele,落來reads更靠中部的位置;若該值是負(fù)值,則表示alternative allele相比于reference allele落在reads更靠尾部的位置。
進(jìn)行filter的之后,推薦保留ReadPosRankSum>-1.65~-3.0的variant位點(diǎn)
MQRankSum
該值用于衡量alternative allele上reads的mapping quality與reference allele上reads的mapping quality的差異。若該值是負(fù)數(shù)值,則表明alternative allele比reference allele的reads mapping quality差。進(jìn)行filter的時(shí)候,推薦保留MQRankSum>-1.65~-3.0的variant位點(diǎn)。
---------------------
作者:genome_denovo
來源:CSDN
原文:https://blog.csdn.net/genome_denovo/article/details/78697679
版權(quán)聲明:本文為博主原創(chuàng)文章,轉(zhuǎn)載請(qǐng)附上博文鏈接!