1. VCF介紹
VCF是用于描述SNP,INDEL和SV結(jié)果的文本文件。在GATK軟件中得到最好的支持,當(dāng)然samtools得到的結(jié)果也是VCF格式,和GATK的VCF格式有點(diǎn)差別。推薦打開軟件:notepad++(https://notepad-plus.en.softonic.com/)

2. VCF的主體結(jié)構(gòu)
VCF文件分為兩部分內(nèi)容:以“#”開頭的注釋部分;沒有“#”開頭的主體部分。
去掉了頭部的注釋行,只留下了代表每一行意義的注釋行。
主體部分中每一行代表一個(gè)Variant的信息。
CHROM[1] POS[2] ID[3] REF[4] ALT[5] QUAL[6] FILTER[7] INFO[8] FORMAT[9] R01[10]
3. Variation
CHROM[1] 和 POS[2]:代表參考序列名和variant的位置;如果是INDEL的話,位置是INDEL的第一個(gè)堿基位置。
ID[3]:variant的ID。比如在dbSNP中有該SNP的id,則會(huì)在此行給出;若沒有,則用'.'表示其為一個(gè)novel variant。
REF[4] 和 ALT[5]:參考序列的堿基和 Variant的堿基。
QUAL[6]:Phred格式(Phred_scaled)的質(zhì)量值,表示在該位點(diǎn)存在variant的可能性;該值越高,則variant的可能性越大;計(jì)算方法:Phred值 = -10 * log (1-p) p為variant存在的概率; 通過計(jì)算公式可以看出值為10的表示錯(cuò)誤概率為0.1,該位點(diǎn)為variant的概率為90%。
FILTER[7]:使用上一個(gè)QUAL值來進(jìn)行過濾的話,是不夠的。GATK能使用其它的方法來進(jìn)行過濾,過濾結(jié)果中通過則該值為”PASS”;若variant不可靠,則該項(xiàng)不為”PASS”或”.”。
INFO[8]: 這一行是variant的詳細(xì)信息,內(nèi)容很多,以下再具體詳述。
FORMAT[9] 和 R01[10]:這兩行合起來提供了’R01(某個(gè)基因名)′這個(gè)sample的基因型的信息?!疦A12878′代表這該名稱的樣品,是由BAM文件中的@RG下的 SM 標(biāo)簽決定的。
4. 基因型信息{即FORMAT[9] 和 R01[10]}
GT:樣品的基因型(genotype)。兩個(gè)數(shù)字中間用’/'分開,這兩個(gè)數(shù)字表示雙倍體的sample的基因型。0 表示樣品中有ref的allele; 1 表示樣品中variant的allele; 2表示有第二個(gè)variant的allele。因此: 0/0 表示sample中該位點(diǎn)為純合的,和ref一致; 0/1 表示sample中該位點(diǎn)為雜合的,有ref和variant兩個(gè)基因型; 1/1 表示sample中該位點(diǎn)為純合的,和variant一致。
AD 和 DP:AD(Allele Depth)為sample中每一種allele的reads覆蓋度,在diploid中則是用逗號(hào)分割的兩個(gè)值,前者對(duì)應(yīng)ref基因型,后者對(duì)應(yīng)variant基因型; DP(Depth)為sample中該位點(diǎn)的覆蓋度。
GQ:基因型的質(zhì)量值(Genotype Quality)。Phred格式(Phred_scaled)的質(zhì)量值,表示在該位點(diǎn)該基因型存在的可能性;該值越高,則Genotype的可能性越大;計(jì)算方法:Phred值 = -10 * log (1-p) p為基因型存在的概率。
PL:指定的三種基因型的質(zhì)量值(provieds the likelihoods of the given genotypes)。這三種指定的基因型為(0/0,0/1,1/1),這三種基因型的概率總和為1。和之前不一致,該值越大,表明為該種基因型的可能性越小。 Phred值 = -10 * log (p) p為基因型存在的概率。
5. VCF第8列的信息
該列信息最多了,都是以 “TAG=Value”,并使用”;”分隔的形式。其中很多的注釋信息在VCF文件的頭部注釋中給出。以下是這些TAG的解釋:
AC,AF 和 AN:AC(Allele Count) 表示該Allele的數(shù)目;AF(Allele Frequency) 表示Allele的頻率; AN(Allele Number) 表示Allele的總數(shù)目。對(duì)于1個(gè)diploid sample而言:則基因型 0/1 表示sample為雜合子,Allele數(shù)為1(雙倍體的sample在該位點(diǎn)只有1個(gè)等位基因發(fā)生了突變),Allele的頻率為0.5(雙倍體的 sample在該位點(diǎn)只有50%的等位基因發(fā)生了突變),總的Allele為2;基因型 1/1 則表示sample為純合的,Allele數(shù)為2,Allele的頻率為1,總的Allele為2。
DP:reads覆蓋度。是一些reads被過濾掉后的覆蓋度。
Dels:Fraction of Reads Containing Spanning Deletions。進(jìn)行SNP和INDEL calling的結(jié)果中,有該TAG并且值為0表示該位點(diǎn)為SNP,沒有則為INDEL。
FS:使用Fisher’s精確檢驗(yàn)來檢測(cè)strand bias而得到的Fhred格式的p值。該值越小越好。一般進(jìn)行filter的時(shí)候,可以設(shè)置 FS < 10~20。
HaplotypeScore:Consistency of the site with at most two segregating haplotypes.
最多有2個(gè)分離的單倍型的一致性。
InbreedingCoeff:Inbreeding coefficient as estimated from the genotype likelihoods per-sample when compared against the Hard-Weinberg expectation.
與哈代溫伯格的期望相比,近親繁殖估計(jì)每個(gè)樣品基因型的可能性。
MLEAC:Maximum likelihood expectation (MLE) for the allele counts (not necessarily the same as the AC), for each ALT allele, in the same order as listed.
對(duì)于等位基因計(jì)數(shù)(不一定與AC相同),每個(gè)ALT 等位基因的最大似然估計(jì),在相同的順序被列出。
MLEAF:Maximum likelihood expectation (MLE) for the allele frequency (not necessarily the same as the AF), for each ALT alle in the same order as listed.
對(duì)于等位基因頻率(不一定與AF相同),每個(gè)ALT 等位基因的最大似然期望,在相同的順序被列出。
MQ:RMS Mapping Quality.
RMS Mapping質(zhì)量。
MQ0:Total Mapping Quality Zero Reads.
總的Mapping 質(zhì)量 零Reads 。
MQRankSum:Z-score From Wilcoxon rank sum test of Alt vs. Ref read mapping qualities.
對(duì)Alt vs 的Wilcoxon秩和檢驗(yàn)的z 分?jǐn)?shù)。參考片段映射質(zhì)量。
QD:Variant Confidence/Quality by Depth.
Variant 通過深度的可信度和質(zhì)量。
RPA:Number of times tandem repeat unit is repeated, for each allele (including reference).
對(duì)于每個(gè)等位基因(包括參考),大量的串聯(lián)重復(fù)序列單位被重復(fù)。
RU:Tandem repeat unit (bases).
串聯(lián)重復(fù)序列單元(基礎(chǔ))。
ReadPosRankSum:Z-score from Wilcoxon rank sum test of Alt vs. Ref read position bias.
對(duì)Alt vs 的Wilcoxon秩和檢驗(yàn)的z 分?jǐn)?shù)。參考片段位置偏差。
STR:Variant is a short tandem repeat.
Variant是一個(gè)短的串聯(lián)重復(fù)。
轉(zhuǎn)自:http://www.itdecent.cn/p/ff2eb5b38611