vcf格式是做變異(variant)分析的時候最常見的一種格式,主要包括一些header和位點的信息??梢詤⒖歼@個說明文檔學(xué)習(xí):https://www.internationalgenome.org/wiki/Analysis/vcf4.0/
以下以GIAB中的GM12878的數(shù)據(jù)為例(ftp://ftp-trace.ncbi.nlm.nih.gov/giab/ftp/release/NA12878_HG001/latest/GRCh38/
),看一下其中的變異信息。
header前面都有"#"開頭,開始包含vcf的版本信息,代碼信息,染色體的長度信息等 (只截了一部分)。

位點信息:

也可能是這樣:

第一列 CHROM:染色體。
第二列 POS:基因組位置。
第三列 ID:變異位點的rsID號,如果沒有的話用"."表示。
第四列 REF:與參考基因組一樣的位點。
第五列 ALT:與參考基因組不一樣的位點。
第六列 QUAL:call出這個位點的質(zhì)量。這個值等于-10log10(p),p值是call錯alt allele錯誤的概率。也就是QUAL越大出錯概率越小。
第七列 FILTER:對變異位點進(jìn)行過濾,如果通過則為PASS,如果沒有進(jìn)行過濾就是"."。
第八列 INFO:這一列是額外信息??赡苁窍竦谝粋€圖一樣是平臺的信息,也可以是像是第二個中的DP等的信息:

第九列 FORMAT:最后是比較讓人注意的Genotype也就是基因型等的信息,比較重要的是GT,DP和AD:
GT,即genotype,表示為0/1, 1/1, 0/0或者是0|1, 1|0, 0|0, 1|2等。其實0代表REF allele,1代表第一個ALT allele,2代表第二個ALT allele。比如第四列REF是A,第五列ALT是C,T(有兩個ALT)。某個人是A/C,那么基因型就是0/1,A/T的話就是0/2,C/C就是1/1,以此類推。此外還可能見到0|1或者1|1中間是豎線不是斜線的情況,這種是已經(jīng)phased的genotype,也就是已經(jīng)知道REF/ALT allele是來自于父親還是母親了。比如有的數(shù)據(jù)庫的phased的數(shù)據(jù)是|前的是父親的allele,|后的是母親的allele。比如REF是A,ALT是C,T;基因型為1|0,則父親是第一個ALT也就是C,母親是REF也就是A。不過對于有的phased數(shù)據(jù)而言第一個并不一定是父親。
DP:這個位點的深度。
AD: REF和ALT allele的深度。太淺的話結(jié)果Genotype可能不這么讓人信服。
最后是sample的信息,如例子中只有HG001,也就是GM12878。
歡迎關(guān)注!