VCF(variant call format)文件格式詳解

vcf格式是做變異(variant)分析的時候最常見的一種格式,主要包括一些header和位點的信息??梢詤⒖歼@個說明文檔學(xué)習(xí):https://www.internationalgenome.org/wiki/Analysis/vcf4.0/

以下以GIAB中的GM12878的數(shù)據(jù)為例(ftp://ftp-trace.ncbi.nlm.nih.gov/giab/ftp/release/NA12878_HG001/latest/GRCh38/
),看一下其中的變異信息。

header前面都有"#"開頭,開始包含vcf的版本信息,代碼信息,染色體的長度信息等 (只截了一部分)。


header

位點信息:


variant information

也可能是這樣:


another example

第一列 CHROM:染色體。
第二列 POS:基因組位置。
第三列 ID:變異位點的rsID號,如果沒有的話用"."表示。
第四列 REF:與參考基因組一樣的位點。
第五列 ALT:與參考基因組不一樣的位點。
第六列 QUAL:call出這個位點的質(zhì)量。這個值等于-10log10(p),p值是call錯alt allele錯誤的概率。也就是QUAL越大出錯概率越小。
第七列 FILTER:對變異位點進(jìn)行過濾,如果通過則為PASS,如果沒有進(jìn)行過濾就是"."。
第八列 INFO:這一列是額外信息??赡苁窍竦谝粋€圖一樣是平臺的信息,也可以是像是第二個中的DP等的信息:


INFO

第九列 FORMAT:最后是比較讓人注意的Genotype也就是基因型等的信息,比較重要的是GT,DP和AD:

GT,即genotype,表示為0/1, 1/1, 0/0或者是0|1, 1|0, 0|0, 1|2等。其實0代表REF allele,1代表第一個ALT allele,2代表第二個ALT allele。比如第四列REF是A,第五列ALT是C,T(有兩個ALT)。某個人是A/C,那么基因型就是0/1,A/T的話就是0/2,C/C就是1/1,以此類推。此外還可能見到0|1或者1|1中間是豎線不是斜線的情況,這種是已經(jīng)phased的genotype,也就是已經(jīng)知道REF/ALT allele是來自于父親還是母親了。比如有的數(shù)據(jù)庫的phased的數(shù)據(jù)是|前的是父親的allele,|后的是母親的allele。比如REF是A,ALT是C,T;基因型為1|0,則父親是第一個ALT也就是C,母親是REF也就是A。不過對于有的phased數(shù)據(jù)而言第一個并不一定是父親。

DP:這個位點的深度。

AD: REF和ALT allele的深度。太淺的話結(jié)果Genotype可能不這么讓人信服。

最后是sample的信息,如例子中只有HG001,也就是GM12878。

歡迎關(guān)注!

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容