需要的軟件:VCFtools,plink,excel,文本文檔
公司給發(fā)的VCF格式長(zhǎng)這樣:

(忽略我用excel打開導(dǎo)致的亂碼)
plink的常用格式主要是.ped和.map?;蛘吒〉亩M(jìn)制格式?.bed,.fam,.bim文件.
首先我們先使用VCFTools把vcf文件轉(zhuǎn)換成.ped和.map:
????命令行:
????????vcftools --你的VCF文件名.vcf --plink --out 輸出文件名
如果過程中遇到染色體名稱不合法的問題可以使用文本文檔的查找替換功能手動(dòng)修改染色體名稱
這一步結(jié)果會(huì)得到(輸出文件名.ped和輸出文件名.map)兩個(gè)文件。
其中.bed文件的結(jié)果是:

前6列分別代表 FamilyID IndividualID 父本ID 母本ID 性別 表型 ,具體可以參考plink標(biāo)準(zhǔn)格式:File format reference - PLINK 1.9 (cog-genomics.org)
需要注意的是轉(zhuǎn)換過程中會(huì)丟失一些信息,可以參考這篇文章手動(dòng)填回來
【plink系列】第2篇-如何修改plink里的樣本信息 - 簡(jiǎn)書 (jianshu.com)
.map的結(jié)果是:

四列分別是染色體編號(hào)、SNPID、SNP摩爾位置(不懂,但是可以用0),SNP物理位置。詳細(xì)可以看官方說明:File format reference - PLINK 1.9 (cog-genomics.org)
最后使用plink把ped和.mapz轉(zhuǎn)換成二進(jìn)制的 .bed,.fam,.bim文件::
????命令行:
? ??????plink --file 輸入文件名 --make-bed --out 輸出文件名;
結(jié)果得到四個(gè)文件

四個(gè)文件的具體內(nèi)容看官方說明
---------------------------------------------------------------------------------------------------------------------------------本文到這里也就結(jié)束了,感謝參考文獻(xiàn):