VCF轉(zhuǎn)plink終極解決方案

需要的軟件:VCFtools,plink,excel,文本文檔

公司給發(fā)的VCF格式長(zhǎng)這樣:

(忽略我用excel打開導(dǎo)致的亂碼)

plink的常用格式主要是.ped和.map?;蛘吒〉亩M(jìn)制格式?.bed,.fam,.bim文件.

首先我們先使用VCFTools把vcf文件轉(zhuǎn)換成.ped和.map:

????命令行:

????????vcftools --你的VCF文件名.vcf --plink --out 輸出文件名

如果過程中遇到染色體名稱不合法的問題可以使用文本文檔的查找替換功能手動(dòng)修改染色體名稱

這一步結(jié)果會(huì)得到(輸出文件名.ped和輸出文件名.map)兩個(gè)文件。

其中.bed文件的結(jié)果是:

前6列分別代表 FamilyID IndividualID 父本ID 母本ID 性別 表型 ,具體可以參考plink標(biāo)準(zhǔn)格式:File format reference - PLINK 1.9 (cog-genomics.org)

需要注意的是轉(zhuǎn)換過程中會(huì)丟失一些信息,可以參考這篇文章手動(dòng)填回來

【plink系列】第2篇-如何修改plink里的樣本信息 - 簡(jiǎn)書 (jianshu.com)

.map的結(jié)果是:


四列分別是染色體編號(hào)、SNPID、SNP摩爾位置(不懂,但是可以用0),SNP物理位置。詳細(xì)可以看官方說明:File format reference - PLINK 1.9 (cog-genomics.org)

最后使用plink把ped和.mapz轉(zhuǎn)換成二進(jìn)制的 .bed,.fam,.bim文件::

????命令行:

? ??????plink --file 輸入文件名 --make-bed --out 輸出文件名;

結(jié)果得到四個(gè)文件

四個(gè)文件的具體內(nèi)容看官方說明

---------------------------------------------------------------------------------------------------------------------------------本文到這里也就結(jié)束了,感謝參考文獻(xiàn):

Hapmap 格式轉(zhuǎn) plink(.ped, .map)格式 - 知乎 (zhihu.com)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。
禁止轉(zhuǎn)載,如需轉(zhuǎn)載請(qǐng)通過簡(jiǎn)信或評(píng)論聯(lián)系作者。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容