file.vcf文件如下所示,包含兩個(gè)樣本、四個(gè)變異位點(diǎn):
#CHROM POS ID REF ALT QUAL FILTER INFO FORMAT ID1 ID2
chr1 123 rs1 G A . PASS . GT 0|0 1|0
chr1 124 rs2 C A . PASS . GT 1|1 1|1
chr1 125 rs3 G T . PASS . GT 0|0 0|0
chr1 126 rs4 G A . PASS . GT 1|1 1|1
現(xiàn)在我想把數(shù)字基因型變成字母基因型,比如對于rs1 ,我希望0|0變成GG,1|0變成AG;
對于此需求,要用到compound-genotypes參數(shù);
廢話不多說,直接給命令:
plink --vcf file.vcf --recode compound-genotypes --out recode
注意,這里的plink是 1.9 版本哦(https://s3.amazonaws.com/plink1-assets/plink_linux_x86_64_20210606.zip);
運(yùn)行完以上命令后,會(huì)得到 recode.ped 和 recode.map 兩個(gè)文件;
recode.ped文件如下所示:
ID1 ID1 0 0 0 -9 GG AA GG AA
ID2 ID2 0 0 0 -9 AG AA GG AA
recode.map文件如下所示:
chr1 rs1 0 123
chr1 rs2 0 124
chr1 rs3 0 125
chr1 rs4 0 126
督促我寫下這篇教程的原因是,我今天搜遍了我的博客(https://www.cnblogs.com/chenwenyan/) 、用了很多關(guān)鍵詞,都找不到相應(yīng)的參數(shù),但是我清楚記得PLINK是有這個(gè)功能的。如果我以前有記錄,今天就不需要大費(fèi)周章尋找了,可見記錄是一件多么重要的事;
我知道很多人看不上這種沒有技術(shù)含量的教程,但這些小技巧有時(shí)候能幫人省下很多不必要的coding時(shí)間;
致謝橙子牛奶糖(陳文燕),請用參考模版:We thank the blogger (orange_milk_sugar, Wenyan Chen) for XXX
感謝小可愛們多年來的陪伴, 我與你們一起成長~