官方文檔學(xué)習(xí)更詳細(xì),輕用力戳此處
1. 基本格式
1.1 ped, map (二者為一組)
- pep格式包括基因型信息,如下所示
A01 A01 0 0 0 0 G G T T
A02 A02 0 0 0 0 T G G T
前六列固定
第一列 Family ID
第二列 Individual ID
第三列 Paternal ID
第四列 Maternal ID
第五列 Sex (1=male; 2=female; other=unknown)
第六列 Phenotype
再往后,就是基因型數(shù)據(jù),每兩列為一個樣本基因型,比如第一個樣本基因型為GG,第二個為TT
- map 格式包括基因型信息,如下所示
0 Chr00:49209 0 49209
0 Chr00:49287 0 49287
表示SNP的信息
第一列代表染色體
第二列代表snp的名稱
第三列代表摩爾距離,一般用不上
第四列代表物理距離,這個有用的
1.2 bed fam bin 為一組
- 首先明確bed是一個二進(jìn)制的文件,與fam,bin文件互相對應(yīng)。基因型用0,1表示,具體如下
00 ref 純合
11 alt 純合
01 缺失
10 雜合
- bim文件
0 Chr00:49209 0 49209 C T
0 Chr00:49287 0 49287 G T
該文件是在map的結(jié)果上在添加兩列SNP位點(diǎn)
- fam
A01 A01 0 0 0 -9
A02 A02 0 0 0 -9
第一列 Family ID
第二列 Individual ID
第三列 Paternal ID (0表示無)
第四列 Maternal ID((0表示無))
第五列 Sex (1=male; 2=female; 0=unknown)
第六列 Phenotype(0/-9 表示無)
1.3 ped 和bed互相轉(zhuǎn)化
- ped 轉(zhuǎn)bed
plink --allow-extra-chr --noweb -file test--make-bed --out test1
# -file: 輸入為ped
# --noweb 不顯示網(wǎng)頁
- bed 轉(zhuǎn)ped/vcf
plink --bfile test1 --recode --out test
#--bfile: 輸入為bed
#--recode 輸出格式ped(默認(rèn)bed)如果轉(zhuǎn)vcf,則輸入vcf即可
2. 可接受的格式
除了上面提到的bed,ped格式以外,我們比較常用的就是vcf,or bcf格式
- vcf 格式轉(zhuǎn)為ped格式
plink --vcf SNP.vcf.gz--recode --out test--const-fid --allow-extra-chr
# --vcf, 壓縮或者不壓縮都可以接受
:因?yàn)閜link本身是針對人類進(jìn)行開發(fā)的,所以遇到格式不對的染色體會不識別,加上該參數(shù)即可,變?yōu)?
: 讀取vcf文件時,plink 默認(rèn)為下劃線分隔vcf名稱,前面為family,后面為samples
:將familyID和sampleID命名為相同
:將familyID命名為0,samples-9
, 將vcf變?yōu)閜ed時,map文件的SNP編號那列沒有值,可以自行編號添加即可
3. 數(shù)據(jù)過濾
plink同樣可以進(jìn)行數(shù)據(jù)過濾,可根據(jù)maf,缺失率,ld,哈德溫伯格平衡等
plink --bfile Test --mind 0.1 \
--maf 0.05 --geno 0.1 --hwe 0.01 \
--make-bed --out clean
## bfile: bed的前綴
主要的參數(shù)如下
--mind 過濾掉缺失率為10%的
--geno 過濾掉缺失率為10%的
--maf 過濾掉maf低于0.05的
--hwe 基于A和a不符合哈德溫伯格平衡
- LD的過濾
plink --bfile Test --indep-pairwise 50 5 0.5
結(jié)果得到兩個文件,一個是plink.prune.in,一個是plink.prune.out,
就是標(biāo)記名稱
下一步從原來的bed文件中調(diào)取該位點(diǎn)
plink --bfile Test --extract plink.prune.in --make-bed --out pruneddata
- 缺失率查看
plink --vcf in.vcf.gz --missing --allow-extra-chr
# 輸入vcf或者bed都可以
得到2個文件,plink.imiss,plink.lmiss
plink.imisss是一個樣本缺失率

plink.lmiss 是SNP位點(diǎn)缺失率

奇怪,我的這個SNP為什么是沒有。。。(在*map文件自行添加)
- 查看MAF頻率
plink --vcf in.vcf.gz --freq --allow-extra-chr
得到一個plink.frq 文件

最后一列為:Non-missing allele count
4. 提取(刪除)樣本(SNP位點(diǎn))
- 刪除(提?。颖?/li>
plink --bfile Test --keep samples --make-bed --out test
# --keep 保留樣本
# --remove 刪除該樣本
# --recode 01 t ranspose. 輸出pep文件以及轉(zhuǎn)制后的tped文件,基因型用01表示
# ---output-missing-genotype 9 缺失值用9表示
# --set-missing-var-ids @:# 輸出ID,染色體:坐標(biāo)
其中samples 的格式為兩列
第一列:familey
第二列:sampels
與pep文件的前兩列保持一致即可
- 刪除(提?。㏒NP位點(diǎn)
plink --bfile Test --extract SNP_ID --make-bed --out test
# --extract 提取SNP位點(diǎn)
# --exclude 刪除該點(diǎn)
其中SNP_ID 為一列,即SNP ID,與map第二列一樣
5、計算樣本雜合度
plink --bfile ../final/chr1 --het --out chr1