官方文檔學(xué)習(xí)更詳細(xì)，輕用力戳此處

1. 基本格式

1.1 ped, map (二者為一組)

pep格式包括基因型信息，如下所示

A01     A01     0       0       0       0       G       G       T       T
A02     A02     0       0       0       0       T       G        G       T

前六列固定
第一列 Family ID
第二列 Individual ID
第三列 Paternal ID
第四列 Maternal ID
第五列 Sex (1=male; 2=female; other=unknown)
第六列 Phenotype
再往后，就是基因型數(shù)據(jù)，每兩列為一個樣本基因型，比如第一個樣本基因型為GG,第二個為TT

map 格式包括基因型信息，如下所示

0       Chr00:49209     0       49209
0       Chr00:49287     0       49287

表示SNP的信息
第一列代表染色體
第二列代表snp的名稱
第三列代表摩爾距離，一般用不上
第四列代表物理距離，這個有用的

1.2 bed fam bin 為一組

首先明確bed是一個二進(jìn)制的文件，與fam，bin文件互相對應(yīng)。基因型用0,1表示，具體如下

00 ref 純合
11 alt 純合
01 缺失
10 雜合

bim文件

0       Chr00:49209     0       49209  C  T
0       Chr00:49287     0       49287  G  T

該文件是在map的結(jié)果上在添加兩列SNP位點(diǎn)

A01 A01 0 0 0 -9
A02 A02 0 0 0 -9

第一列 Family ID
第二列 Individual ID
第三列 Paternal ID （0表示無）
第四列 Maternal ID（（0表示無））
第五列 Sex (1=male; 2=female; 0=unknown)
第六列 Phenotype（0/-9 表示無）

1.3 ped 和bed互相轉(zhuǎn)化

ped 轉(zhuǎn)bed

plink --allow-extra-chr --noweb -file test--make-bed --out test1
# -file： 輸入為ped
# --noweb 不顯示網(wǎng)頁

bed 轉(zhuǎn)ped/vcf

plink --bfile test1 --recode --out test
#--bfile: 輸入為bed
#--recode 輸出格式ped（默認(rèn)bed）如果轉(zhuǎn)vcf，則輸入vcf即可

2. 可接受的格式

除了上面提到的bed，ped格式以外，我們比較常用的就是vcf,or bcf格式

vcf 格式轉(zhuǎn)為ped格式

plink --vcf SNP.vcf.gz--recode --out test--const-fid --allow-extra-chr

# --vcf, 壓縮或者不壓縮都可以接受

$\color{red}{--allow-extr-chr}$ :因?yàn)閜link本身是針對人類進(jìn)行開發(fā)的，所以遇到格式不對的染色體會不識別，加上該參數(shù)即可，變?yōu)?
$\color{red}{--id-delim}$ ：讀取vcf文件時，plink 默認(rèn)為下劃線分隔vcf名稱，前面為family，后面為samples
$\color{red}{--double-id}$ ：將familyID和sampleID命名為相同
$\color{red}{--const-fid}$ ：將familyID命名為0，samples-9

$\color{red}{注意}$ , 將vcf變?yōu)閜ed時，map文件的SNP編號那列沒有值，可以自行編號添加即可

3. 數(shù)據(jù)過濾

plink同樣可以進(jìn)行數(shù)據(jù)過濾，可根據(jù)maf，缺失率，ld，哈德溫伯格平衡等

plink --bfile Test --mind 0.1 \
  --maf 0.05 --geno 0.1 --hwe 0.01 \
  --make-bed --out clean

## bfile: bed的前綴

主要的參數(shù)如下
--mind 過濾掉缺失率為10%的 $\color{red}{樣本}$
--geno 過濾掉缺失率為10%的 $\color{red}{SNP}$
--maf 過濾掉maf低于0.05的 $\color{red}{SNP}$
--hwe 基于A和a不符合哈德溫伯格平衡

LD的過濾

plink --bfile Test --indep-pairwise 50 5 0.5

結(jié)果得到兩個文件，一個是plink.prune.in，一個是plink.prune.out，
就是標(biāo)記名稱

下一步從原來的bed文件中調(diào)取該位點(diǎn)

plink --bfile Test --extract plink.prune.in --make-bed --out pruneddata

缺失率查看

plink --vcf in.vcf.gz --missing --allow-extra-chr
# 輸入vcf或者bed都可以

得到2個文件，plink.imiss，plink.lmiss

plink.imisss是一個樣本缺失率

樣本缺失率

plink.lmiss 是SNP位點(diǎn)缺失率

SNP位點(diǎn)缺失率

奇怪，我的這個SNP為什么是沒有。。。(在*map文件自行添加)

查看MAF頻率

plink --vcf in.vcf.gz --freq --allow-extra-chr

得到一個plink.frq 文件

MAF頻率

最后一列為：Non-missing allele count

4. 提取（刪除）樣本（SNP位點(diǎn)）

刪除（提?。颖?/li>

plink --bfile Test --keep samples --make-bed --out test

# --keep 保留樣本
# --remove 刪除該樣本
# --recode 01 t ranspose. 輸出pep文件以及轉(zhuǎn)制后的tped文件，基因型用01表示
# ---output-missing-genotype 9 缺失值用9表示
#  --set-missing-var-ids @:# 輸出ID，染色體：坐標(biāo)

其中samples 的格式為兩列
第一列：familey
第二列：sampels
與pep文件的前兩列保持一致即可

刪除（提?。㏒NP位點(diǎn)

plink --bfile Test --extract SNP_ID --make-bed --out test

# --extract 提取SNP位點(diǎn)
# --exclude 刪除該點(diǎn)

其中SNP_ID 為一列，即SNP ID，與map第二列一樣

5、計算樣本雜合度

plink --bfile ../final/chr1 --het --out chr1

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

plink學(xué)習(xí)筆記

plink學(xué)習(xí)筆記

1. 基本格式

1.1 ped, map (二者為一組)

1.2 bed fam bin 為一組

1.3 ped 和bed互相轉(zhuǎn)化

2. 可接受的格式

3. 數(shù)據(jù)過濾

4. 提取（刪除）樣本（SNP位點(diǎn)）

5、計算樣本雜合度

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

plink學(xué)習(xí)筆記

1. 基本格式

1.1 ped, map (二者為一組)

1.2 bed fam bin 為一組

1.3 ped 和bed互相轉(zhuǎn)化

2. 可接受的格式

3. 數(shù)據(jù)過濾

4. 提取（刪除）樣本（SNP位點(diǎn)）

5、計算樣本雜合度

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

5、計算樣本雜合度