plink學(xué)習(xí)筆記

官方文檔學(xué)習(xí)更詳細(xì),輕用力戳此處

1. 基本格式

1.1 ped, map (二者為一組)

  • pep格式包括基因型信息,如下所示
A01     A01     0       0       0       0       G       G       T       T
A02     A02     0       0       0       0       T       G        G       T

前六列固定
第一列 Family ID
第二列 Individual ID
第三列 Paternal ID
第四列 Maternal ID
第五列 Sex (1=male; 2=female; other=unknown)
第六列 Phenotype
再往后,就是基因型數(shù)據(jù),每兩列為一個樣本基因型,比如第一個樣本基因型為GG,第二個為TT

  • map 格式包括基因型信息,如下所示
0       Chr00:49209     0       49209
0       Chr00:49287     0       49287

表示SNP的信息
第一列代表染色體
第二列代表snp的名稱
第三列代表摩爾距離,一般用不上
第四列代表物理距離,這個有用的

1.2 bed fam bin 為一組

  • 首先明確bed是一個二進(jìn)制的文件,與fam,bin文件互相對應(yīng)。基因型用0,1表示,具體如下
00 ref 純合
11 alt 純合
01 缺失
10 雜合
  • bim文件
0       Chr00:49209     0       49209  C  T
0       Chr00:49287     0       49287  G  T

該文件是在map的結(jié)果上在添加兩列SNP位點(diǎn)

  • fam
A01 A01 0 0 0 -9
A02 A02 0 0 0 -9

第一列 Family ID
第二列 Individual ID
第三列 Paternal ID (0表示無)
第四列 Maternal ID((0表示無))
第五列 Sex (1=male; 2=female; 0=unknown)
第六列 Phenotype(0/-9 表示無)

1.3 ped 和bed互相轉(zhuǎn)化

  • ped 轉(zhuǎn)bed
plink --allow-extra-chr --noweb -file test--make-bed --out test1
# -file: 輸入為ped
# --noweb 不顯示網(wǎng)頁
  • bed 轉(zhuǎn)ped/vcf
plink --bfile test1 --recode --out test
#--bfile: 輸入為bed
#--recode 輸出格式ped(默認(rèn)bed)如果轉(zhuǎn)vcf,則輸入vcf即可

2. 可接受的格式

除了上面提到的bed,ped格式以外,我們比較常用的就是vcf,or bcf格式

  • vcf 格式轉(zhuǎn)為ped格式
plink --vcf SNP.vcf.gz--recode --out test--const-fid --allow-extra-chr

# --vcf, 壓縮或者不壓縮都可以接受

\color{red}{--allow-extr-chr} :因?yàn)閜link本身是針對人類進(jìn)行開發(fā)的,所以遇到格式不對的染色體會不識別,加上該參數(shù)即可,變?yōu)?
\color{red}{--id-delim}: 讀取vcf文件時,plink 默認(rèn)為下劃線分隔vcf名稱,前面為family,后面為samples
\color{red}{--double-id}:將familyID和sampleID命名為相同
\color{red}{--const-fid}:將familyID命名為0,samples-9

\color{red}{注意}, 將vcf變?yōu)閜ed時,map文件的SNP編號那列沒有值,可以自行編號添加即可

3. 數(shù)據(jù)過濾

plink同樣可以進(jìn)行數(shù)據(jù)過濾,可根據(jù)maf,缺失率,ld,哈德溫伯格平衡等

plink --bfile Test --mind 0.1 \
  --maf 0.05 --geno 0.1 --hwe 0.01 \
  --make-bed --out clean

## bfile: bed的前綴

主要的參數(shù)如下
--mind 過濾掉缺失率為10%的\color{red}{樣本}
--geno 過濾掉缺失率為10%的\color{red}{SNP}
--maf 過濾掉maf低于0.05的\color{red}{SNP}
--hwe 基于A和a不符合哈德溫伯格平衡

  • LD的過濾
plink --bfile Test --indep-pairwise 50 5 0.5

結(jié)果得到兩個文件,一個是plink.prune.in,一個是plink.prune.out,
就是標(biāo)記名稱

下一步從原來的bed文件中調(diào)取該位點(diǎn)

plink --bfile Test --extract plink.prune.in --make-bed --out pruneddata
  • 缺失率查看
plink --vcf in.vcf.gz --missing --allow-extra-chr
# 輸入vcf或者bed都可以

得到2個文件,plink.imiss,plink.lmiss

plink.imisss是一個樣本缺失率


樣本缺失率

plink.lmiss 是SNP位點(diǎn)缺失率


SNP位點(diǎn)缺失率

奇怪,我的這個SNP為什么是沒有。。。(在*map文件自行添加)

  • 查看MAF頻率
plink --vcf in.vcf.gz --freq --allow-extra-chr

得到一個plink.frq 文件


MAF頻率

最后一列為:Non-missing allele count

4. 提取(刪除)樣本(SNP位點(diǎn))

  • 刪除(提?。颖?/li>
plink --bfile Test --keep samples --make-bed --out test

# --keep 保留樣本
# --remove 刪除該樣本
# --recode 01 t ranspose. 輸出pep文件以及轉(zhuǎn)制后的tped文件,基因型用01表示
# ---output-missing-genotype 9 缺失值用9表示
#  --set-missing-var-ids @:# 輸出ID,染色體:坐標(biāo)

其中samples 的格式為兩列
第一列:familey
第二列:sampels
與pep文件的前兩列保持一致即可

  • 刪除(提?。㏒NP位點(diǎn)
plink --bfile Test --extract SNP_ID --make-bed --out test

# --extract 提取SNP位點(diǎn)
# --exclude 刪除該點(diǎn)

其中SNP_ID 為一列,即SNP ID,與map第二列一樣

5、計算樣本雜合度

plink --bfile ../final/chr1 --het --out chr1
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容