使用Plink對(duì)CNV做GWAS分析(一)

Introduction

隨著高通量測(cè)序技術(shù)的發(fā)展,這些年關(guān)于CNV(拷貝數(shù)變異)的研究也逐漸多了起來。以往CNV主要通過PCR或者CGH芯片等技術(shù)進(jìn)行查找,現(xiàn)在由于二代測(cè)序的價(jià)格飛速下降,通過將二代測(cè)序產(chǎn)生的reads 回帖(map)到參考基因組上來檢測(cè)CNV的流程和軟件逐漸建立并且流行了起來。本文主要介紹得到CNV后如何使用Plink進(jìn)行下游的GWAS(全基因組關(guān)聯(lián)分析)。

軟件版本

Plink v1.07
Plink最新的版本是1.9(16 May 2016),但是由于我在Plink官網(wǎng)上查到的CNV關(guān)聯(lián)分析流程中幾個(gè)參數(shù)在新版中被移除了(?!?。。D壳斑€沒搞明白在新版中是怎么做的,所以就先用舊的Plink做一版。

原始數(shù)據(jù)

我拿到的CNV數(shù)據(jù)是用我們實(shí)驗(yàn)室自己開發(fā)的軟件CNVcaller,從BAM文件中得到的。軟件暫時(shí)還沒發(fā)表,等發(fā)表了我再來安利一發(fā)。
此外,還需要你要與之關(guān)聯(lián)的表型數(shù)據(jù)(phenotype),數(shù)量性狀或者質(zhì)量性狀等等都可以。

使用Plink進(jìn)行分析

1.創(chuàng)建CNV list

把你的CNV按照Plink的要求進(jìn)行整理。格式如下:

FID IID CHR BP1 BP2 TYPE SCORE SITE
P1 P1 4 71338469 71459318 1 27 0
P1 P1 5 31250352 32213542 1 0 0
P1 P1 7 53205351 53481230 3 0 0

文件總共有8列,每一列代表的意思分別如下:

 FID     Family ID
 IID     Individual ID
 CHR     Chromosome
 BP1     Start position (base-pair)
 BP2     End position (base-pair)
 TYPE    Type of variant, e.g. 0,1 or 3,4 copies
 SCORE   Confidence score associated with variant 
 SITES   Number of probes in the variant

注:如果是自然群體,沒有家系關(guān)系的話,F(xiàn)ID和IID起一樣的名字就可以了。而SCORE和SITES兩項(xiàng)不會(huì)直接用于關(guān)聯(lián)分析,所以不知道就直接全部寫0就OK了。

The SCORE and SITES values are not used in any direct way, except potentially as variates to filter segments on, as described below. That is, the values of these do not fundamentally impact the way analysis is performed by PLINK itself (they might alter the meaning of the results of course, e.g. if including low-confidence calls into the analysis!). In other words, if whatever software was used to generate the CNV calls does not supply some conceptually similar values, it is okay to simply put dummy codes (e.g. all 0) in these two fields.

此部分詳見這里

2.創(chuàng)建FAM file

.fam文件儲(chǔ)存的是樣本的性狀、性別等信息。
這個(gè)文件沒有header,每行一個(gè)樣本,六列信息,分別是:

Family ID ('FID')
Within-family ID ('IID'; cannot be '0')
Within-family ID of father ('0' if father isn't in dataset)
Within-family ID of mother ('0' if mother isn't in dataset)
Sex code ('1' = male, '2' = female, '0' = unknown)
Phenotype value ('1' = control, '2' = case, '-9'/'0'/non-numeric = missing data if case/control)

示例如下:

P1 P1 0 0 1 20
P2 P2 0 0 1 30

注1:如果沒有family ID, parental ID, sex, and/or phenotype columns也行,使用下面的參數(shù)就OK了(適用于.fam和.ped文件)。
--no-fid
--no-parents
--no-sex
--no-pheno

注2:第六列的表型值,如果寫的不是1、2、-9、0中的任意一個(gè),則會(huì)被判定為質(zhì)量性狀。

此部分詳見這里

3.生成MAP文件

這一步是用之前制作的CNV list,使用Plink自動(dòng)生成.map文件。CNV的map文件和plink通用的map文件一樣。
第一列是Chromosome code。
第二列是Variant identifier,是ID加上CNV的起始或者終止位置。
第三列是Position in morgans or centimorgans,在CNV的map文件中都用0來替代。
第四列是該標(biāo)記在染色體上的位置Base-pair coordinate。
命令如下:

plink --cnv-list plink.cnv --cnv-make-map

其中,plink.cnv就是第一步整理出來的CNV list。運(yùn)行此命令后會(huì)自動(dòng)生成plink.cnv.map

4.關(guān)聯(lián)分析

有了前面三個(gè)文件,我們就可以開始做關(guān)聯(lián)分析了。此部分以數(shù)量性狀為例。
命令如下:

plink --map plink.cnv.map --fam mydata.fam --cnv-list mydata.cnv --mperm 50000 --noweb

如果你前面那三個(gè)文件名前綴統(tǒng)一的話(a.cnv, a.cnv.map, a.fam),你也可以用這條命令:

plink --cfile a

之后你會(huì)得到一堆文件,其中.summary后綴的文件包含六列,含義分別如下:

 CHR    Chromosome code
 SNP    Dummy label for map position
 BP     Physical position (base-pairs)
 NCNV   Number of individiuals with a CNV here
 M1     QT mean in individuls with a CNV here
 M0     QT mean in individuals without a CNV here

打開.mperm文件,里面包含置換檢驗(yàn)的P值:EMP1和EMP2。

EMP1    Empirical p-value, per region
EMP2    Empirical p-value, corrected for all tests

注1:--noweb是說Skipping web check。--mperm是置換檢驗(yàn)。
注2:QT mean應(yīng)該是數(shù)量性狀的均值的意思。
注3:質(zhì)量性狀默認(rèn)使用單側(cè)檢驗(yàn),數(shù)量性狀默認(rèn)使用雙側(cè)檢驗(yàn)。如果想使用單側(cè)檢驗(yàn),添加參數(shù):--cnv-test-1sided

結(jié)語(yǔ)

至此,使用Plink對(duì)CNV做GWAS分析的第一部分就講完了。我們?cè)?mperm中可以得到想要的結(jié)果,包括CNV和對(duì)應(yīng)的P值。
上面的分析在plink軟件中是屬于Rare copy number variant (CNV)
分析,而其中的好多參數(shù)在plink 1.9中被移除了,而且在這里我也沒找到如何導(dǎo)入?yún)f(xié)變量以消除群體結(jié)構(gòu)的影響,GWAS的模型也不可選。
因此,下一章我們將學(xué)習(xí)Common copy number polymorphism (CNP) data的GWAS分析。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • Spring Cloud為開發(fā)人員提供了快速構(gòu)建分布式系統(tǒng)中一些常見模式的工具(例如配置管理,服務(wù)發(fā)現(xiàn),斷路器,智...
    卡卡羅2017閱讀 136,695評(píng)論 19 139
  • 首頁(yè) 資訊 文章 資源 小組 相親 登錄 注冊(cè) 首頁(yè) 最新文章 IT 職場(chǎng) 前端 后端 移動(dòng)端 數(shù)據(jù)庫(kù) 運(yùn)維 其他...
    Helen_Cat閱讀 4,159評(píng)論 1 10
  • 趙姨娘是《紅樓夢(mèng)》中唯一沒有爭(zhēng)議的反面人物,她一無(wú)是處、粗陋不堪、沒心沒腦,還不甘寂寞,爭(zhēng)名奪利,攪得賈府風(fēng)波連連...
    悠然見茅屋閱讀 1,374評(píng)論 18 14
  • 我們常常在電視上、報(bào)紙上或者一些書籍上,記載著一些牛人身邊不可或缺的一項(xiàng)配置,他就叫秘書或者助理。我們還是以最專業(yè)...
    立爽閱讀 403評(píng)論 0 2
  • 愛 相愛 用心愛 真情而愛 相 相思 兩相思 緣分之思 依 相依 愛相依 愛戀之依 情 真情 愛溢情 心懷戀情 可...
    快樂靈芝閱讀 294評(píng)論 24 29

友情鏈接更多精彩內(nèi)容