GWAS分析基本流程及分析思路

GWAS分析基本流程及分析思路

數(shù)據(jù)預(yù)處理(DNA genotyping、Quality control、Imputation)

QC的工作可以做PLINK上完成Imputation的工作用IMPUTE2完成

2. 表型數(shù)據(jù)統(tǒng)計分析

邏輯回歸(表型數(shù)據(jù)為二元)

線性回歸(表型數(shù)據(jù)為連續(xù)性變量)

表型數(shù)據(jù)正態(tài)分析(如果不是正態(tài)分布,需轉(zhuǎn)換處理為正態(tài)分布)

表型數(shù)據(jù)均值、中值、最大值、最小值

影響因子對表型的影響分析


3.畫曼哈頓圖(GWAS)和QQ plot圖

(一)、準備plink文件

(1)、準備PED文件

PED文件有六列,六列內(nèi)容如下:Family IDIndividual IDPaternal IDMaternal IDSex (1=male; 2=female; other=unknown)PhenotypePED文件是空格(空格或制表符)分隔的文件。

(2)、準備MAP文件

MAP文件有四列,四列內(nèi)容如下:chromosome (1-22, X, Y or 0 if unplaced)rs# or snp identifierGenetic distance (morgans)Base-pair position (bp units)

(3)、生成bed、fam、bim、文件

在plink中輸入命令:plink --file?mydata --out mydata --make-bedplink指的是plink軟件,如果軟件安裝在某個指定的路徑的話,前面還要加上路徑,比如安裝在路徑為/your/pathway/的文件夾下,則命令應(yīng)該為“/your/pathway/plink --file mydata --out mydata --make-bed”mydata指的是1和2生成的PED和MAP文件名,不需要寫.ped和.map后綴


(二)、準備表型文件(Alternate phenotype files)

一般表型文件為txt格式,表型文件有三列,分別為:Family IDIndividual IDPhenotype假如有多種表型,第一列和第二列還是Family ID、Individual ID,第三列及以后的每列都是表型,例如以下:Family IDIndividual IDPhenotype APhenotype BPhenotype CPhenotype DPhenotype E……

(三)、準備協(xié)變量文件(Covariate files)

協(xié)變量文件同表型文件類似,第一列和第二列是Family ID、Individual ID,第三列及以后的每列都是協(xié)變量Family IDIndividual IDCovariate ACovariate BCovariate CCovariate DCovariate E……

(四)、plink進行表型和基因型以及協(xié)變量的關(guān)聯(lián)分析

命令如下:plink --bfile mydata --linear --pheno pheno.txt --mpheno 1 --covar covar.txt --covar-number 1,2,3 --out mydata –noweb生成的文件為mydata.assoc.linear注:“mydata”mydata文件不需要后綴,“--mpheno 1”指的是表型文件的第三列(即第一個表型)“--covar-number 1,2,3”指的是協(xié)變量文件的第三列、第四列、第五列(即第一個、第二個、第三個協(xié)變量)“--linear”指的是用的連續(xù)型線性回歸,如果表型為二項式(即0、1)類型,則用“--logistic”

(五)、畫曼哈頓圖(GWAS)圖

安裝R語言的CpGassoc包,其中的manhattan(),即可畫曼哈頓圖

(六)、畫QQ plot圖

R語言中的?qqnorm() 和?qqplot()?包提供了QQ plot的畫法,具體自行搜索用法;


4. GWAS進階分析

群體分層分析,Population Stratification

如果研究的群體是混合群體,遺傳異質(zhì)性高,存在群體分層現(xiàn)象,易造成實驗的誤差或者檢測出假陽性位點。因此檢測群體分層對效應(yīng)值的影響是非常必要的。

不同群體重復(fù)驗證分析,Replication

Regional association plots?


用LocusZoom(http://csg.sph.umich.edu/locuszoom/)畫出來的

相似條件分析,Approximate conditional analysis

相似條件分析的目的是,去掉lead SNPs后,再跑一次GWAS關(guān)聯(lián)分析,以此找到更多有強關(guān)聯(lián)的信號。

連鎖不平衡得分評估表型間遺傳相關(guān)性,Linkage-disequilibrium score regression

遺傳相關(guān)性 genetic correlation, 這是指在雜種群體表型間的相關(guān)性中,由基因型所產(chǎn)生的相關(guān)性。遺傳相關(guān)是僅由遺傳原因引起的相關(guān)。

基因富集分析,Gene setenrichment analysis

從文獻,GTEX、 GEUVADIS等據(jù)數(shù)據(jù)找到與 Lead SNPs 關(guān)系很大的基因、變異等,以及與 Lead SNPs 連鎖不平衡分析r2大于0.8的SNP,則這些SNP的基因可以作為候選基因。匯總了所有的候選基因后,在GOTERM、KEGG、Panther等數(shù)據(jù)庫分析這些候選基因的富集分析。

層次聚類分析,Hierarchicalclustering

層次聚類分析的作用是更進一步看出研究的表型相關(guān)的 lead SNPs與其他表型的相關(guān)性;

蛋白質(zhì)-蛋白質(zhì)互作網(wǎng)絡(luò)分析,Protein–proteininteraction network analyses

蛋白質(zhì)互作網(wǎng)絡(luò)的目的是看哪些蛋白共同調(diào)控了表型

Point ofcontact analyses

Point of contact analyses的作用是哪些位點導(dǎo)致了表型間有相關(guān)性




參考文獻: Horikoshi, Momoko, et al. "Genome-wide associations for birth weight and correlations with adult disease."?Nature?538.7624 (2016): 248. Okbay A, Beauchamp J P, Fontana M A, et al. Genome-wide association study identifies 74 loci associated with educational attainment[J]. Nature, 2016, 533(7604): 539.

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容