數(shù)據(jù)預(yù)處理(DNA genotyping、Quality control、Imputation)
QC的工作可以做PLINK上完成Imputation的工作用IMPUTE2完成
2. 表型數(shù)據(jù)統(tǒng)計分析
邏輯回歸(表型數(shù)據(jù)為二元)
線性回歸(表型數(shù)據(jù)為連續(xù)性變量)
表型數(shù)據(jù)正態(tài)分析(如果不是正態(tài)分布,需轉(zhuǎn)換處理為正態(tài)分布)
表型數(shù)據(jù)均值、中值、最大值、最小值
影響因子對表型的影響分析
3.畫曼哈頓圖(GWAS)和QQ plot圖
(一)、準備plink文件
(1)、準備PED文件
PED文件有六列,六列內(nèi)容如下:Family IDIndividual IDPaternal IDMaternal IDSex (1=male; 2=female; other=unknown)PhenotypePED文件是空格(空格或制表符)分隔的文件。
(2)、準備MAP文件
MAP文件有四列,四列內(nèi)容如下:chromosome (1-22, X, Y or 0 if unplaced)rs# or snp identifierGenetic distance (morgans)Base-pair position (bp units)
(3)、生成bed、fam、bim、文件
在plink中輸入命令:plink --file?mydata --out mydata --make-bedplink指的是plink軟件,如果軟件安裝在某個指定的路徑的話,前面還要加上路徑,比如安裝在路徑為/your/pathway/的文件夾下,則命令應(yīng)該為“/your/pathway/plink --file mydata --out mydata --make-bed”mydata指的是1和2生成的PED和MAP文件名,不需要寫.ped和.map后綴
(二)、準備表型文件(Alternate phenotype files)
一般表型文件為txt格式,表型文件有三列,分別為:Family IDIndividual IDPhenotype假如有多種表型,第一列和第二列還是Family ID、Individual ID,第三列及以后的每列都是表型,例如以下:Family IDIndividual IDPhenotype APhenotype BPhenotype CPhenotype DPhenotype E……
(三)、準備協(xié)變量文件(Covariate files)
協(xié)變量文件同表型文件類似,第一列和第二列是Family ID、Individual ID,第三列及以后的每列都是協(xié)變量Family IDIndividual IDCovariate ACovariate BCovariate CCovariate DCovariate E……
(四)、plink進行表型和基因型以及協(xié)變量的關(guān)聯(lián)分析
命令如下:plink --bfile mydata --linear --pheno pheno.txt --mpheno 1 --covar covar.txt --covar-number 1,2,3 --out mydata –noweb生成的文件為mydata.assoc.linear注:“mydata”mydata文件不需要后綴,“--mpheno 1”指的是表型文件的第三列(即第一個表型)“--covar-number 1,2,3”指的是協(xié)變量文件的第三列、第四列、第五列(即第一個、第二個、第三個協(xié)變量)“--linear”指的是用的連續(xù)型線性回歸,如果表型為二項式(即0、1)類型,則用“--logistic”
(五)、畫曼哈頓圖(GWAS)圖
安裝R語言的CpGassoc包,其中的manhattan(),即可畫曼哈頓圖
(六)、畫QQ plot圖
R語言中的?qqnorm() 和?qqplot()?包提供了QQ plot的畫法,具體自行搜索用法;
4. GWAS進階分析
群體分層分析,Population Stratification
如果研究的群體是混合群體,遺傳異質(zhì)性高,存在群體分層現(xiàn)象,易造成實驗的誤差或者檢測出假陽性位點。因此檢測群體分層對效應(yīng)值的影響是非常必要的。
不同群體重復(fù)驗證分析,Replication
Regional association plots?
用LocusZoom(http://csg.sph.umich.edu/locuszoom/)畫出來的
相似條件分析,Approximate conditional analysis
相似條件分析的目的是,去掉lead SNPs后,再跑一次GWAS關(guān)聯(lián)分析,以此找到更多有強關(guān)聯(lián)的信號。
連鎖不平衡得分評估表型間遺傳相關(guān)性,Linkage-disequilibrium score regression
遺傳相關(guān)性 genetic correlation, 這是指在雜種群體表型間的相關(guān)性中,由基因型所產(chǎn)生的相關(guān)性。遺傳相關(guān)是僅由遺傳原因引起的相關(guān)。
基因富集分析,Gene setenrichment analysis
從文獻,GTEX、 GEUVADIS等據(jù)數(shù)據(jù)找到與 Lead SNPs 關(guān)系很大的基因、變異等,以及與 Lead SNPs 連鎖不平衡分析r2大于0.8的SNP,則這些SNP的基因可以作為候選基因。匯總了所有的候選基因后,在GOTERM、KEGG、Panther等數(shù)據(jù)庫分析這些候選基因的富集分析。
層次聚類分析,Hierarchicalclustering
層次聚類分析的作用是更進一步看出研究的表型相關(guān)的 lead SNPs與其他表型的相關(guān)性;
蛋白質(zhì)-蛋白質(zhì)互作網(wǎng)絡(luò)分析,Protein–proteininteraction network analyses
蛋白質(zhì)互作網(wǎng)絡(luò)的目的是看哪些蛋白共同調(diào)控了表型
Point ofcontact analyses
Point of contact analyses的作用是哪些位點導(dǎo)致了表型間有相關(guān)性
參考文獻: Horikoshi, Momoko, et al. "Genome-wide associations for birth weight and correlations with adult disease."?Nature?538.7624 (2016): 248. Okbay A, Beauchamp J P, Fontana M A, et al. Genome-wide association study identifies 74 loci associated with educational attainment[J]. Nature, 2016, 533(7604): 539.