前面已經(jīng)簡單介紹過GWAS的概念,GWAS分析中所用到的文件以及分析流程,我們在GWAS分析結(jié)果文件中經(jīng)常會看到beta值和P值,他們分別代表什么意思?這兩個值又有什么關(guān)系呢?
我們先來看一下EMMAX軟件分析結(jié)果都有哪些內(nèi)容。

其中,第一列代表SNP ID, 第二列代表beta, 第三列代表P-value。
beta和P-value在GWAS中到底代表什么意思,他們具體什么關(guān)系呢,是不是P-value越小,beta值越大呢。
beta: 等位基因1的效應(yīng)大小估計,也稱為等位基因的效應(yīng)值。
P-value: 是目標(biāo)SNP與表型是否顯著關(guān)聯(lián)。小的P-value被視為零假設(shè)(目標(biāo)SNP與表型無關(guān)系)可能不成立,即備擇假設(shè)成立,也就是目標(biāo)SNP與表型有關(guān)系)的證據(jù)。
p-value具體計算過程較復(fù)雜,下一期再講,這一期我們會先講解一下beta值是如何計算出來的,這就引出了GWAS涉及的公式——最小二乘法。

我們舉個例子來方便大家理解。

如圖所示,假設(shè)有一個SNP位點,是SNP008: G > A
我們定義A為風(fēng)險位點,以加性模型為例:一個G = 0, 一個T = 1,即GG = 0, AG = 1, AA = 2
根據(jù)上面公式(1):
SNP對應(yīng)的x值分別為:2,2,1,2,1,0,0,2,2,0
表型對應(yīng)的y值分別為:189,180,171,192,173,160,162,183,190,158

我們的任務(wù)就是找到合適的a和b,使得
(2a + b – 189)^2 + (2a + b – 180) ^2 + (1a + b – 171) ^2 + (2a + b – 192) ^2 + (1a + b – 173) ^2 + (0 + b – 160 ) ^2 + (2a + b – 183) ^2 + (2a + b – 183) ^2 + (2a + b – 190) ^2 + (0 + b – 158 ) ^2結(jié)果最小。
我們可以借助R計算一下:

擬合結(jié)果是,a最優(yōu)值為13.47368,b最優(yōu)值為159.6316 ,公式y(tǒng)= 13.47368 x + 159.6316
回歸到全基因組關(guān)聯(lián)分析中,這里a值即為beta值,是13.47368。
部分小伙伴認(rèn)為效應(yīng)值beta越大, P值一定就越小,其實這種理解是錯誤的,它們完全是兩回事。
GWAS分析的大致思路可以簡單歸為以下幾點:
Step1: 將對應(yīng)的基因型轉(zhuǎn)換為0,1,2的形式,這里將主效純合基因編碼為0,雜合基因型編碼為1,次要純合基因編碼為2;
Step2: 將基因型輸入向量x, 研究的表型輸入向量y;
Step3: 對x和y做回歸分析,y= ax + b, 其中a即為效應(yīng)值,a是否顯著即為P value
我們先利用R將上面身高例子利用最簡單的線性模型進(jìn)行關(guān)聯(lián)分析一下。
#首先將基因型和身高分別輸入x和y
x=c(2,2,1,2,1,0,0,2,2,0)
y=c(189,180,171,192,173,160,162,183,190,158)
height = lm(y ~ x)
summary(height)

我們發(fā)現(xiàn)該方法和前面我們求出來該位點效應(yīng)值一樣,都是13.474, 同時該位點與身高顯著關(guān)聯(lián),P value = 1.02e-05。
接下來,我們看一個效應(yīng)值(beta)較大,不顯著(P value較大)的例子。
自己造數(shù)據(jù)。
#基因型0,1,2
x = rep(c(0,1,2),4)
x
#模擬的表型值
y = 13*x + rnorm(12)*20
y
# 作回歸分析
sim = lm(y ~ x)
summary(sim)

我們可以看到效應(yīng)值為7.865,P value為0.17,不顯著。我們做散點圖看一下出現(xiàn)效應(yīng)值較大,不顯著,在圖形上具體怎么表現(xiàn)?
# 作散點圖
data = data.frame(x,y)
data
ggplot(data,aes(x=x,y=y)) + geom_point() + stat_smooth(method='lm',formula = y~x,colour='red')

然后,我們再看一個效應(yīng)值(beta)較小,極顯著(P value較?。┑睦?。
自己造數(shù)據(jù)。
#基因型0,1,2
x = rep(c(0,1,2),4)
x
#模擬的表型值
y = 0.5*x + rnorm(12)*0.05
y
# 作回歸分析
sim = lm(y ~ x)
summary(sim)

我們可以看到效應(yīng)值為0.491590,P value為1.44e-12,極顯著。我們做散點圖看一下出現(xiàn)效應(yīng)值較小,極顯著,在圖形上具體怎么表現(xiàn)?
# 作圖
data = data.frame(x,y)
data
ggplot(data,aes(x=x,y=y)) + geom_point() + stat_smooth(method='lm',formula = y~x,colour='red')

我們可以簡單理解一下,效應(yīng)大不顯著的位點是那些SNP對表型影響較大,但容易受外界環(huán)境影響,或者由于誤差造成的個體之間表型較離散;效應(yīng)小極顯著的位點是那些SNP對表型影響較小,但是不易受外界環(huán)境影響,對表型影響較為穩(wěn)定的位點。
總之,大家記住效應(yīng)值beta和P值沒有必然的聯(lián)系,它們不是一回事即可。
往期回顧:
GWAS分析 (一)
http://www.itdecent.cn/p/67e1878845e3
GWAS分析-曼哈頓圖 (二)
http://www.itdecent.cn/p/fa261b6045c2
GWAS分析-常用文件格式 (三)
http://www.itdecent.cn/p/ad47f575e83b
GWAS分析-R包GAPIT (四)
http://www.itdecent.cn/p/9944bcbfe3c7
GWAS分析-多個性狀的manhattan組合圖繪制(五)
http://www.itdecent.cn/p/b376a86cb7e3