2020-09-28

功能基因定位的方法:QTL定位(包括GWAS)和群體遺傳(選擇壓力分析)

廣義的QTL包括連鎖分析關(guān)聯(lián)分析。

首先介紹連鎖分析:

1、連鎖分析的基本原理:

?? 連鎖分析,之所以被稱為“連鎖分析”,其本質(zhì)還是利用功能基因與分子標(biāo)記間的連鎖與重組,實(shí)現(xiàn)對(duì)功能基因位置的定位。

例如下圖中,Q基因型會(huì)導(dǎo)致個(gè)體變高,q基因型會(huì)導(dǎo)致個(gè)體變矮。我們可以看到,鄰近的基因座Bb與Qq基因座連鎖。B總是與Q連鎖,導(dǎo)致B基因型的個(gè)體總是更高,對(duì)應(yīng)b基因型的個(gè)體更矮。而遠(yuǎn)離Qq基因座的Ee基因座則沒有這種現(xiàn)象。由于兩者距離較遠(yuǎn),彼此間沒有必然的連鎖關(guān)系(傾向自由重組),因此我們可以看到E基因座對(duì)應(yīng)的既有高的個(gè)體,也有矮的個(gè)體。

在實(shí)際研究中,這些分子標(biāo)記ABCDE都是位置已知的標(biāo)記,但我們不知道Qq基因座的位置。如果通過數(shù)學(xué)的方法,我們發(fā)現(xiàn)Bb、Cc基因座與性狀高矮相關(guān),而其他基因座并非如此,我們就可以確定功能基因Qq就位于Bb和Cc之間。

2、最簡(jiǎn)單的連鎖分析的方法(單標(biāo)記分析

正如上文所說的,我們需要挖掘確認(rèn)哪些分子標(biāo)記與性狀關(guān)聯(lián),從而進(jìn)一步推斷影響性狀的功能基因與這類分子標(biāo)記連鎖,從而判斷功能基因位于該分子標(biāo)記附近。在統(tǒng)計(jì)學(xué)上,我們使用最簡(jiǎn)單的方差分析,也可以實(shí)現(xiàn)這樣的推斷。

如圖2,我們可以將整個(gè)群體按照Bb基因座的基因型分為BB基因型群體和bb基因型群體的兩個(gè)子群體。如果我們使用方差分析證明子群體BB的平均身高顯著大于bb,則證明Bb基因座與性狀相關(guān)。類似,我們將會(huì)發(fā)現(xiàn)按照Ee基因座分類的兩個(gè)子群體在平均身高上則沒有區(qū)別。這樣我們就可以推斷,由于Bb基因座與性狀相關(guān),那么決定身高的基因座Qq應(yīng)該位于Bb附近,這樣就實(shí)現(xiàn)了QTL初步定位。


3、略為復(fù)雜的連鎖分析的方法

再看看圖1的示意圖,我們是否可以將其看成1個(gè)線性回歸方程組:

身高 = u+A*GT_A+B*GT_B+C*GT_C+D*GT_D+ E*GT_E

#方程1

其中u為群體均值(也就是方程的截距),系數(shù)A是A基因座的遺傳效應(yīng),GT_A是Aa基因座的基因型,可能是aa、Aa、AA,當(dāng)然數(shù)學(xué)上可以使用0,1,2替代。其中,系數(shù)A、B、C、D、E都是待求解的變量。

如果求解這個(gè)多元線性方程組,我們將發(fā)現(xiàn)A、D、E均為0(效應(yīng)為0),而B、C則顯著大于0,則一樣推斷Bb和Cc基因座對(duì)身高是有貢獻(xiàn)的。那么,它們?yōu)槭裁磳?duì)身高有貢獻(xiàn)呢?因?yàn)樗鼈兣c功能基因連鎖啊,由此我們知道了功能基因的初步位置。這就是QTL定位中的線性回歸模型。

4、實(shí)際使用的簡(jiǎn)單線性模型(區(qū)間作圖定位法

以上的方程組在實(shí)際情況中,將可能會(huì)面臨自變量的數(shù)量(標(biāo)記數(shù)量)大于因變量(樣本數(shù)),那么這個(gè)方程是不可準(zhǔn)確求得唯一解的。所以,通常會(huì)將多元線性回歸方程簡(jiǎn)化為一元線性回歸方程組。例如,針對(duì)Aa基因座,我們可以構(gòu)建一個(gè)方程組如下:

身高 = u+A*GT_A+e?# 方程2

其中,e是隨機(jī)誤差效應(yīng)。那么在這里的案例中,方程1就可以拆解為針對(duì)5個(gè)不同分子標(biāo)記的方程2,從而一一求解每個(gè)標(biāo)記/區(qū)間的效應(yīng)。因?yàn)?,這只是個(gè)簡(jiǎn)單的一元線性回歸方程,求解起來是非常簡(jiǎn)單快速的。

這就是在連鎖分析中常用的區(qū)間作圖定位法(interval Mapping)的基本原理。

5、實(shí)際應(yīng)用最廣的線性回歸模型(復(fù)合區(qū)間作圖定位

實(shí)際應(yīng)用最廣的線性回歸模型為復(fù)合區(qū)間作圖定位(Composite interval Mapping)。單標(biāo)記分析雖然效率很高,但卻可能會(huì)帶來誤差,例如遺傳背景的不均一給目標(biāo)位點(diǎn)效應(yīng)判斷帶來誤差。

例如下圖,個(gè)體A和B有三個(gè)QTL位點(diǎn)的差異。假設(shè)紅色的基因型相比褐色的基因型可以將個(gè)體的高度提高10厘米?,F(xiàn)在我想計(jì)算標(biāo)記Marker1的效應(yīng),如果我們只考慮單一標(biāo)記Marker1的效應(yīng)(使用方程2),最終我們計(jì)算的結(jié)果以為A個(gè)體 30厘米的身高優(yōu)勢(shì)都來自Marker1的差異,就誤把Marker1的效應(yīng)計(jì)為30厘米(高估)。

但如果我們使用多元線性回歸分析,將Marker2和Marker3并入方程組,在方程組中統(tǒng)一考慮它們的效應(yīng),那么對(duì)Marker1效應(yīng)的估算將會(huì)更加準(zhǔn)確(三個(gè)標(biāo)記效應(yīng)都是10厘米)。


在實(shí)際情況下,那些被忽略的背景標(biāo)記效應(yīng)會(huì)對(duì)單標(biāo)記分析模型帶來各種假陽性和假陰性的情況,所以背景標(biāo)記的效應(yīng)是必須被考慮的。

但目前的高密度遺傳圖譜,標(biāo)記數(shù)量成百上千個(gè),如上文提到的,如果每個(gè)標(biāo)記效應(yīng)都被并入方程,那么使用標(biāo)準(zhǔn)的方法這個(gè)方程組是無法求解的(方程1)。所以,在經(jīng)典的復(fù)合區(qū)間作圖定位中,采用了一個(gè)折中的方式,大體步驟如下:

a)使用單標(biāo)記回歸以及逐步回歸的方法,從整個(gè)基因組中篩選若干個(gè)(例如10個(gè))效應(yīng)最強(qiáng)的標(biāo)記。

b)在計(jì)算某個(gè)標(biāo)記(區(qū)間)效應(yīng)的時(shí)候,將其他區(qū)域效應(yīng)最強(qiáng)的那些標(biāo)記整合入方程組中,如以下方程式:

身高 = u+A*GT_A+[ B*GT_B+… …+ K*GT_K]+ e

# 方程3

在方差3中,未知變量一共有11個(gè)(A~K標(biāo)記的效應(yīng)),只要個(gè)體足夠多這個(gè)方程還是可以求解的。其中目標(biāo)標(biāo)記是A(我們期望算出它們的效應(yīng))。B~K就是基因組其他區(qū)域的效應(yīng)最強(qiáng)的標(biāo)記,雖然我們暫時(shí)并不關(guān)心它們具體的效應(yīng),但將它們引入方程會(huì)讓我們對(duì)A的效應(yīng)估算更準(zhǔn)。我們將B~K標(biāo)記這種并非我們直接關(guān)心,但和自變量(A 標(biāo)記)一樣,同樣對(duì)因變量(身高)有影響的標(biāo)記稱為協(xié)變量(covariant)。

所以,目前某些同行公司使用區(qū)間作圖模型進(jìn)行連鎖分析,實(shí)際上是不對(duì)的。對(duì)于數(shù)量性狀,只有使用考慮協(xié)變量的模型(例如復(fù)合區(qū)間作圖)才是合理的方法。

6、一些重要的概念

LOD值:這個(gè)p value的概念略有不同。P value是這個(gè)位點(diǎn)不存在QTL的概率。而LOD=log10(L1/L0),其中L1是這個(gè)位點(diǎn)有QTL的概率,L0是這個(gè)位點(diǎn)無QTL的概率。如果LOD=3,則意味著這個(gè)位點(diǎn)有QLT的概率是無QTL的概率的1000倍。

2-LOD置信區(qū)間:QTL定位的結(jié)果是1個(gè)LOD值在染色體上變化的波形圖(如下圖),QTL區(qū)域的LOD值會(huì)形成一個(gè)信號(hào)峰。功能基因理論上就位于信號(hào)最強(qiáng)(LOD值最大)的峰尖附近。但功能基因通常只是位于這個(gè)區(qū)間內(nèi),而不是必然位于峰尖。離峰尖距離越遠(yuǎn)的位置,LOD值不斷下降,功能基因位于該位置的概率越低。

為了便于后續(xù)研究中篩選候選基因,我們通常會(huì)設(shè)置一個(gè)范圍篩選候選基因。一般經(jīng)驗(yàn)值會(huì)使用2-LOD置信區(qū)間。這個(gè)名詞的意思就是LOD波動(dòng)曲線從峰的最大值降低2的時(shí)候(Y軸),對(duì)應(yīng)在遺傳圖譜上跨越的區(qū)域(X軸)。2-LOD置信區(qū)間大概對(duì)應(yīng)99.8%的置信區(qū)間,即功能基因有99.8%概率已經(jīng)落在這個(gè)區(qū)域內(nèi)了。

1-LOD置信區(qū)間也是類似的概念,對(duì)應(yīng)的置信區(qū)間大概是97%。


?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容