參考課程: 基迪奧GWAS課程:https://www.omicshare.com/class/Home/Index/singlev?id=3
自然群體利用了進化過程中的染色體重組,容易進行基因定位。
1、GWAS分析常用的軟件
(1)TASSEL
- 植物類項目應用較多,可以矯正群體結構和系譜關系(Trait Analysis by aSSociation, Evolution and Linkage; Bradbury et al, 2007, Bioinformatics 23:2633-2635)
(2)EMMA - 動物類項目應用較多,可矯正系譜關系(Kang et al, 2008, Genetics 178:1709-1723)
(3)Plink - 使用較為簡單(Purcell et al, American Journal of Human Genetics, 2007, 81)
2、表型的處理:線性表型性狀
- 正態(tài)性判斷:R語言的shapiro.test(x)檢驗
- 如果是僅個別樣本異常,建議剔除。如極端值、離開均值大于4倍SD的
- 若整體偏離散(如基因表達量值),建議取log2后,重新檢驗正態(tài)性。
3、材料的選擇
主要從兩方面考慮,一是其LD衰減和重組情況如何、二是群體結構如何。
(1)群體的選擇
-
野生品種、地方品種、培育品種
不同群體關聯(lián)分析的效果不同
- 標記的效應越弱,要檢測到這個標記所需的樣本數(shù)目就更大,因此要先考慮研究的性狀是偏質量的、還是偏主效基因的,or前人報道的沒有主效基因的
- 如果是前人報道的無主效基因的,就要考慮增加樣本,或確實定位不到位點
(2)基因型是否完全覆蓋
- GWAS分析的基礎就是基因與標記之間的LD是否連鎖,不同群體的LD衰減距離不同,可以用hyploview進行計算。
- 通常當兩個位點間R2>0.8時,認為兩位點處于完全連鎖不平衡,但這種連鎖狀態(tài)會隨區(qū)域增加而不斷降低。
如何根據(jù)LD衰減距離判斷做GWAS所需的標記個數(shù)?? - 如果群體的LD衰減距離是100k,那么分析時就要保證每100k至少要有一個marker,那么1M就需要10個、1G就是10w個、3G就需要30w個
- 核心種質的LD衰減非???,因此要增加標記密度
(3)基因型判斷群體結構的影響(隨機背景標記)
群體結構(Q矩陣)和個體檢潛在的系譜關系(K矩陣),可能會導致假陽性(如下圖):

- 群體結構和性狀分布恰好一致,會使人誤以為只要是量群體特有的基因就都是與性狀關聯(lián)的,即將區(qū)分群體的背景標記認為是與性狀相關的;
-
解決辦法(2種):
① 將群體結構作為協(xié)變量,引入到方程式里,將群體間的影響校正掉,剩下的效應可能是標記的效應;
- 計算群體結構(Q矩陣):用structure或PCA分析的結果,作為群體結構的協(xié)變量,將其引入模型 ----- 具體操作見楊曉紅老師GWAS操作教程課件
- 計算個體遺傳關系(系譜關系,K矩陣):用SPAGeDi軟件

② 將兩個群體分開,分別單獨做GWAS,來敲除遺傳背景對群體結構的影響
4、GWAS分析的多階段設計
(1)什么是多階段設計?
- 在人類疾病的GWAS研究中,常用兩階段法分析,比較嚴謹。第一階段一般用覆蓋全基因組的位點,第二階段則聚焦在少量的候選位點的測序數(shù)據(jù)進行GWAS分析。
- 單階段:一個群體進行關聯(lián)分析 → 完成不嚴謹,一般為動植物類的研究
-
兩階段:
(1)階段1:找候選關聯(lián)位點
小樣本(幾百)全基因組關聯(lián)分析,得到候選位點;
(2)階段2:候選位點的驗證
已有群體大樣本(成千上萬)或新的獨立群體,只對候選位點的關聯(lián)分析。
(2)多階段設計的優(yōu)點 - 有驗證的步驟:可靠;
- 降低成本:第二階段的檢測位點數(shù)較少;
- 解決潛在的多重檢驗校正的位點
高密度芯片or全基因組重測序,SNP數(shù)量可達1M,多重檢驗過于嚴格。
如:1M SNP,Bonferroni校正的adjusted p value閾值 = 0.05/110-6=510-8(太嚴格) - 可以采用的方法:第一階段放松過濾閾值,在第二階段進行驗證。由于第二階段位點數(shù)較少,多重檢驗校正不會如此嚴格。
5、關聯(lián)分析所需的模型
(1)模型原理

- 固定效應1:環(huán)境效應,如不同年份、不同地點數(shù)據(jù)
- 固定效應2:位點效應
- 固定效應3:群體結構效應,群體分層導致的,需要糾正,樣本所屬的亞群分類信息用Q矩陣表示
- 隨機效應:潛在的系譜關系,K矩陣
- 隨機誤差
關聯(lián)分析時并不是說所有位點都要考慮,要結合自己的情況,選擇合適的
(2)模型的選擇
① 動物
- PCA分析初步判斷;
- 一般而言,動物類樣本在系譜清晰,且沒有明顯群體結構的情況下,可直接剔除離群樣本;剔除離群樣本后,再將剩下的個體做PCA分析,如果不再存在群體分層,即可用一般線性模型做關聯(lián)分析;
- 若存在群體分層,再考慮使用Q矩陣進行矯正。
② 植物
- PCA分析初步判斷;
- 植物(尤其作物)因品系間雜交更普遍(如玉米),故群體結構和不同品系間的系譜關系更普遍;分析時,同時使用一般線性模型和不同的混合線性模型,然后比較結果的好壞。
(3)如何判斷模型是否合適?——qq圖
① 正常的qq圖:前貼后起

- GWAS分析后,p-value的-log10從低到高排序,看其與期望p-value之間的差別)
- 假如標記與性狀完全不相關,則標記的p-value應該是正態(tài)分布,因此會一直沿著直線走,并且實際情況下,絕大部分標記確實是跟性狀不相關。到了后期,標記的顯著性增高,可能開始與性狀之間存在相關,因此其觀測到的p值會顯著高于期望p值。
② 異常情況:過度矯正

- 過度矯正的可能原因:
a. 群體結構或kinship矯正過于嚴格,導致觀測值<期望值;
b. 期望p-value的隨機分布是基于位點之間互相獨立的假設,高通量測序or高密度芯片會導致很多相鄰位點間存在連鎖or相關關系,這樣的話觀測到的p值就不是完全隨機的,若位點間實際存在
(4)關聯(lián)分析的模型選擇
-
做任何性狀的關聯(lián)分析時,都需要用至少2個模型進行模擬,判斷最佳模型
(5)不同分析方法的最適范圍:

6、示例:GWAS分析的一般步驟
step 1:通過進化樹和PCA分析,看群體分層情況

step 2:不同模型的比較 —— 找出最佳模型

step 3:分群體和全群體分析 —— 當存在明顯的群體分層時

Step 4:對定位到的位點的解讀:優(yōu)先解讀可解讀的,再去挖掘其他的

step 5: 結合RNA-seq或群體遺傳學等其他方法來驗證這個位點附近的基因可能是與性狀相關的



