全基因組關(guān)聯(lián)分析 (GWAS) - 簡介

在碩士就讀期間,就已經(jīng)做過 GWAS 相關(guān)的分析。當(dāng)時標(biāo)記量非常少, windows 系統(tǒng)分析就足夠了,作圖方面涉及的腳本也基本是蔡師兄幫寫的。后來,隨著高通量測序成本的降低,標(biāo)記數(shù)量越來越多,不得不進(jìn)入 linux 和 腳本操作的時代,因此我也陸陸續(xù)續(xù)的學(xué)習(xí)了 R 和 Python等編程語言,但是在編程的世界里,只是一個小菜鳥,大部分的腳本都是“借來的”。
而此次 GWAS方面的相關(guān)內(nèi)容基本取材于百邁客云課堂。

1、基本概念

全基因組關(guān)聯(lián)分析(Genome wide association study,GWAS)是對多個個體在全基因組范圍的遺傳變異(標(biāo)記)多態(tài)性進(jìn)行檢測,獲得基因型,進(jìn)而將基因型與可觀測的性狀,即表型,進(jìn)行群體水平的統(tǒng)計(jì)學(xué)分析,根據(jù)統(tǒng)計(jì)量或顯著性 p 值篩選出最有可能影響該性狀的遺傳變異(標(biāo)記),挖掘與性狀變異相關(guān)的基因。

image.png

相對于連鎖分析的優(yōu)勢
? 關(guān)聯(lián)定位的相對優(yōu)勢:
? 1)分辨率高(單堿基水平)
? 2)研究材料來源廣泛,可捕獲的變異豐富
? 3)節(jié)省時間
關(guān)聯(lián)分析的基礎(chǔ)-連鎖不平衡(LD)
當(dāng)位于某一座位的特定等位基因與另一座位的某一等位基因同時出現(xiàn)的概率大于群體中因隨機(jī)分布的兩個等位基因同時出現(xiàn)的概率時,就稱這兩個座位處于連鎖不平衡狀態(tài)(linkage disequilibrium)
image.png

r2 和 D'
? r2和D’反映了LD的不同方面。r2包括了重組和突變,而D’只包括重組史。
D’能更準(zhǔn)確地估測重組差異,但樣本較小時,低頻率等位基因組合可能無法
觀測到,導(dǎo)致LD強(qiáng)度被高估,所以D’不適合小樣本群體研究;
? LD衰減作圖中通常采用r2來表示群體的LD水平;
? Haplotype Block中通常采用D’來定義Block;
? 遷移、突變、選擇、有限的群體大小以及其他引起等位基因頻率改變的因素都
會引起LD的改變。
LD衰減
? LD的衰減指位點(diǎn)間由連鎖不平衡到連鎖平衡的演變過程;
? LD的衰減距離決定關(guān)聯(lián)分析時所需標(biāo)記密度,也在一定程度上決定關(guān)聯(lián)分析的精度。
image.png

Haplotype Block
? 單體型塊,即連鎖不平衡區(qū)域,是指同一條染色體上處于連鎖不平衡狀態(tài)的一段連續(xù)的區(qū)域
? 單體型塊分析可以用于篩選 tag SNP、確定候選基因的范圍等
image.png

2、材料選擇與群體設(shè)計(jì)

材料選擇的基本原則
基本原則
1)遺傳變異和表型變異豐富
2)群體結(jié)構(gòu)分化不能過于明顯(如亞種以上,發(fā)生生殖隔離是不能做GWAS的)

image.png

樣本量
非稀有變異中,對中等變異解釋率(10%左右)的位點(diǎn)的檢測功效要達(dá)到80%以上時,需要的樣本量在400左右
位點(diǎn)的效應(yīng)越低,需要的樣本量越大
image.png

群體類型
?種質(zhì)資源材料
? 遺傳變異豐富,可以同時對多個性狀進(jìn)行分析
? 群體結(jié)構(gòu)復(fù)雜,稀有變異多,遺傳信息丟失明顯
?人工群體
? 包括F2、半同胞家系、動物遠(yuǎn)交群體、NAM群體、MAGIC群體和ROAM等群體類型。背景單純,檢測功效高;可以放大稀有變異
? 遺傳變異不夠豐富,重組事件有限,定位精度可能較低
表型調(diào)查
精確的表型檢測是關(guān)聯(lián)分析的關(guān)鍵
GWAS對數(shù)量性狀和質(zhì)量性狀都適用
? 數(shù)量性狀:多基因控制,能夠測量得到具體數(shù)值,符合正態(tài)分布;考慮到數(shù)量性狀受環(huán)境影響大,建議將所有材料在同一環(huán)境下培育或養(yǎng)殖,或者用多年多點(diǎn)的數(shù)據(jù)分開分析后綜合結(jié)果或取BLUP值作為性
狀值進(jìn)行關(guān)聯(lián)分析。
? 質(zhì)量性狀:單基因控制,無法用具體數(shù)值衡量,可轉(zhuǎn)換成0、1等表示,需注意每個群體選取近似的樣本。
? 分級性狀:表型分布類似質(zhì)量性狀,但實(shí)際受多基因控制(數(shù)量性狀),如抗性性狀,因此需要提供每一個個體精確的測量數(shù)據(jù)。
? 多指標(biāo)性狀:有多個指標(biāo)可以同時度量時,找出代表原表型數(shù)據(jù)變異的主成分因子,作為關(guān)聯(lián)分析的表型數(shù)據(jù)
標(biāo)記開發(fā)與分型
? 實(shí)驗(yàn)室常用標(biāo)記(SSR等)
? SNP芯片
? NGS開發(fā)SNP、small Indel、CNV、SV標(biāo)記
image.png

縱深研究--基因克隆示例
材料:381份粳稻品種(熱帶和溫帶品種)
1、關(guān)于水稻谷粒大小的性狀,GWAS定位到7號染色體,SNP峰值所在地方注釋到11個基因;
2、對11個基因分別在稻穗、葉片和根系中做RT-PCR,只有第9個基因OsSPL13在稻穗中表達(dá)有差異;
3、OsSPL13基因蛋白表達(dá)的進(jìn)一步驗(yàn)證;
4、分析OsSPL13基因在水稻大粒和小粒之間的序列差異,包括SNP位點(diǎn)和小的indel;
5、通過轉(zhuǎn)基因找到影響OsSPL13基因表達(dá)相關(guān)的相關(guān)區(qū)域(5’UTR中的一個串聯(lián)重復(fù)序列);
6、通過RNA干擾的方法將大粒品種GP579和小粒品種Dongjing中OsSPL13的表達(dá)量下調(diào)后會使水稻籽粒的長度和粒重都顯著降低;
7、篩選到1個Dongjing來源的glw7突變體,粒長和粒重比野生型均明顯降低;
8、通過chip-seq進(jìn)行OsSPL13調(diào)節(jié)下游基因的驗(yàn)證(結(jié)果未示)SRS5和DEP1。
image.png

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容