先把GWAS系列課程看一遍,后面再把不懂的東西再補(bǔ)充上來
一、概念和理論基礎(chǔ)
全基因組關(guān)聯(lián)分析定義
是對多個個體在全基因組范圍的遺傳變異(標(biāo)記)多態(tài)性進(jìn)行檢測,獲得基因型,進(jìn)而將基因型與可觀測的性狀,即表型,進(jìn)行群體水平的統(tǒng)計學(xué)分析,根據(jù)統(tǒng)計量或顯著性 P 值篩選出最有可能影響該性狀的遺傳變異(標(biāo)記),挖掘與性狀變異相關(guān)的基因。
質(zhì)量性狀與數(shù)量性狀
質(zhì)量性狀指相對性狀的變異呈不連續(xù)性,呈現(xiàn)質(zhì)的中斷性變化的性狀。由1對或少數(shù)幾對主基因控制。如雞羽的蘆花斑紋和非蘆花斑紋、角的有無、毛色、血型等都屬于質(zhì)量性狀。
數(shù)量性狀指相對性狀的變異呈連續(xù)性,個體之間的差異不明顯,很難明確分組。受微效多基因控制,控制數(shù)量性狀的基因稱為數(shù)量性狀位點(diǎn)(quantitative trait loci, QTLs).在QTLs中, 基因的效應(yīng)也有大有小。其中, 效應(yīng)較大的稱為主效QTL, 效應(yīng)較小的稱為微效QTL(或微效多基因)。動植物的許多重要經(jīng)濟(jì)性狀都是數(shù)量性狀,如作物的產(chǎn)量、成熟期,奶牛的泌乳量,棉花的纖維長度、細(xì)度等等。
但是,生物的許多性狀并不是絕對的質(zhì)量性狀或數(shù)量性狀, 多數(shù)表型介于兩者之間,同時受到主基因和數(shù)量性狀位點(diǎn)(QTLs)的控制。水稻包穗性狀就是受到主基因和數(shù)量性狀位點(diǎn)的共同控制。

分為兩類:
- 全基因組水平的關(guān)聯(lián)分析
- 已知候選基因的關(guān)聯(lián)分析(用的是候選基因的標(biāo)記和背景基因的標(biāo)記)
主要步驟就三步:
- 標(biāo)記開發(fā)
- 表型考察
- 統(tǒng)計分析


關(guān)聯(lián)分析和連鎖分析
關(guān)聯(lián)分析是以連鎖不平衡(linkage disequilibrium, LD)為基礎(chǔ)的。連鎖不平衡是不同基因座位上等位基因的非隨機(jī)組合。

1、連鎖采用家系樣本;關(guān)聯(lián)采用散發(fā)樣本
2、連鎖應(yīng)用LINKAGE核心IBD算法做計算;關(guān)聯(lián)用卡方檢驗計算2組,找到相關(guān)行
3、連鎖一般找到的是某個區(qū)域;關(guān)聯(lián)找到的是某個點(diǎn)
4、連鎖結(jié)果相對準(zhǔn)確,假陽性小,但精細(xì)定位很困難,主要原因是家系問題。關(guān)聯(lián)相對粗糙,假陽性很高,但可以直接定到基因位點(diǎn)
這里還有一個對于在人類疾病中的相關(guān)解釋(https://huans.github.io/2017/12/18/QTL/)

LD :
當(dāng)位于某一座位的特定等位基因與另一座位的某一等位基因同時出現(xiàn)的概率大于群體中因隨機(jī)分布的兩個等位基因同時出現(xiàn)的概率時,就稱這兩個座位處于連鎖不平衡狀態(tài)(linkage disequilibrium)
LD 衰減距離相關(guān)解釋(http://www.itdecent.cn/p/a36bd4145ef7)
單體型塊圖(LD bolck)(https://www.omicshare.com/forum/thread-1201-1-1.html)




LDheatmap 是一個 R 包,挺好用


二、材料的選擇











