基本原理
[站外圖片上傳中...(image-38780a-1577372733833)]
原始群體中,遺傳多樣性是十分高的,整個(gè)序列的核酸diversity都高。而在受到選擇之后,diversity會(huì)發(fā)生波動(dòng)。核酸多樣性下降 可能就是由于under selection導(dǎo)致的。
在演化/馴化過(guò)程中,如果某一基因X占優(yōu)勢(shì),即X的基因型占據(jù)主導(dǎo)地位,則基因X所在區(qū)域的雜合率/多樣性會(huì)顯著下降。本質(zhì)就是 比較基因組不同區(qū)域多樣性(雜合率)的變化
- 群體遺傳關(guān)心的問(wèn)題:
- 遺傳結(jié)構(gòu)(phylogeny+structure)
- 基因組上受選擇區(qū)域:群體水平基因組不同位置的區(qū)域遺傳多樣性變化的規(guī)律(例如:Pi、Tajima's D, Fst)
- 變異類型:
- 中性突變(同義、相同類型的氨基酸、不影響環(huán)境適應(yīng)性):平衡選擇,這種基因型頻率是大致恒定的
- 有利突變(正選擇):選擇掃蕩(Selective sweep),與有利突變的中性突變的頻率會(huì)顯著提升
selective sweeps - 有害突變(負(fù)選擇):背景選擇(negative selection/background selection/ purifying selection) 是潛在的噪音
負(fù)選擇會(huì)對(duì)正選擇有一定的干擾作用,都能產(chǎn)生大量的低頻突變,但是正選擇會(huì)產(chǎn)生相對(duì)較多的高頻突變。
選擇壓力的分析方法
單群體受選擇區(qū)域的檢驗(yàn)

sita計(jì)算
- 有效群體大小、每個(gè)位點(diǎn)突變速率
- sitaW:基于全部序列內(nèi)分離位點(diǎn)的個(gè)數(shù)(差異位點(diǎn)/核酸堿基的數(shù)量);對(duì)低頻的突變更加敏感。
-
pi值:計(jì)算兩兩序列的差異度,然后求均值。與計(jì)算的群體有關(guān):
- 群體總體的pi:計(jì)算出的pi值即代表這個(gè)小群體的pi值,核酸多樣性水平的高低。
- 基因組序列層面做檢測(cè),檢測(cè)基因組不同區(qū)域的選擇壓力水平,一般采取滑動(dòng)窗口的方式,例如以100kb的窗口10kb步移掃描pi值均值大小,從而計(jì)算序列層面不同區(qū)域的pi值變化。將pi值最極端區(qū)域(min 1%/5%)區(qū)域就作為受選擇的區(qū)域
-
Tajima's D。如果某個(gè)區(qū)域的Tajima's D值下降了,則代表這個(gè)區(qū)域可能會(huì)受到選擇(但是無(wú)法區(qū)分出正負(fù)選擇 (高頻突變會(huì)導(dǎo)致Pi值上升,而低頻突變會(huì)導(dǎo)致W值上升)
Tajima's D - H檢驗(yàn)(Fay & Wu):更關(guān)注正選擇的高頻突變。
兩個(gè)亞群體之間的比較
多樣性水平在亞群間比較,一般包括線性相關(guān)分析、亞群體間的差異比較兩類。動(dòng)植物重測(cè)序多是后者。Fst/pi ratio基于pi值。
-
群體分化程度Fst (Fixation index): 比較兩個(gè)亞群體間的Pi值和亞群體內(nèi)的Pi值的差異。
- 由PI值計(jì)算演變來(lái)(序列兩兩差異取均值)
- 兩個(gè)亞群體在某一段seq區(qū)域的差異度。0是無(wú)差異,數(shù)值越大,則說(shuō)明兩個(gè)亞群體之間已經(jīng)發(fā)生了明顯的分化(亞群內(nèi)個(gè)體相似,亞群間差異大)
Fst=(\pi(between) - \pi(within))/ \pi(between)
-
多樣性變化倍數(shù)Pi ratio:某區(qū)間在亞群間的多樣性差異的倍數(shù),簡(jiǎn)單粗暴,就關(guān)注多樣性值的高低變化。
- 例如野生群體A/栽培群體B;野生群體A的多樣性較高,而栽培群體B的多樣性較低,所以多樣性降低最顯著的基因組區(qū)域,就與馴化改良基因相關(guān)
- 其它比較值:ROD值、XP-CLR值等。而多個(gè)品種間的比較分化差異的di值
一般文章中都是將單群體的(PI, TajamaD)和多群體間比較的(Fst)值結(jié)合起來(lái)使用:?jiǎn)稳后w內(nèi)多樣性下降,兩個(gè)群體間多樣性分化程度上升,從而可能是受選擇基因。(多是以滑動(dòng)窗口的方法50k/100k)
所需材料和數(shù)據(jù)
- 選擇多品種,保證亞群體中更多的遺傳多樣性能被代表,在品種內(nèi)少量個(gè)體即可(8個(gè)個(gè)體+以上基本可以)。
- 選擇WGS,而非GBS。GBS可能~10K出現(xiàn)次標(biāo)記,而在自然群體中,LD衰減快,如到0.1僅10K,導(dǎo)致丟失一些區(qū)域的信息。
- 測(cè)序深度:后續(xù)主流是10X。8X的深度最優(yōu)性價(jià)比
參考學(xué)習(xí)資料:選擇壓力分析(https://www.omicshare.com/class/home/index/series?id=7)

