群體遺傳學(xué)狹義上是指分子群體遺傳學(xué),主要是研究基因組內(nèi)突變在群體中頻率的升高或降低。
研究內(nèi)容有:群體結(jié)構(gòu),遷移史,群體有效群體大小。
通過一些模型對上述內(nèi)容進(jìn)行分析。
以下前5小節(jié),來自微信公眾號PLANTOMIX, 如侵權(quán),請告知。
1 基礎(chǔ)概念-例子
4條序列,每條15個核苷酸,并且都來自同一個位點(diǎn):

在這個比對圖中,我們能夠看到某些位點(diǎn)是不同的,但我們主要關(guān)注的是雙等位位點(diǎn)(因?yàn)樗鼈兪亲畛R姷淖儺愵愋?,盡管在一個位點(diǎn)上可能有 2 個以上的變異)。有許多的術(shù)語用于描述這種 DNA 序列上的差異。我們可以看到在我們的樣品中有 6 個多態(tài)性,或者單核苷酸多態(tài)性(SNP)。
一個單一序列上所有等位基因的集合叫做單倍型(haplotype)
突變(mutations)可以用來表示 DNA 發(fā)生變化的過程或該過程中產(chǎn)生的新的等位基因。有時候突變是多態(tài)性的同義詞;在更注重醫(yī)學(xué)的人體群體遺傳學(xué)中,僅僅是指稀有的多態(tài)性(發(fā)生的次數(shù) <1-5%,或者僅僅是單一序列)。
替換(substitution)表示的那些在物種間觀察到的 DNA 差異,以區(qū)別于物種內(nèi)的變異。
通常, 我們認(rèn)為indel(insertion/deletion)不是分離位點(diǎn)(雖然有時候插入 1bp 的堿基也算作分離位點(diǎn))。這樣的劃分的原因是當(dāng)兩段序列有多個核苷酸插入時,很難區(qū)分真真正正的差異堿基數(shù)目。
這樣的劃分的原因是當(dāng)兩段序列有多個核苷酸插入時,很難區(qū)分真真正正的差異堿基數(shù)目。
2 群體遺傳模型介紹
遺傳漂泊(genetic drift)能夠改變等位基因的頻率。其對等位基因頻率的影響時隨機(jī)的。
2.1 Wright-Fisher 模型
遺傳漂變模型能夠解釋群體中的個體是如何一代代進(jìn)行更替的。最常見的模型是Wright-Fisher 模型。
假設(shè)群體中的個體是二倍體,因此在該群體的每一代中就有 2N 條染色體(常染色體)。如果我們把性染色體加入到該模型中,那就有 1.5N 條 X 染色體或 Z 染色體,0.5N 條 Y 染色體或 W 染色體,以及 0.5N 條線粒體或葉綠體基因組(這些數(shù)量取決于我們研究的生物)。
為了形成下一代個體,我們假設(shè)個體間是隨機(jī)結(jié)合的并統(tǒng)一對染色體進(jìn)行采樣并分配給下一代。沒有個體存活到下一代,相反,整個群體都被新一代個體所取代。這個模型最適用于一年生植物和昆蟲(只存活一年這一類)等沒有世代重疊的群體(一年生脊椎動物很少但是確實(shí)是存在的)。
遺傳漂變對Wright-Fisher模型中等位頻率的影響。假設(shè)某個核苷酸位點(diǎn)上有兩種等位基因:A1, 和A2。在第t代中,有i條染色體攜帶了A1,則頻率為:
Pt = i / 2N
也就是說有2N-i條染色體攜帶了A2,頻率為: qt = 1 - pt
下一代染色體采用相當(dāng)于從參數(shù)為2N和i/2N的二項(xiàng)分布進(jìn)行抽樣,因此,wright-Fisher模型中下一代的p的均值和方差為:

E(.)表示一個隨機(jī)變量的期望(均值), Var(.)示的是方差。這些式子表示當(dāng)只有遺傳漂變在發(fā)揮作用時(沒有突變沒有選擇),也就意味著隨著時間的改變,等位基因的頻率在期望上是不變的。因?yàn)槲覀兊钠谕?,等位基因頻率是不會改變的,所以我們并不能對任何一個等位基因進(jìn)行預(yù)測。另外,在這個過程中,方差是和群體大小直接相關(guān)的。因此,在小群體中,等位基因頻率會有更大的改變。更重要的是,即使我們預(yù)計不會發(fā)生重大的變化,以相同的等位基因頻率開始的獨(dú)立群體將不可避免地在平均等位基因頻率上產(chǎn)生差異,這樣一來就形成了 進(jìn)化趨異。等位基因通常是朝著 0 或 1 進(jìn)行漂變的。如果某個等位基因的在群體中的頻率是 1, 我們就稱其fixed。一旦發(fā)生‘固定’,那就不會有其他的變化發(fā)生,因?yàn)閮蓚€ alleles 中的其中一個已經(jīng)從群體中消失了。
當(dāng)遺傳漂變是唯一的進(jìn)化力量時,對一個群體來說,遺傳變異的水平是會下降的。
雜合度(heterozygosity)義為隨機(jī)選擇的兩個染色體具有不同等位基因的概率的話,那在一個隨機(jī)交配的群體中一個雙等位基因的雜合度就是2pq.如果其中一個 allele 比另外一個更常見的話,雜合度就會降低。在Wright-Fisher 模型中,期望在每代中雜合度降低的速率為1/2N。 雖然雜合度下降并不能用于衡量等位基因頻率的變化,但是上述的這些結(jié)果表明當(dāng)遺傳漂變是唯一的進(jìn)化力量時,等位基因變化的速率是極低的。
2.2 Moran模型
其在某些方面比Wright-Fisher更接近真實(shí)情況,也更容易在數(shù)學(xué)上進(jìn)行某些處理.
在Moran模型中,不同年齡的個體是可以共存的,也就不用像Wright-Fishe那樣,新的一代完全取代上一代。
嚴(yán)格講Moran模型只能用于單倍體群體,但是為了和Wright-Fisher比較,,我們假設(shè)一個固定大小的群體中有 2N 個單倍體個體。在一個給定的時間點(diǎn),一個個體隨機(jī)被選擇然后進(jìn)行繁衍,另外一個個體被隨機(jī)選擇后面對死亡。如果我們將這個過程重復(fù) 2N 遍,我們將得到和Wright-Fisher模型一樣的大小的一代群體??梢岳斫鉃椋浩骄鶃碚f,每個個體會被下一代取代;但是某些個體存活的時間少于 1 代,而有的個體存活的時間超過一代(編者注:就像有的人超過人類平均年齡后才去世,但是有的人在平均年齡之前就去世了)。
在這個模型中,當(dāng)攜帶一個等位基因的個體進(jìn)行繁殖而另外一個個體面臨死亡時,等位基因的頻率才會發(fā)生改變。當(dāng)然,也可能是攜帶相同等位基因的兩個個體都死亡了,那現(xiàn)在的情況是沒有等位基因頻率發(fā)生變化。在經(jīng)過 2N 次的出生 - 死亡迭代后,我們能夠知道下一代中等位基因頻率的均值和方差。還是考慮一個和 Wright-Fisher模型相同的雙等位基因位點(diǎn)。在Moran模型的下一代中,等位基因頻率 p 的均值和方差分別是:

和 Wright-Fisher模型相同,平均等位基因頻率的均值是不變的,但是此時的方差是Wright-Fisher模型的兩倍,這是因?yàn)镸oran模型中,每個個體后代的數(shù)量是Wright-Fisher模型的兩倍。
這種差異的結(jié)果就是咋Moran模型中,遺傳漂泊的次數(shù)是Wright-Fisher模型的兩倍。
雜合度也就降低了一半:1/N。
此處的兩種模型對大多數(shù)物種來說都是 “不真實(shí)的”。在某些應(yīng)用場景下需要的是更接近真實(shí)情況的模型,Cannings模型就是其中之一。在這個模型中,子代數(shù)可以有任意的方差。這個模型屬于 Wright-Fisher模型的推廣模型。
但 Wright-Fisher模型不僅直觀,還能從中推導(dǎo)出一些重要的進(jìn)化結(jié)論。Wright-fisher模型還可以對其他模型的結(jié)果進(jìn)行驗(yàn)證,相當(dāng)于一個可以用于驗(yàn)證其他模型的模型。
3 有效群體大小
有效群體大小(effective population size)是群體遺傳學(xué)的核心概念之一,通常表示成Ne(Wright 1931)。
有效群體大小是個抽象值,它可以將一個真實(shí)的群體模式化成具有等量遺傳漂變的 Wright-Fisher 群體.
對一個自然群體來說,有許多因素會增大后代數(shù)量的方差(超過了 Wright-Fisher * 模型的方差),因此有效群體大小通常小于普查群體大小。
有效群體大小讓我們能夠在同一個參照系(Wright-Fisher 群體模型中預(yù)期的遺傳漂變)對不同的群體或物種進(jìn)行比較?;诖?,我們就能利用一個單一的值去量化突變、選擇、重組及遷徙對遺傳漂變的適應(yīng)性的影響。甚至我們可以對基因組的不同區(qū)域設(shè)置不同的有效群體大小,即每個種群的歷史都與具有不同遺傳漂變水平的 Wright-Fisher 種群的歷史相同。這些差異可以表現(xiàn)為整個基因組在許多進(jìn)化過程中的差異。
然而,有效群體大小在一定程度上也是個模糊且被廣泛誤解的概念。其中的一個問題是,至少有 4 種方法來表示漂變的影響,因此一個特定的種群可以通過 4 種不同的方式來等效于 Wright-Fisher 群體某些方面的遺傳漂變。這就導(dǎo)致了有多種關(guān)于有效群體大小的定義:
the variance effective size;
the inbreeding effective size;
the eigenvalue effective size;
the coalescent size.(聚結(jié)大小)
在滿足 Wright-Fisher 模型的均衡群體中,上述的 4 種定義中的有效群體大小是等價的。但是在一個非平衡歷史的群體中,這些有效群體大小的估計值很可能是大相徑庭的,甚至是完全無法估計的。
對分子序列數(shù)據(jù)來說,使用得最廣泛的有效群體大小是 coalescent effective population size(盡管在某些情況下仍然不確定)。
在此定義下,我們將遺傳漂變的量等同于合并的速率(the rate of coalescence)。
有效群體大小這個概念通常也被濫用,或者至少是不必要地擴(kuò)大了其含義和應(yīng)用范圍。正如 Ewens 強(qiáng)調(diào)的那樣,“如果將‘有效’這個詞替換成‘在某種意義上相當(dāng)于 Wright-Fisher 模型的等效物,則更能說明該概念的含義。一個理想的 Wright-Fisher 群體模型和 Ne的聯(lián)系通常是被遺忘或者說被夸大了。正如在前面討論到的,Wright-Fisher 模型是許多理論群體遺傳學(xué)的基礎(chǔ),在比較不同群體時該模型作為一個比較的參照中心。但是 Wright-Fisher 群體大小并不等于 the effective number of breeding individuals、the number of individuals contributing wo the next generation 或任何” 真實(shí)的 “群體大小。我們可以簡單地把有效大小定義為等同于具有相同遺傳漂變量的 Moran 群體的有效大小(在這種情況下 Ne的大小只是一半)。上面這些只表明了一點(diǎn): Ne這個值并不是非常有用,而基因組區(qū)域之間或物種之間的等級值可能能告訴我們有關(guān)漂變和選擇的相對預(yù)期強(qiáng)度。
4 序列多樣性參數(shù)
4.1 雜合度(heterozygosity)
某個位點(diǎn)的第 i個等位基因的樣本頻率為pi,那么該位點(diǎn)所有等位基因的頻率和應(yīng)該是 1。先考慮二倍體的雙等位基因,那就是p1 + p2 = 1。衡量單個多態(tài)位點(diǎn)變異(variation)的一個方法是計算樣本雜合度(heterozygosity),公式如下:

n代表的是樣本中序列的數(shù)量
4.2 π
上面這個公式是針對一個位點(diǎn)的,如果是針對一條序列的話,那其實(shí)就就是將整條序列的雜合度加起來即可。


例子:

假設(shè)現(xiàn)在有 4 個樣本,15 個位點(diǎn),但是只有 6 個位點(diǎn)是分離位點(diǎn),我們先計算每個分離位點(diǎn)的雜合度:
根據(jù)公式可知,對分離位點(diǎn) 1(圖中的第二列序列),有兩個等位位點(diǎn),分別是 T 和 C,其中 T 有 3 個,C 有 1 個,那么對 T 來說,它的頻率就是 0.75,對 C 來說它的頻率就是 0.25。根據(jù)公式可得:

我們以此計算就能得到其他 5 個分離位點(diǎn)的雜合度分別為:0.667,0.5,0.667,0.5,0.5。
那么就能計算π 值了:

我們將 π的計算進(jìn)行推廣就能得到下面這個公式:


現(xiàn)在是有 4 條序列,所以.n = 4 然后以此進(jìn)行比較:
第一條 VS 第二條:3 個不同的核苷酸
第一條 VS 第三條:4 個不同的核苷酸
第一條 VS 第四條:3 個不同的核苷酸
第二條 VS 第三條:5 個不同的核苷酸
第二條 VS 第四條:0 個不同的核苷酸
第三條 VS 第四條:5 個不同的核苷酸

正如前面說到的,我們在計算序列之間的差異時通常是省略 indel 將其變成缺失值進(jìn)行處理的。當(dāng)使用公式

例子:

如果用第一個公式,那么π =3.49,但是如果用第二個公式的話,π = 2.83。原因是第一個公式將 indel 當(dāng)作缺失值進(jìn)行處理,而第二個公式將 indel 當(dāng)作 gap 直接省略了這些位點(diǎn)(哪怕是在這些位點(diǎn)并不是分離位點(diǎn))。不同的公式給出的結(jié)果也不一樣,尤其是針對平均的每個位點(diǎn)時。因此,在處理基因組這種大數(shù)據(jù)時,通常使用

我們可以把 的期望方差表示成參數(shù)為

的函數(shù)。雖然在中性進(jìn)化模型下,這個參數(shù)沒啥用。
如果沒有重組發(fā)生的話:

4.3 ?
?w通常叫Watterson's?.
用 π 表示核苷酸變異的另外一種方法是利用樣品中所有分離位點(diǎn)的數(shù)量 S 進(jìn)行衡量,但是需要注意的是樣本量太大時會得到很大的 S,因此需要對 S 進(jìn)行校正:

綜上:


還是和前面說的一樣,遇到 indel 不同的處理方式得到的結(jié)果不一樣


5 次等位基因頻率MAF
前面使用 ?和 ?w來評估序列的多樣性。除了用數(shù)字以外,我們還可以用圖形來表示序列多樣性程度。在這之前,我們需要了解幾個概念。
5.1 祖先等位基因和衍生等位基因
一個分離位點(diǎn),我們需要知道它是 ancestral allele (祖先等位基因)還是 derived allele(衍生等位基因)。我在參考文獻(xiàn)[1] 中找到這樣一個解釋:

那如何區(qū)別一個分離位點(diǎn)是兩種中的哪一種呢?通常的辦法是用相近物種的序列進(jìn)行比較,而且通常是兩個相近物種。因?yàn)槭褂靡粋€相近物種的話可能會遇到平行突變的情況。和兩個相近物種都一樣的分離位點(diǎn)通常就是 ancestral allele。
次等位基因頻率(MAF)
在不知道一個位點(diǎn)是 ancestral allele 還是 derived allele 的時候,通常用MAF: minor alele frequency 來衡量多態(tài)性。
既然是minor, 那就不是最多的,而是次要多的。現(xiàn)在假設(shè)我們有 10 個樣本,在一段序列上分離位點(diǎn)的分布情況如下圖所示。下圖A中藍(lán)色的位點(diǎn)是minor allele. 我們需要計算每個minor allele的頻率:0.2,0.1,0.2,0.1,0.3,0.1,0.3,0.1,0.4(注:第三行第 28 個堿基作者忘記標(biāo)注為藍(lán)色)?,F(xiàn)在我們就可以畫個柱狀圖:以頻率為 X 軸,以頻率出現(xiàn)的次數(shù)為 Y 軸(也是對應(yīng)頻率的分離位點(diǎn)出現(xiàn)的次數(shù)),這就是allele frequency spectrum。


當(dāng)我們知道一個分離位點(diǎn)屬于 ancestral allele 還是 derived allel 時就能進(jìn)行 DAF:derived allele frequency 計算。方法和計算 MAF 類似。


5.3 基于derived allele的統(tǒng)計量

參考文獻(xiàn):
[1] Sethupathy P, Giang H, Plotkin J B, et al. Genome-wide analysis of natural selection on human cis-elements[J]. PloS one, 2008, 3(9): e3137.
6 群體結(jié)構(gòu)
我們常計算群體的PCA(R包), 系統(tǒng)發(fā)生樹(Fasttree分析),和祖先成分分析(admixture軟件)
也可以分析LD(Plink分析)