群體遺傳學(xué)狹義上是指分子群體遺傳學(xué)，主要是研究基因組內(nèi)突變在群體中頻率的升高或降低。
研究內(nèi)容有：群體結(jié)構(gòu)，遷移史，群體有效群體大小。
通過一些模型對上述內(nèi)容進(jìn)行分析。

以下前5小節(jié)，來自微信公眾號PLANTOMIX, 如侵權(quán)，請告知。

1 基礎(chǔ)概念-例子

4條序列，每條15個核苷酸，并且都來自同一個位點(diǎn)：

JK0)CPECO(AUR9Z7KWQF{C8.png

在這個比對圖中，我們能夠看到某些位點(diǎn)是不同的，但我們主要關(guān)注的是雙等位位點(diǎn)（因?yàn)樗鼈兪亲畛Ｒ姷淖儺愵愋?，盡管在一個位點(diǎn)上可能有 2 個以上的變異）。有許多的術(shù)語用于描述這種 DNA 序列上的差異。我們可以看到在我們的樣品中有 6 個多態(tài)性，或者單核苷酸多態(tài)性（SNP）。
一個單一序列上所有等位基因的集合叫做單倍型（haplotype）
突變（mutations）可以用來表示 DNA 發(fā)生變化的過程或該過程中產(chǎn)生的新的等位基因。有時候突變是多態(tài)性的同義詞；在更注重醫(yī)學(xué)的人體群體遺傳學(xué)中，僅僅是指稀有的多態(tài)性（發(fā)生的次數(shù) <1-5%，或者僅僅是單一序列）。
替換（substitution）表示的那些在物種間觀察到的 DNA 差異，以區(qū)別于物種內(nèi)的變異。
通常，我們認(rèn)為indel(insertion/deletion)不是分離位點(diǎn)（雖然有時候插入 1bp 的堿基也算作分離位點(diǎn)）。這樣的劃分的原因是當(dāng)兩段序列有多個核苷酸插入時，很難區(qū)分真真正正的差異堿基數(shù)目。
這樣的劃分的原因是當(dāng)兩段序列有多個核苷酸插入時，很難區(qū)分真真正正的差異堿基數(shù)目。

2 群體遺傳模型介紹

遺傳漂泊(genetic drift)能夠改變等位基因的頻率。其對等位基因頻率的影響時隨機(jī)的。

2.1 Wright-Fisher 模型

遺傳漂變模型能夠解釋群體中的個體是如何一代代進(jìn)行更替的。最常見的模型是Wright-Fisher 模型。
假設(shè)群體中的個體是二倍體，因此在該群體的每一代中就有 2N 條染色體（常染色體）。如果我們把性染色體加入到該模型中，那就有 1.5N 條 X 染色體或 Z 染色體，0.5N 條 Y 染色體或 W 染色體，以及 0.5N 條線粒體或葉綠體基因組（這些數(shù)量取決于我們研究的生物）。
為了形成下一代個體，我們假設(shè)個體間是隨機(jī)結(jié)合的并統(tǒng)一對染色體進(jìn)行采樣并分配給下一代。沒有個體存活到下一代，相反，整個群體都被新一代個體所取代。這個模型最適用于一年生植物和昆蟲（只存活一年這一類）等沒有世代重疊的群體（一年生脊椎動物很少但是確實(shí)是存在的）。
遺傳漂變對Wright-Fisher模型中等位頻率的影響。假設(shè)某個核苷酸位點(diǎn)上有兩種等位基因：A₁, 和A₂。在第t代中，有i條染色體攜帶了A₁，則頻率為：
P_t = i / 2N
也就是說有2N-i條染色體攜帶了A₂，頻率為： q_t = 1 - p_t
下一代染色體采用相當(dāng)于從參數(shù)為2N和i/2N的二項(xiàng)分布進(jìn)行抽樣，因此，wright-Fisher模型中下一代的p的均值和方差為：

image.png

E(.)表示一個隨機(jī)變量的期望（均值）, Var(.)示的是方差。這些式子表示當(dāng)只有遺傳漂變在發(fā)揮作用時（沒有突變沒有選擇），也就意味著隨著時間的改變，等位基因的頻率在期望上是不變的。因?yàn)槲覀兊钠谕?，等位基因頻率是不會改變的，所以我們并不能對任何一個等位基因進(jìn)行預(yù)測。另外，在這個過程中，方差是和群體大小直接相關(guān)的。因此，在小群體中，等位基因頻率會有更大的改變。更重要的是，即使我們預(yù)計不會發(fā)生重大的變化，以相同的等位基因頻率開始的獨(dú)立群體將不可避免地在平均等位基因頻率上產(chǎn)生差異，這樣一來就形成了進(jìn)化趨異。等位基因通常是朝著 0 或 1 進(jìn)行漂變的。如果某個等位基因的在群體中的頻率是 1, 我們就稱其fixed。一旦發(fā)生‘固定’，那就不會有其他的變化發(fā)生，因?yàn)閮蓚€ alleles 中的其中一個已經(jīng)從群體中消失了。

當(dāng)遺傳漂變是唯一的進(jìn)化力量時，對一個群體來說，遺傳變異的水平是會下降的。
雜合度（heterozygosity）義為隨機(jī)選擇的兩個染色體具有不同等位基因的概率的話，那在一個隨機(jī)交配的群體中一個雙等位基因的雜合度就是2pq.如果其中一個 allele 比另外一個更常見的話，雜合度就會降低。在Wright-Fisher 模型中，期望在每代中雜合度降低的速率為1/2N。雖然雜合度下降并不能用于衡量等位基因頻率的變化，但是上述的這些結(jié)果表明當(dāng)遺傳漂變是唯一的進(jìn)化力量時，等位基因變化的速率是極低的。

2.2 Moran模型

其在某些方面比Wright-Fisher更接近真實(shí)情況，也更容易在數(shù)學(xué)上進(jìn)行某些處理.
在Moran模型中，不同年齡的個體是可以共存的，也就不用像Wright-Fishe那樣，新的一代完全取代上一代。
嚴(yán)格講Moran模型只能用于單倍體群體，但是為了和Wright-Fisher比較，，我們假設(shè)一個固定大小的群體中有 2N 個單倍體個體。在一個給定的時間點(diǎn)，一個個體隨機(jī)被選擇然后進(jìn)行繁衍，另外一個個體被隨機(jī)選擇后面對死亡。如果我們將這個過程重復(fù) 2N 遍，我們將得到和Wright-Fisher模型一樣的大小的一代群體?？梢岳斫鉃椋浩骄鶃碚f，每個個體會被下一代取代；但是某些個體存活的時間少于 1 代，而有的個體存活的時間超過一代（編者注：就像有的人超過人類平均年齡后才去世，但是有的人在平均年齡之前就去世了）。
在這個模型中，當(dāng)攜帶一個等位基因的個體進(jìn)行繁殖而另外一個個體面臨死亡時，等位基因的頻率才會發(fā)生改變。當(dāng)然，也可能是攜帶相同等位基因的兩個個體都死亡了，那現(xiàn)在的情況是沒有等位基因頻率發(fā)生變化。在經(jīng)過 2N 次的出生 - 死亡迭代后，我們能夠知道下一代中等位基因頻率的均值和方差。還是考慮一個和 Wright-Fisher模型相同的雙等位基因位點(diǎn)。在Moran模型的下一代中，等位基因頻率 p 的均值和方差分別是：

image.png

和 Wright-Fisher模型相同，平均等位基因頻率的均值是不變的，但是此時的方差是Wright-Fisher模型的兩倍，這是因?yàn)镸oran模型中，每個個體后代的數(shù)量是Wright-Fisher模型的兩倍。
這種差異的結(jié)果就是咋Moran模型中，遺傳漂泊的次數(shù)是Wright-Fisher模型的兩倍。
雜合度也就降低了一半：1/N。

此處的兩種模型對大多數(shù)物種來說都是 “不真實(shí)的”。在某些應(yīng)用場景下需要的是更接近真實(shí)情況的模型，Cannings模型就是其中之一。在這個模型中，子代數(shù)可以有任意的方差。這個模型屬于 Wright-Fisher模型的推廣模型。
但 Wright-Fisher模型不僅直觀，還能從中推導(dǎo)出一些重要的進(jìn)化結(jié)論。Wright-fisher模型還可以對其他模型的結(jié)果進(jìn)行驗(yàn)證，相當(dāng)于一個可以用于驗(yàn)證其他模型的模型。

3 有效群體大小

有效群體大小（effective population size）是群體遺傳學(xué)的核心概念之一，通常表示成N_e(Wright 1931)。
有效群體大小是個抽象值，它可以將一個真實(shí)的群體模式化成具有等量遺傳漂變的 Wright-Fisher 群體.
對一個自然群體來說，有許多因素會增大后代數(shù)量的方差（超過了 Wright-Fisher * 模型的方差），因此有效群體大小通常小于普查群體大小。
有效群體大小讓我們能夠在同一個參照系（Wright-Fisher 群體模型中預(yù)期的遺傳漂變）對不同的群體或物種進(jìn)行比較?；诖?，我們就能利用一個單一的值去量化突變、選擇、重組及遷徙對遺傳漂變的適應(yīng)性的影響。甚至我們可以對基因組的不同區(qū)域設(shè)置不同的有效群體大小，即每個種群的歷史都與具有不同遺傳漂變水平的 Wright-Fisher 種群的歷史相同。這些差異可以表現(xiàn)為整個基因組在許多進(jìn)化過程中的差異。
然而，有效群體大小在一定程度上也是個模糊且被廣泛誤解的概念。其中的一個問題是，至少有 4 種方法來表示漂變的影響，因此一個特定的種群可以通過 4 種不同的方式來等效于 Wright-Fisher 群體某些方面的遺傳漂變。這就導(dǎo)致了有多種關(guān)于有效群體大小的定義：
the variance effective size；
the inbreeding effective size；
the eigenvalue effective size;
the coalescent size.(聚結(jié)大小)
在滿足 Wright-Fisher 模型的均衡群體中，上述的 4 種定義中的有效群體大小是等價的。但是在一個非平衡歷史的群體中，這些有效群體大小的估計值很可能是大相徑庭的，甚至是完全無法估計的。
對分子序列數(shù)據(jù)來說，使用得最廣泛的有效群體大小是 coalescent effective population size（盡管在某些情況下仍然不確定）。
在此定義下，我們將遺傳漂變的量等同于合并的速率（the rate of coalescence）。

有效群體大小這個概念通常也被濫用，或者至少是不必要地擴(kuò)大了其含義和應(yīng)用范圍。正如 Ewens 強(qiáng)調(diào)的那樣，“如果將‘有效’這個詞替換成‘在某種意義上相當(dāng)于 Wright-Fisher 模型的等效物，則更能說明該概念的含義。一個理想的 Wright-Fisher 群體模型和 N_e的聯(lián)系通常是被遺忘或者說被夸大了。正如在前面討論到的，Wright-Fisher 模型是許多理論群體遺傳學(xué)的基礎(chǔ)，在比較不同群體時該模型作為一個比較的參照中心。但是 Wright-Fisher 群體大小并不等于 the effective number of breeding individuals、the number of individuals contributing wo the next generation 或任何” 真實(shí)的 “群體大小。我們可以簡單地把有效大小定義為等同于具有相同遺傳漂變量的 Moran 群體的有效大小（在這種情況下 N_e的大小只是一半）。上面這些只表明了一點(diǎn)： N_e這個值并不是非常有用，而基因組區(qū)域之間或物種之間的等級值可能能告訴我們有關(guān)漂變和選擇的相對預(yù)期強(qiáng)度。

4 序列多樣性參數(shù)

4.1 雜合度（heterozygosity）

某個位點(diǎn)的第 i個等位基因的樣本頻率為p_i，那么該位點(diǎn)所有等位基因的頻率和應(yīng)該是 1。先考慮二倍體的雙等位基因，那就是p₁ + p₂ = 1。衡量單個多態(tài)位點(diǎn)變異（variation）的一個方法是計算樣本雜合度（heterozygosity），公式如下：

image.png

n代表的是樣本中序列的數(shù)量

4.2 π

上面這個公式是針對一個位點(diǎn)的，如果是針對一條序列的話，那其實(shí)就就是將整條序列的雜合度加起來即可。

image.png

例子：

image.png

假設(shè)現(xiàn)在有 4 個樣本，15 個位點(diǎn)，但是只有 6 個位點(diǎn)是分離位點(diǎn)，我們先計算每個分離位點(diǎn)的雜合度：

根據(jù)公式可知，對分離位點(diǎn) 1（圖中的第二列序列），有兩個等位位點(diǎn)，分別是 T 和 C，其中 T 有 3 個，C 有 1 個，那么對 T 來說，它的頻率就是 0.75，對 C 來說它的頻率就是 0.25。根據(jù)公式可得：

image.png

我們以此計算就能得到其他 5 個分離位點(diǎn)的雜合度分別為：0.667，0.5，0.667，0.5，0.5。

那么就能計算π 值了：

image.png

我們將 π的計算進(jìn)行推廣就能得到下面這個公式：

image.png

現(xiàn)在是有 4 條序列，所以.n = 4 然后以此進(jìn)行比較:

第一條 VS 第二條：3 個不同的核苷酸

第一條 VS 第三條：4 個不同的核苷酸

第一條 VS 第四條：3 個不同的核苷酸

第二條 VS 第三條：5 個不同的核苷酸

第二條 VS 第四條：0 個不同的核苷酸

第三條 VS 第四條：5 個不同的核苷酸

image.png

正如前面說到的，我們在計算序列之間的差異時通常是省略 indel 將其變成缺失值進(jìn)行處理的。當(dāng)使用公式

image.png

例子：

image.png

如果用第一個公式，那么π =3.49，但是如果用第二個公式的話，π = 2.83。原因是第一個公式將 indel 當(dāng)作缺失值進(jìn)行處理，而第二個公式將 indel 當(dāng)作 gap 直接省略了這些位點(diǎn)（哪怕是在這些位點(diǎn)并不是分離位點(diǎn)）。不同的公式給出的結(jié)果也不一樣，尤其是針對平均的每個位點(diǎn)時。因此，在處理基因組這種大數(shù)據(jù)時，通常使用

image.png

我們可以把的期望方差表示成參數(shù)為

image.png

的函數(shù)。雖然在中性進(jìn)化模型下，這個參數(shù)沒啥用。
如果沒有重組發(fā)生的話：

image.png

4.3 ?

?_w通常叫Watterson's?.
用 π 表示核苷酸變異的另外一種方法是利用樣品中所有分離位點(diǎn)的數(shù)量 S 進(jìn)行衡量，但是需要注意的是樣本量太大時會得到很大的 S，因此需要對 S 進(jìn)行校正：

image.png

綜上：

image.png

還是和前面說的一樣，遇到 indel 不同的處理方式得到的結(jié)果不一樣

image.png

5 次等位基因頻率MAF

前面使用 ?和 ?_w來評估序列的多樣性。除了用數(shù)字以外，我們還可以用圖形來表示序列多樣性程度。在這之前，我們需要了解幾個概念。

5.1 祖先等位基因和衍生等位基因

一個分離位點(diǎn)，我們需要知道它是 ancestral allele (祖先等位基因)還是 derived allele(衍生等位基因)。我在參考文獻(xiàn)^[1] 中找到這樣一個解釋：

image.png

那如何區(qū)別一個分離位點(diǎn)是兩種中的哪一種呢？通常的辦法是用相近物種的序列進(jìn)行比較，而且通常是兩個相近物種。因?yàn)槭褂靡粋€相近物種的話可能會遇到平行突變的情況。和兩個相近物種都一樣的分離位點(diǎn)通常就是 ancestral allele。

次等位基因頻率（MAF）

在不知道一個位點(diǎn)是 ancestral allele 還是 derived allele 的時候，通常用MAF: minor alele frequency 來衡量多態(tài)性。
既然是minor，那就不是最多的，而是次要多的。現(xiàn)在假設(shè)我們有 10 個樣本，在一段序列上分離位點(diǎn)的分布情況如下圖所示。下圖A中藍(lán)色的位點(diǎn)是minor allele. 我們需要計算每個minor allele的頻率：0.2，0.1，0.2，0.1，0.3，0.1，0.3，0.1，0.4（注：第三行第 28 個堿基作者忘記標(biāo)注為藍(lán)色）?，F(xiàn)在我們就可以畫個柱狀圖：以頻率為 X 軸，以頻率出現(xiàn)的次數(shù)為 Y 軸（也是對應(yīng)頻率的分離位點(diǎn)出現(xiàn)的次數(shù)），這就是allele frequency spectrum。

image.png

當(dāng)我們知道一個分離位點(diǎn)屬于 ancestral allele 還是 derived allel 時就能進(jìn)行 DAF：derived allele frequency 計算。方法和計算 MAF 類似。

image.png

5.3 基于derived allele的統(tǒng)計量

image.png

參考文獻(xiàn)：
[1] Sethupathy P, Giang H, Plotkin J B, et al. Genome-wide analysis of natural selection on human cis-elements[J]. PloS one, 2008, 3(9): e3137.

6 群體結(jié)構(gòu)

我們常計算群體的PCA（R包），系統(tǒng)發(fā)生樹（Fasttree分析），和祖先成分分析（admixture軟件）
也可以分析LD（Plink分析）

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

1-群體遺傳的基礎(chǔ)介紹

1-群體遺傳的基礎(chǔ)介紹

1 基礎(chǔ)概念-例子

2 群體遺傳模型介紹

2.1 Wright-Fisher 模型

2.2 Moran模型

3 有效群體大小

4 序列多樣性參數(shù)

4.1 雜合度（heterozygosity）

4.2 π

4.3 ?

5 次等位基因頻率MAF

5.1 祖先等位基因和衍生等位基因

次等位基因頻率（MAF）

5.3 基于derived allele的統(tǒng)計量

6 群體結(jié)構(gòu)

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

1-群體遺傳的基礎(chǔ)介紹

1 基礎(chǔ)概念-例子

2 群體遺傳模型介紹

2.1 Wright-Fisher 模型

2.2 Moran模型

3 有效群體大小

4 序列多樣性參數(shù)

4.1 雜合度（heterozygosity）

4.2 π

4.3 ?

5 次等位基因頻率MAF

5.1 祖先等位基因和衍生等位基因

次等位基因頻率（MAF）

5.3 基于derived allele的統(tǒng)計量

6 群體結(jié)構(gòu)

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av