Multiple Sequentially Markovian Coalescent (MSMC)是一種利用馬爾可夫模型推斷群體動態(tài)歷史和群體結(jié)構(gòu)的算法。能夠通過輸入基因組序列推斷群體分歧時間,預(yù)測有效群體大小。此算法下常用的軟件包括PSMC,SMC++和MSMC。對于幾款軟件的使用和優(yōu)劣勢比較可以參考DumplingLucky大佬的博客:
MSMC2估計歷史有效群體大小
SMC++估計歷史有效群體大小
MSMC算法回答兩個問題:
- 物種的有效群體大小如何隨時間變化?
- 物種之間是何時,以何種方式分歧?
根據(jù)分子鐘理論,物種所積累的變異量由變異速度和分歧時間決定。變異速度越快,變異經(jīng)歷的時間越長的兩個物種,在序列上的差異應(yīng)當(dāng)越大。那么按照相同的邏輯,如果已知兩個物種的突變速度/傳代速度,就可以通過兩個物種序列上的變異,反推其所經(jīng)歷的分歧時間和可能的祖先物種。
MSMC推斷種群動態(tài)歷史和分歧時間
MSMC推斷群體動態(tài)歷史
MSMC能夠從多序列變異文件中推斷有效群體大小隨時間的變化,結(jié)果圖如下,MSMC分別基于不同數(shù)量單倍型(最多8個)所模擬的有效群體大小和時間的關(guān)系,整張圖按照時間順序應(yīng)當(dāng)從右往左看,分別經(jīng)歷了種群擴張-收縮-再擴張-再收縮-擴張的過程。研究古生物學(xué)的伙伴還可以結(jié)合對應(yīng)時間下的地質(zhì)和氣候事件分析群體變化的原因。

MSMC推斷種群分歧
有了上述分子鐘理論的鋪墊,理解MSMC推斷種群分歧并不算難。如果MSMC輸入的個體來自兩個群體,動態(tài)馬爾可夫模型會得到三個溯祖率(coalescent rate)用以推斷分歧事件,分別是群體1的種內(nèi)溯祖率,群體2的種內(nèi)溯祖率以及群體1和2的種間溯祖率。三個率有點抽象,因此Schiffels和Durbin將其整合成一個參數(shù):交叉溯祖率(the relative cross coalescence rate,rCCR)。
交叉溯祖率的值在0-1之間,越接近1代表兩群體此時還是一個群體,rCCR跌倒0就代表兩群體完全分歧成為兩個獨立的群體。因此,rCCR的中點(rCCR=0.5)就被看作是兩群體的分歧時間(split time)。

為什么有圖的rCCR大于1

按照rCCR的定義,rCCR的值理論上會落在0-1之間,體現(xiàn)一個“相對”的含義。在運行MSMC程序的時候可以自行選擇是否標(biāo)準(zhǔn)化CCR,也就是是否進行0-1回歸。如不進行標(biāo)準(zhǔn)化則會出現(xiàn)大于1的情況。
總結(jié)一下
MSMC估計目標(biāo)群體溯祖率能得到兩個結(jié)果,群體規(guī)模(population size)和交叉溯祖率(rCCR)。二者分別可以反映單一群體規(guī)模動態(tài)變化和群體間分歧事件。對于研究物種演化和遷徙具有很大幫助。
參考信息:
1. MSMC and MSMC2: The Multiple Sequentially Markovian Coalescent.https://experiments.springernature.com/articles/10.1007/978-1-0716-0199-0_7