前言
最近在看一些關(guān)于生態(tài)、遺傳、基因組進化等的文獻,其中有個很多人用的也用了很久的用以判斷物種選擇壓力的數(shù)值,(Ka/Ks)。發(fā)現(xiàn)在國內(nèi)的資料中比較少,即使有,也只是教大家如何的使用各種輪子去實現(xiàn)(我覺得這種真的是營養(yǎng)價值有限。。。)。
也許大家都在教科書上學習的原理吧,或者干脆就直接用現(xiàn)成的輪子也不用管原理,但我還是相信有需要了解原理的人,這里綜合一下外網(wǎng)的資料寫一下這個數(shù)值的計算和需要注意的地方。
正文
總體來說,即非同義突變的數(shù)量/非同義突變位置的數(shù)量(Ka)、除以、同義突變的數(shù)量/同義突變位置的數(shù)量。(英文的定義的話即the ratio of the number of nonsynonymous substitutions per non-synonymous site (pN) to the number of synonymous substitutions per synonymous site (pS))從這一開始就可以提出一個疑問。
位置的數(shù)量是什么???
所以這就是Ka/Ks的稍稍難點的地方,因為難以顧名思義去理解。另外,Ka/Ks又叫dN/dS,意思是差不多的,還有p開頭的。叫法多樣,需要留意。
原理
位置數(shù)目
直接開始說如何計算這個值。

假設(shè)有一個密碼子CGG,現(xiàn)在要計算該密碼子的非同義突變位置的數(shù)目。
| MUTATION | CODON | AA | TYPE | N-SITES |
|---|---|---|---|---|
| CGG | Arg | |||
| Position 1 (C->A) | AGG | Arg | Synonymous | 0 |
| Position 1 (C->G) | GGG | Gly | Nonsynonymous (missense) | 1/3 |
| Position 1 (C->T) | TGG | Trp | Nonsynonymous (missense) | 1/3 |
| Position 2 (G->A) | CAG | Gln | Nonsynonymous (missense) | 1/3 |
| Position 2 (G->C) | CCG | Pro | Nonsynonymous (missense) | 1/3 |
| Position 2 (G->T) | CTG | Leu | Nonsynonymous (missense) | 1/3 |
| Position 3 (G->A) | CGA | Arg | Synonymous | 0 |
| Position 3 (G->C) | CGC | Arg | Synonymous | 0 |
| Position 3 (G->T) | CGT | Arg | Synonymous | 0 |
從上表可以看出,對一個密碼子,需要考慮所有3個位置發(fā)生1個突變時的所有可能性,并從所有的可能性中計算對應(yīng)的N-SITES(注意這里的N-SITES是該位置的突變的概率)這個計算過程其實就是期望)
對一整個序列的話,自然是從起始密碼子開始,遍歷所有密碼子并計算所有的n與s。
突變數(shù)目
如何從SNP轉(zhuǎn)化成同義突變或者非同義突變的數(shù)目呢??
自然也要仿造上述的期望的計算。
若計算從TTT轉(zhuǎn)化成GAC的突變數(shù)目。SNP的話,自然是3個,但是仍然需要遍歷所有的突變途徑,去計算發(fā)生的同義\非同義突變的數(shù)目。
TTT (phe) -> TTC (phe) -> TAC (tyr) -> GAC (asp): 2n and 1s
TTT (phe) -> TTC (phe) -> GTC (val) -> GAC (asp): 2n and 1s
TTT (phe) -> TAT (tyr) -> TAC (val) -> GAC (asp): 3n
TTT (phe) -> TAT (tyr) -> GAT (asp) -> GAC (asp): 2n and 1s
TTT (phe) -> GTT (val) -> GTC (val) -> GAC (asp): 2n and 1s
TTT (phe) -> GTT (val) -> GAT (asp) -> GAC (asp): 2n and 1s
以上的突變數(shù)目就是
非同義突變數(shù)目:(2+2+3+2+2+2)/6 = 2.1666
同義突變數(shù)目:(1+1+1+1+1)/6 = 0.833333
(基本假設(shè)應(yīng)該是:每一個突變都是有前后關(guān)系的,所以可以枚舉中間的所有突變途徑)
最后


最后可以得到一個dN/dS的結(jié)果。
但是。。。似乎Ka/Ks和dN/dS不完全一致,dN/dS屬于Ka/Ks的一種,因為按照上述的計算過程,需要較多較大的枚舉,如果啟動密碼子不固定的情況,計算量也就變得更大了,對于一個基因組而言是比較昂貴的。
Ka/Ks的解釋
假設(shè)這個基因沒有受到自然選擇壓力,那么根據(jù)中性選擇理論,非同義替換率和同義替換率應(yīng)該是相同的。
一般來講,因為非同義替換會造成氨基酸變化,可能會改變蛋白質(zhì)的構(gòu)象和功能,因此會造成適應(yīng)性的變化,從而帶來自然選擇的優(yōu)勢或劣勢(一般是劣勢)。而非同義替換沒有改變蛋白質(zhì)的組成,因此不受自然選擇的影響(當然這里我們忽略密碼子偏好性的影響),那么Ks就能反映進化過程的背景堿基替換率。Ka/Ks的比值就能說明這個基因是受到了何種選擇。
一般情況下,在某個個體中偶然發(fā)生的一個堿基替換(突變),如果沒有額外的好處或者壞處的話,慢慢地也就消失了。但是自然選擇中會有很多巧合,某些突變就是很幸運地被保留了下來,并且被固定了(突變頻率由極小變?yōu)?00%)。一個這樣的突變在一個二倍體種群中被固定的可能性為1/2N,其中N是種群大小。
對于一個沒有受到自然選擇壓力的基因來說,我們可以計算得到這樣的結(jié)果:Ka/Ks=1。但實際情況下,這個比值都是遠小于1的:Ks/Ks<<1,因為一般非同義替換帶來的都是有害的性狀,只有極少數(shù)情況下會造成進化上的優(yōu)勢。
Ka>>Ks或者Ka/Ks >> 1,基因受正選擇(positive selection)
Ka=Ks或者Ka/Ks=1,基因中性進化(neutral evolution)
Ka<<Ks或者Ka/Ks << 1,基因受純化選擇(purify selection)