群落多樣性之Alpha多樣性(二)

相信不少人看過(guò)下面這個(gè)類型的故事,我把它稍作了個(gè)改編。
超逸和艾斯發(fā)現(xiàn)有兩個(gè)比自己來(lái)的晚的同事,山農(nóng)和辛普森,都已升職加薪,而自己卻一直原地不動(dòng)。
終于有一天,超逸忍不住了,冒著被解雇的危險(xiǎn),找老板阿爾法理論:“老板,我有過(guò)遲到、早退或亂章違紀(jì)的現(xiàn)象嗎?”
“沒有!”
那是公司對(duì)我有偏見嗎?”?
“沒有!”
“為什么比我資歷淺的人,工資卻比我高?”
阿爾法說(shuō):”咱先不說(shuō)這個(gè),眼下有個(gè)事兒,你去調(diào)查下今天市場(chǎng)上在賣哪幾種蔬菜?“
超逸很快去市場(chǎng)轉(zhuǎn)了一圈,很快回來(lái)說(shuō):“報(bào)告老板,今天市場(chǎng)上的蔬菜主要有白菜、蘿卜、番茄、土豆……!”
“價(jià)格分別是多少?”
“這個(gè)我沒問(wèn)!”
“都是哪些公司的產(chǎn)品?”
“這個(gè)您也沒叫我問(wèn)啊!”
“你先在這等會(huì)?!?br>阿爾法打電話叫來(lái)了山農(nóng),并把同樣的任務(wù)用同樣的表達(dá)方式交代給了山農(nóng)。
山農(nóng)也去市場(chǎng)轉(zhuǎn)了很大一圈,手中拿著一張表格,向阿爾法匯報(bào):“報(bào)告老板,今天市場(chǎng)上主要有……等公司的蔬菜,蔬菜的種類分別有……,我做了張表,蔬菜產(chǎn)地、價(jià)格等信息都在上面,并做了分析,推測(cè)明天XXX蔬菜價(jià)格有可能會(huì)上漲,請(qǐng)您過(guò)目!”
阿爾法看完表格,滿意的點(diǎn)點(diǎn)頭,向超逸看去。
超逸剛接觸到阿爾法的眼神,就連忙說(shuō):“老板,謝謝您,我知道該怎么做了!”

故事講完了。
首先,我們看超逸和艾斯這類普通員工,雖然干活很麻利,但考慮問(wèn)題較為片面,讓調(diào)查蔬菜種類,就只知道考查種類,而山農(nóng)和辛普森這類優(yōu)秀員工則比較擅長(zhǎng)全面思考,同樣調(diào)查蔬菜,他們會(huì)綜合調(diào)查,考慮種類和價(jià)格。老板眼光是雪亮的,所以工資孰高孰低的原因,不言自明。

相信看過(guò)前一篇文章《群落多樣性之Alpha多樣性(一)》的諸位大哥們,對(duì)故事中的人名似乎有些許耳熟吧。
不必回想了,相信我們賦值一下您肯定就明白了,以下是賦值代碼,‘’#‘’后為代碼的注釋:

阿爾法=Alpha
超逸=Chao1
艾斯=ACE (Abundance-based Coverage Estimator)
#Chao1和ACE是兩個(gè)Alpha多樣性指標(biāo),僅衡量樣本中物種種類數(shù)量(Richness),。
山農(nóng)=Shannon
#很多文獻(xiàn)Shannon翻譯為香農(nóng)(克勞德·香農(nóng)),個(gè)人認(rèn)為如果翻譯成山農(nóng)的話,跟英文匹配度很高,更接近漢語(yǔ)拼音的發(fā)音規(guī)則,而且感覺有味道,較為接地氣。
辛普森=Simpson
#Shannon 和 Simpson也是兩個(gè)Alpha多樣性指標(biāo),是把物種種類數(shù)量和各個(gè)物種的豐度全部考慮在內(nèi)用以兼顧衡量樣本中物種種類數(shù)量(Richness)和均勻度(Evenness)的指標(biāo)。
所以,這里要祭出一個(gè)公式:richness+eveness=diversity

Chao1和ACE前面已經(jīng)具體說(shuō)過(guò)是怎么回事,今天的重點(diǎn)是從宏基因組微生態(tài)學(xué)的角度解釋山農(nóng)(Shannon)和辛普森(Simpson)為啥工資高。
在講解之前,我們需要強(qiáng)調(diào)幾點(diǎn)與生物多樣性有關(guān)的幾個(gè)概念,且后面會(huì)反復(fù)用到。
----------------------------------------------幾個(gè)概念----------------------------------------------------
1. 先簡(jiǎn)單回顧下前一篇文章《群落多樣性之Alpha多樣性(一)》提到過(guò)的OTU和標(biāo)記基因序列。
OTU,即可操作分類單元,這里要求很低,只需要知道“1個(gè)OTU對(duì)應(yīng)一個(gè)物種,一個(gè)物種對(duì)應(yīng)一個(gè)OTU”即可。這相當(dāng)于出生于某地區(qū)的人(物種)對(duì)應(yīng)的身份證號(hào)前六位(OTU),比如我的身份證號(hào)前六位220524,對(duì)應(yīng)的就是我家鄉(xiāng),“物華天寶,人杰地靈”的吉林省通化市柳河縣。
標(biāo)記基因序列,以下簡(jiǎn)稱序列,即測(cè)序得到的能夠標(biāo)記細(xì)菌個(gè)體的DNA序列。這里繼續(xù)要求很低,只需要知道“一個(gè)序列對(duì)應(yīng)一個(gè)細(xì)菌個(gè)體,一個(gè)細(xì)菌個(gè)體對(duì)應(yīng)一個(gè)序列”即可,根據(jù)序列可知其OTU歸屬。這相當(dāng)于一個(gè)人對(duì)應(yīng)的一個(gè)身份證號(hào),比如你知道我的身份證號(hào)220524***********5,你上網(wǎng)一查“220524”,百度顯示“吉林省通化市柳河縣”。
2. S_{obs}:觀察到OTU的數(shù)量,即觀察到的物種數(shù)。
3. p_i=\frac{n_i}{N} :第i個(gè)OTU在樣本細(xì)菌總個(gè)體數(shù)中的占比,即物種相對(duì)豐度,也可以理解為在樣本中隨便揪出一個(gè)細(xì)菌個(gè)體,這個(gè)個(gè)體屬于第個(gè)OTU或物種的概率。其中,第個(gè)OTU的序列數(shù),即某物種的個(gè)體數(shù),也是個(gè)觀察值;N:樣本中的細(xì)菌個(gè)體總數(shù)。
---------------------------------------------------------------------------------------------------------------

步入正題,從宏基因組微生態(tài)學(xué)的角度,具體剖析一下,為什么山農(nóng)(Shannon)的工資那么高?
Shannon的計(jì)算方式如下:
H_{shannon} = - \sum_{i=1}^{S_{obs}} p_i ln p_i
這個(gè)公式到底什么意思,需要把這個(gè)公式做個(gè)變換:
H_{shannon} = - \sum_{i=1}^{S_{obs}} p_i ln p_i=- \sum_{i=1}^{S_{obs}} ln {p_i}^{p_i}=-(ln {p_1}^{p_1}+ln {p_2}^{p_2}+ln {p_3}^{p_3}+...+ln {p_{S_{obs}}}^{p_{S_{obs}}})
H_{shannon} =-(ln {p_1}^{p_1}{p_2}^{p_2}{p_3}^{p_3}...{p_{S_{obs}}}^{p_{S_{obs}}})=ln(\frac{1}{{p_1}^{p_1}{p_2}^{p_2}{p_3}^{p_3}...{p_{S_{obs}}}^{p_{S_{obs}}}} )=ln(\frac{1}{\prod\nolimits_{i=1}^{S_{obs}}{p_i}^{p_i}} )
 ln \frac{n_i}{N}是負(fù)數(shù)(n_i<N),為符合人們的習(xí)慣,公式里加個(gè)負(fù)號(hào)將之修為正數(shù)。
根據(jù)上述公式,由于所有p_i值的和等于1,即等于p_i值的加權(quán)幾何平均數(shù),即
\sqrt[\sum\nolimits_{i=1}^{S_{obs}}p_i]{\prod\nolimits_{i=1}^{S_{obs}}{p_i}^{p_i}}=\prod\nolimits_{i=1}^{S_{obs}}{p_i}^{p_i}

,p_i值本身用作幾何權(quán)重(方程中的指數(shù))。
因此括號(hào)內(nèi)的項(xiàng)等于真正的多樣性\frac{1}{\prod\nolimits_{i=1}^{S_{obs}}{p_i}^{p_i}} , H_{shannon}等于ln(\frac{1}{\prod\nolimits_{i=1}^{S_{obs}}{p_i}^{p_i}} )。
為方便理解,這里介紹下加權(quán)幾何平均數(shù)的意義,對(duì)這部分理解者可跳過(guò)此處。
------------------------------------------幾何平均數(shù)的意義---------------------------------------------
啥也不說(shuō),先上寶圖。

引自知乎:https://www.zhihu.com/question/36176004/answer/139623544

假設(shè)a和b這兩個(gè)數(shù)是兩種細(xì)菌的個(gè)體數(shù),它們構(gòu)成一個(gè)菌群樣本。他們的幾何平均數(shù)是:
G_2 =\sqrt{ab}
結(jié)合上述寶圖和中學(xué)數(shù)學(xué)知識(shí)可知,AE為a和b的幾何平均數(shù),AE這條垂線段越靠近B,a和b差距越大,即越不均勻。
極度均勻的情況是AE和OD重合,a=b,樣本最均勻,樣本的幾何平均數(shù)AE最大。
如果菌群中存在3種菌,那么幾何平均數(shù)為
G_3=\sqrt[3]{abc} ,
此時(shí)需要畫個(gè)三維寶圖解析一下,感興趣不嫌麻煩的大哥可自繪,空間想象力好的大哥可直接腦補(bǔ)。
如果菌群中是n種菌,那么幾何平均數(shù)為
G_i=\sqrt[i]{abc...i} ,
由此可看出幾何平均數(shù)可以反映數(shù)據(jù)的均勻度。
加權(quán)的意義只不過(guò)是把相同數(shù)據(jù)的頻數(shù)組合放在一起而已,僅為計(jì)算方便,具體理解可見下式:
G_3=\sqrt[2+1]{a_1^2a_2^{1}}
a_1a_2的指數(shù)便是權(quán),G就是加權(quán)幾何平均數(shù),這個(gè)式子也可畫個(gè)3D的寶圖解析。
如果是i維呢?
G_{i}=\sqrt[i]{a_1a_2...a_i}
如果是p_1+p_2+...+p_i維呢?
G_{p_1+p_2+...+p_i}=\sqrt[p_1+p_2+...+p_i]{a_1^{p_1}a_2^{p_2}...a_i^{p_i}}
--------------------------------------------------------------------------------------------------------------
由此,我們知道了加權(quán)幾何平均數(shù)可以反映樣本的均一性,shannon指數(shù)最核心部分就是它。
為了更直觀感受shannon指數(shù),這里再介紹一種便于理解和感知的數(shù)學(xué)公式的方法,我稱之為極限感知大法,也就是將一個(gè)極端數(shù)據(jù)帶入公式去感知公式的意義。
首先,假設(shè)樣本中所有物種的相對(duì)豐度都極端一致就是相等,那么所有p_i值都等于\frac{1}{S_{obs}},因此Shannon取值為ln(S_{obs})。
當(dāng)類型豐度越不均勻,pi值的加權(quán)幾何平均數(shù)越大,對(duì)應(yīng)的Shannon越小。
然后,假設(shè)某群體中所有的個(gè)體都屬于一個(gè)物種,p_i值等于1,代入公式,Shannon取值為0。

開篇的故事中除了山農(nóng),辛普森(Simpson)的工資也很高,接下來(lái)我們還是從宏基因組微生態(tài)學(xué)的角度說(shuō)明下原因。
Simpson指數(shù)的計(jì)算方法如下:
D_{simpson} =\sum_{i=1}^{S_{obs}}p_i^2
這個(gè)公式相對(duì)來(lái)說(shuō)比shannon更好理解一些。p_i=\frac{n_i}{N_i} ,可理解為從當(dāng)前的菌群中隨機(jī)挑選1個(gè)細(xì)菌,這個(gè)細(xì)菌屬于第i個(gè)物種的概率。那么p_i^2就是從當(dāng)前的菌群中隨機(jī)挑選1個(gè)細(xì)菌,然后把這個(gè)細(xì)菌放回去,再?gòu)倪@個(gè)菌群中隨機(jī)挑選1個(gè)細(xì)菌,這2個(gè)細(xì)菌都屬于第i個(gè)物種的概率。然后把所有p_i^2加到一起的意義就是在當(dāng)前的菌群中隨機(jī)挑選(有放回抽樣)2個(gè)細(xì)菌,這兩個(gè)細(xì)菌屬于同一個(gè)物種的概率。
我們繼續(xù)采用極限感知大法
一個(gè)極端就是,讓群落物種豐度極低且分布極端不均勻,只包含有1種細(xì)菌,其他細(xì)菌都是0,即n_1=N,此時(shí)
D_{simpson} =(\frac{n_1}{N}) ^2=1
另一個(gè)極端,讓群落物種豐度極端均勻,菌群包含S_{obs}種細(xì)菌,每種細(xì)菌的個(gè)數(shù)是1,即S_{obs}=N,此時(shí)
D_{simpson} =(\frac{1}{N}) ^2\times S_{obs}=\frac{1}{S_{obs} } 或\frac{1}{N}
由此可見,Simpson值在0-1之間,值越小,多樣性越高,均勻度均勻。
不過(guò)這怎么看著這么別扭呢,為了解決這個(gè)問(wèn)題,通常用Inverse Simpson index(計(jì)算方法為1-D_{simpson} )或者Gini–Simpson index(計(jì)算方法為\frac{1}{D_{simpson} } )替代Simpson。
搜底斯奈,這下能看出點(diǎn)規(guī)律了吧。
另外,對(duì)于Simpson指數(shù)的計(jì)算,還存在另外一個(gè)版本:
D_{simpson} =\frac {\sum_{i=1}^{S_{obs}} {n_i \left ( n_i - 1 \right )}}{N \left( N-1 \right )}?????????????????????????????????????????????????????????????????
兩個(gè)版本原理基本一致,唯一的不同就是這個(gè)版本在菌群種隨機(jī)挑選2個(gè)細(xì)菌的時(shí)候是無(wú)放回抽樣,而前面那個(gè)版本是有放回抽樣。
那到底用哪個(gè)版本呢?
最科學(xué)建議是:想用哪個(gè)就用哪個(gè)!
為什么?
最充分的理由是:看心情!
如果你實(shí)在是有選擇困難癥,建議拋硬幣占卜一下,看天意吧。

電視劇《甄嬛傳》中甄嬛曾吟過(guò)一句詩(shī),“逆風(fēng)如解意,容易莫摧殘?!?,階段性地俘獲了雍正的心。
這句詩(shī)的大意是“北風(fēng)如果能夠理解梅花的心意,就請(qǐng)不要再摧殘她了?!?br>可見解意很重要。對(duì)待公式也要充分解意,不然有人提問(wèn),答不上來(lái),就是對(duì)公式的摧殘。
極限感知大法固然能對(duì)公式有個(gè)初步的意會(huì),然而真正更直觀的解意可用計(jì)算和比較的方法。
比如有這么道判斷題,Shannon和Simpson指數(shù)是否與細(xì)菌的絕對(duì)豐度有關(guān)?
通過(guò)公式的推導(dǎo)我們可以解答這類問(wèn)題,不過(guò)用具體的數(shù)字代入計(jì)算會(huì)更直觀一些。
如果對(duì)公式充分理解的話,計(jì)算部分可直接跳過(guò)。
---------------------------------------------規(guī)避各個(gè)因素后的計(jì)算-------------------------------------
這里我列舉出一組數(shù)據(jù):
A組:2, 3, 6, 9
B組:20, 30, 60, 90
C組:5, 5, 5, 5
D組:5, 5, 5, 5, 5
E組:4, 4, 4, 4, 4
F組:17, 1, 1, 1
求各組數(shù)據(jù)的Shannon和Simpson。
可直接代入公式。
A組。
N_A=2+3+6+9=20H_{shannon\_A}=-[\frac{2}{20} ln(\frac{2}{20} )+\frac{3}{20} ln(\frac{3}{20} )+\frac{6}{20} ln(\frac{6}{20} )+\frac{9}{20} ln(\frac{9}{20} )]=1.235
D_{simpson\_A} =\frac{2}{20}\times \frac{2}{20}+\frac{3}{20} \times \frac{3}{20}+\frac{6}{20} \times \frac{6}{20}+\frac{9}{20} \times \frac{9}{20}=0.325
B組。
N_B=20+30+60+90=200
H_{shannon\_B}=-[\frac{20}{200} ln(\frac{20}{200} )+\frac{30}{200} ln(\frac{30}{200} )+\frac{60}{200} ln(\frac{60}{200} )+\frac{90}{200} ln(\frac{90}{200} )]=1.235

D_{simpson\_B} =\frac{20}{200}\times \frac{20}{200}+\frac{30}{200} \times \frac{30}{200}+\frac{60}{200} \times \frac{60}{200}+\frac{90}{200} \times \frac{90}{200}=0.325
數(shù)據(jù)占比相同的情況下,AB兩組的兩個(gè)參數(shù)相等,原因是這兩個(gè)參數(shù)只與p_i=\frac{n_i}{N} 有關(guān),與n_iN兩個(gè)絕對(duì)豐度無(wú)關(guān)。
C組。
N_C=5+5+5+5=20
H_{shannon\_C}=-[\frac{5}{20} ln(\frac{5}{20})\times 4]=1.386
D_{simpson\_C} =(\frac{5}{20}\times \frac{5}{20} )\times 4=0.25
D組。
N_D=5+5+5+5+5=25
H_{shannon\_D}=-[\frac{5}{25} ln(\frac{5}{25})\times 5]=1.609
D_{simpson\_D} =(\frac{4}{20}\times \frac{4}{20})\times 5=0.2
E組。
N_E=4+4+4+4+4=20
H_{shannon\_E}=-[\frac{4}{20} ln(\frac{4}{20})\times 5]=1.609
D_{simpson\_E} =( \frac{4}{20}\times \frac{4}{20} )\times 5=0.2
F組。
N_F=17+1+1+1=20
H_{shannon\_F}=-[\frac{17}{20} ln(\frac{17}{20})+\frac{1}{20} ln(\frac{1}{20})\times 3]=0.5875
D_{simpson\_F} =\frac{17}{20}\times \frac{17}{20}+(\frac{1}{20}\times \frac{1}{20})\times 3=0.7300
C和D規(guī)避了均勻度和n_i的干擾,物種數(shù)量越多,Shannon越大,Simpson越小,與n_i無(wú)關(guān)。
C和E規(guī)避了均勻度和N的干擾,物種數(shù)量越多,Shannon越大,Simpson越小,與N無(wú)關(guān)。
D和E基本上與A和B的比較情況一致,故不再多言。
C和F對(duì)比,N相同的情況下,不均勻的情況下,Shannon降低,Simpson升高。
注:這部分磨嘰了點(diǎn),本糾結(jié)要不要把這部分放上,還是不糾結(jié)了,一起充分感受一下。
------------------------------------------------------------------------------------------------------------------

綜上所述可見,倘若菌群中幾乎所有的個(gè)體都屬于一個(gè)物種,而其他物種非常罕見,即使物種類別有很多,Shannon也會(huì)趨近于0,Simpsion也會(huì)趨于1。當(dāng)數(shù)據(jù)集中只有一種類型時(shí),Shannon正好等于0,Simpsion正好等于1。

末了,我們?cè)倩仡^想想前面那個(gè)小故事,為什么公司的老板沒炒掉超逸(Chao1)和艾斯(ACE)呢?
因?yàn)榻?jīng)營(yíng)一家公司,山農(nóng)(Shannon)和辛普森(Simpson)這樣全面考慮問(wèn)題的優(yōu)秀員工公司必然需要,但是超逸和艾斯這樣,雖說(shuō)考慮問(wèn)題不全面但有一定執(zhí)行力的員工我們也需要,分工不同嘛。
我們做群落Alpha多樣性分析也是一樣,各類指標(biāo)都有需求。
當(dāng)我們只需要知道這堆細(xì)菌種有多少物種,Chao1和ACE足夠;
想知道多樣性(diversity)呢?那就是時(shí)候祭出Shannon和Simpson了!
不過(guò)呢?
有可能某位大哥會(huì)說(shuō),
“我就想考察均勻度(Evenness)怎么辦?”
看來(lái)阿爾法老板要繼續(xù)招聘新員工了,
欲知后事如何,請(qǐng)看下集《群落多樣性之Alpha多樣性(三)》。

備注:此文于2019年3月29日發(fā)于e源微生態(tài)。

參考文獻(xiàn):
[1] https://mothur.org/wiki/Shannon
[2] https://en.wikipedia.org/wiki/Diversity_index#cite_note-Simpson1949-7
[3] Simpson, E. H. (1949). Measurement of diversity. Nature.163: 688.
[4] http://www.countrysideinfo.co.uk/simpsons.htm

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容