學(xué)習(xí)生物學(xué),一項(xiàng)很重要的事情就是理解概念。
有一種方法就是直接從名字上理解概念。
小RNA,是不是就是很小的RNA?
宏基因組,是不是就是很“宏”的基因組?
……
答案很統(tǒng)一:必須是??!
這可以總結(jié)出一套理解生物學(xué)概念的方法,就是顧名思義。
今天呢,我們繼續(xù)感受一下宏基因組中的“宏”,介紹一個(gè)廣泛應(yīng)用于宏基因組分析中的生態(tài)學(xué)概念——Alpha多樣性。先請(qǐng)看下面的BOX中的三個(gè)定義。
-----------------------------------------BOX 1:群落多樣性-----------------------------------------
微生物群落物種多樣性指標(biāo)共分為三種分別為:
Alpha多樣性:指特定群落或生境內(nèi)的物種多樣性,主要關(guān)注群落內(nèi)的物種多樣性。
Beta多樣性:是生境之間的物種多樣性,用以衡量群落之間的差別。
Gamma多樣性:在一個(gè)地區(qū)內(nèi)不同生境的總多樣性。
--------------------------------------------BOX 1 END------------------------------------------------
跟宏基因組不一樣的是,此概念不那么容易顧名思義。
什么是Alpha、Beta和Gamma多樣性?
它們有什么區(qū)別?
感覺(jué)沒(méi)那么容易搞清楚,上面字我全都認(rèn)識(shí),連起來(lái)看我就沒(méi)怎么看明白。
史學(xué)界和法律界中都有這么個(gè)說(shuō)法,叫做“孤證不立”。
僅僅我自己沒(méi)看明白,并不足以證明此概念不好理解。
于是乎,我把此概念分享給一個(gè)執(zhí)行過(guò)宏基因組學(xué)分析的同事,然后出了道判斷題。
-------------------------------------------BOX 2:一道判斷題----------------------------------------
我?guī)е鴶z像頭去非洲大草原的3個(gè)地區(qū)拍攝,回來(lái)研究視頻,在3個(gè)地區(qū)觀察到以下動(dòng)物:
地點(diǎn)A:1頭獵豹、1頭獅子、1頭野豬,2只長(zhǎng)頸鹿,11頭野牛,15只土狼。
地點(diǎn)B:1只鬣狗、1頭獅子、2只狒狒,8條鱷魚(yú),10頭野豬,18頭水牛。
地點(diǎn)C:3頭獵豹、1頭獅子、20匹斑馬、1條蛇、1只烏龜,10只河馬。
問(wèn):目測(cè)一下,三個(gè)地點(diǎn)的Alpha多樣性是否是一致的?
------------------------------------------------BOX 2 END---------------------------------------------
同事的回答是:“不相等……吧?!?br>“為什么?”
“感覺(jué)吧!”
“這個(gè)感覺(jué)有點(diǎn)問(wèn)題。如果不考慮為什么的話(huà),你這道題怎么回答都是值得商榷的!”
“alpha多樣性主要用于推測(cè)特定群落內(nèi)的多樣性,alpha多樣性的一個(gè)最簡(jiǎn)單的指標(biāo)就是數(shù)一下樣本中的物種數(shù)量,那么,三個(gè)地點(diǎn)的物種數(shù)各是多少呢?”
“都是6個(gè)!”同事有種恍然大悟的感覺(jué),“哦,那他們的alpha多樣性是相等的啊!”
其實(shí),就憑前面很勉強(qiáng)的回答“不相等……吧?!焙汀案杏X(jué)吧”,我基本上可以做出判斷:這哥們跟我當(dāng)年最初接觸宏基因組學(xué)的時(shí)候一樣,做過(guò)類(lèi)似的分析,但是并不完全清楚Alpha多樣性。
如此說(shuō)來(lái),這就是不光我一個(gè)人弄不明白得問(wèn)題了,不算“孤證”了。
看來(lái)詳細(xì)點(diǎn)介紹這個(gè)概念,還是有必要的。
Alpha多樣性主要用于評(píng)估特定群落內(nèi)的多樣性。
其中一個(gè)最簡(jiǎn)單的指標(biāo)就是數(shù)一下樣本中的物種數(shù)量。
那么,三個(gè)地點(diǎn)的物種數(shù)各是多少呢?
6個(gè),從觀察到樣本的物種數(shù)量上看,他們的Alpha多樣性是相等的。
這么簡(jiǎn)單?其實(shí)沒(méi)這么簡(jiǎn)單!
對(duì)于特定群落或生境內(nèi)的物種多樣性,最簡(jiǎn)單的理解就是,群落或生境內(nèi)看到的物種多,就是多樣性高。又由于我們進(jìn)行宏基因組學(xué)研究的時(shí)候,一般在特定群落采集一個(gè)樣本或者一組樣本(一般為3到5以上),群落或生境內(nèi)也可理解為樣本或組內(nèi),即within sample or within group。目前,Alpha多樣性最常用的有5種指標(biāo),即Observed Species(Obs),Chao1,ACE,Shannon和Simpson。
這五種指標(biāo)涵蓋了三大問(wèn)題。
1. 物種豐富度 (Richness)----不考慮豐度,即樣本中有多少個(gè)物種,衡量指標(biāo)包括Obs,Chao1和Ace。
2. 物種多樣性 (Diversity)----將物種個(gè)數(shù)和物種的豐度全部考慮在內(nèi)的多樣性,衡量指標(biāo)包括Shannon和Simpson。
3. 物種均勻度 (Eveness)----這些物種的豐度分布情況,衡量指標(biāo)包括Shannon和Simpson等。
這五個(gè)指標(biāo)說(shuō)的都與生境內(nèi)多樣性有關(guān),但又各有各的不同。
Observed Species是最簡(jiǎn)單的計(jì)算方式,就是數(shù)一下這個(gè)樣本中有多少類(lèi)物種。
那么物種怎么數(shù)呢?
微生物又不能像上面說(shuō)的獅子和野豬一樣直接去數(shù),難道要在顯微鏡下數(shù)么?
別說(shuō)這還真有可能是個(gè)好主意,也許有一天人工智能發(fā)展到一定程度,可根據(jù)形態(tài)學(xué)特征一個(gè)個(gè)數(shù)出來(lái)。
未來(lái)的事情未來(lái)再說(shuō),先說(shuō)眼下,好在現(xiàn)在我們有高通量測(cè)序手段解決這個(gè)問(wèn)題,就是說(shuō)測(cè)完了序,數(shù)序列,推斷物種的Alpha多樣性。
數(shù)序列,其實(shí)數(shù)的就是操作分類(lèi)單元(Operational Taxonomic Units, OTU)。
OTU就是能夠標(biāo)志分類(lèi)單元(屬或物種等)的一種DNA序列。
如果想對(duì)OTU是什么怎么來(lái)的有個(gè)大概的了解,請(qǐng)看下面分割線(xiàn)中這段;如果不想,直接跳過(guò)就是。
--------------------------------------BOX 3: OTU是怎么來(lái)的--------------------------------------
以16S序列分析為例,我們從微生物DNA高變區(qū)擴(kuò)增子序列測(cè)序得到雙末端測(cè)序數(shù)據(jù)(Pair-end Reads, PE Reads)。
經(jīng)一定條件過(guò)濾后,將每對(duì)PE Reads的Read1和Read2根據(jù)重疊序列拼接成Tag序列,然后再過(guò)濾,得到Clean Tags序列。理論上,每一條Clean Tag序列來(lái)自一個(gè)菌。
再將相似度大于97%或95%的Clean Tags序列歸為同一個(gè)序列單元,這種序列單元就叫做操作分類(lèi)單元(OTU)。
實(shí)際上,OTU是在系統(tǒng)發(fā)生學(xué)研究或群體遺傳學(xué)研究中,為方便分析,人為給某一個(gè)分類(lèi)單元設(shè)置的同一標(biāo)志,其中分類(lèi)單元可以是門(mén)、綱、目、科、屬、種、品系以及分組等。
在宏基因組研究中,一個(gè)OTU不止可能能標(biāo)志種,也可能標(biāo)志屬,還可能標(biāo)志科等不同的分類(lèi)等級(jí),所以它叫操作分類(lèi)單元,而不是叫做操作種單元或操作屬單元。
這里要注意Taxonomic和Species/genus的關(guān)系,誰(shuí)是誰(shuí)的充分條件,誰(shuí)是誰(shuí)的必要條件。
-----------------------------------------------BOX 3 END----------------------------------------------
好了,得到了OTU序列。那就數(shù)一下唄。
不過(guò)這里要注意,OTU即可代表物種,一條OTU能夠標(biāo)志一個(gè)物種。
甚至為方便理解,采用佛家“色即是空,空即是色”的表達(dá)方式,我們可以更過(guò)分一點(diǎn):OTU即是物種,物種即是OTU。
數(shù)完了,我們得到一個(gè)數(shù)字,比如50。
沒(méi)錯(cuò),這個(gè)數(shù)字就是該樣本的alpha多樣性之一,Observed Species。
那么問(wèn)題來(lái)了,你能保證你所觀察到的OTU序列就是環(huán)境樣本中的全部物種么?
顯然這個(gè)是保證不了的,總會(huì)有漏網(wǎng)之魚(yú)沒(méi)有被觀察到。這需要具備一個(gè)抽樣的思想,任何我們觀察到的物種都看成是抽樣,并非總體。也就是說(shuō),眼見(jiàn)未必為實(shí)。
因此我們需要用數(shù)學(xué)的方法基于樣本來(lái)估計(jì)總體。
于是乎,1984年Chao[1]開(kāi)發(fā)了一個(gè)算法用以估計(jì)真實(shí)總體的物種數(shù),計(jì)算公式如下:
: 最終估計(jì)的OTU數(shù)目。
: 觀察到的OTU數(shù)目。
: 只含有1條序列的OTU數(shù)目,即只被觀察到1次的物種(暫定義為痕量物種)的數(shù)量。
: 只含有2條序列的OTU數(shù)目,即只被觀察到2次的物種(暫定義為微量物種)的數(shù)量。
由于有可能為0,而導(dǎo)致公式第二部分沒(méi)有意義,所以有人把這個(gè)公式修正了一下:
為方便表達(dá),我們定義n為某一OTU(物種)包含的序列(個(gè)體)數(shù),即OTU(物種)種的絕對(duì)豐度。的公式包括兩部分,第一部分就是現(xiàn)在我們觀察到的物種數(shù)(
),顯然第二部分就是沒(méi)觀察到的物種數(shù)(
),
就是基于
和
推算出來(lái)的。
這里,我們可以嘗試計(jì)算一下BOX2中地點(diǎn)A、B和C的。
地點(diǎn)A:
地點(diǎn)B:
地點(diǎn)C:
A、B和C3個(gè)地點(diǎn)的都是6,但
分別為1.5,0.5和3。
A和B比較,的增加可使
呈現(xiàn)二次方增長(zhǎng)。這就是說(shuō)當(dāng)觀察結(jié)果存在越多的痕量物種(
)時(shí),就表明還可能有更多的物種沒(méi)有被觀察到。
A與C比較,對(duì)
貢獻(xiàn)起到一定的反比例抑制作用。可理解為,當(dāng)多種微量物種被觀察到時(shí),觀察到的痕量物種未必會(huì)是真正的痕量物種,有可能是微量物種,所以微量物種的存在將使得痕量物種對(duì)多樣性的貢獻(xiàn)力度大打折扣。
當(dāng)然對(duì)于在這個(gè)公式中起到的意義,這句只是我的理解,具體有一個(gè)詳細(xì)的推導(dǎo)過(guò)程,可參見(jiàn)Chao在1984年的那篇經(jīng)典文章,歡迎數(shù)學(xué)功底深厚的同學(xué)討論。
再者,可以比較一下的分子和分母,
要比
變化速度更快,即
對(duì)痕量物種更加敏感。
高豐度的物種()的數(shù)量對(duì)
并無(wú)任何作用。
舉例說(shuō)就是,不論地點(diǎn)A有11頭野牛和200頭野牛,對(duì)A地的Chao1指標(biāo)的大小并無(wú)影響。
極端假設(shè)一下,如果一個(gè)群落樣本中全部都是高豐度物種,即抽樣調(diào)查中物種被抽到2次以上,則表明很可能觀察到的物種數(shù)就是真實(shí)的物種數(shù)。
由此可見(jiàn),是度量物種類(lèi)別多樣性的指標(biāo),是針對(duì)總體物種數(shù)量的推測(cè),與豐度、均勻度無(wú)關(guān),對(duì)稀有物種很敏感。
根據(jù)Chao1的公式不難看出,對(duì)未觀察到物種的估計(jì)僅僅考慮到豐度為1和2的物種。那么,僅僅考慮豐度為1和2的物種會(huì)不會(huì)有些問(wèn)題?豐度為3的呢?豐度為4的呢?……
1992年,Chao等[2]又開(kāi)發(fā)出一個(gè)新的方法用來(lái)估計(jì)物種的豐富度——ACE指數(shù)。這個(gè)指數(shù)對(duì)微量物種的考慮范圍擴(kuò)大到了10,也就是說(shuō)考慮到了豐度為10以?xún)?nèi)的物種(定義為稀有物種),公式如下:
為稀有物種的數(shù)量(
),
為高豐度物種的數(shù)量(
),這里觀察到物種的總數(shù)
。參數(shù)
用于衡量豐度
且
的物種豐度總覆蓋率。
為所有稀有物種豐度之和;
為豐度為
的物種的數(shù)量。
因此,為應(yīng)用豐度
且
的物種估計(jì)的稀有物種數(shù)量。
另一個(gè)參量用于估計(jì)
的變異系數(shù),
的意思就是如果
,這個(gè)式子就等于0。
接下來(lái),咱們?cè)摻忉屢幌?img class="math-inline" src="https://math.jianshu.com/math?formula=%5Cfrac%20%7BF_1%7D%20%7BC_%7BACE%7D%7D%20%20%CE%B3_%7BACE%7D%5E2" alt="\frac {F_1} {C_{ACE}} γ_{ACE}^2" mathimg="1">啦!
其實(shí)就一句話(huà):為應(yīng)用豐度為1 ()的物種推算出的稀有物種數(shù)量。
三者相加就是ACE的指標(biāo)。
繼續(xù)老套路,我們?cè)賴(lài)L試計(jì)算一下一個(gè)地點(diǎn)A、B和C的:
地點(diǎn)A:
地點(diǎn)B:
地點(diǎn)C:
這么一看,Chao1和ACE兩個(gè)指標(biāo)算出來(lái)的結(jié)果并不是很一致,兩者都會(huì)低估樣本物種容量較低時(shí)的真實(shí)物種類(lèi)別豐富度。例如,當(dāng)一個(gè)樣本中只有一個(gè)豐度為2的物種且其他的物種豐度都是1的時(shí)候,的值為
。因此,
會(huì)與樣本物種容量大小有很強(qiáng)的相關(guān)性,除非
達(dá)到2倍的真實(shí)物種類(lèi)別豐富度的平方根[3]。而不管是微生物宏基因組學(xué)研究中樣本的物種容量還是真實(shí)的自然生態(tài)系統(tǒng)中的可觀察物種遠(yuǎn)遠(yuǎn)多于舉例中的三個(gè)地點(diǎn),因此應(yīng)該是足夠的。
物種類(lèi)別豐富度指標(biāo)Chao1和ACE,即可用于估計(jì)野豬和獅子等生存的大型生態(tài)環(huán)境,也可用于估計(jì)腸道和土壤等的微環(huán)境。
以野豬的視角來(lái)看,整大型個(gè)生態(tài)系統(tǒng)的物種類(lèi)別豐富度,可形象謂之為上帝視角,夠“宏”吧?
以大腸桿菌的視角來(lái)看,腸道的物種類(lèi)別豐富度,亦為上帝視角,夠“宏”吧!
到此為止物種類(lèi)別豐富度指標(biāo)我們已然介紹完畢。
至于囊括豐度和均勻度的Shannon和Simpson指標(biāo)……
呃……現(xiàn)在已然是2019年3月30日1點(diǎn)60,
咦,我好像聽(tīng)到了雞叫,
管他呢,困了,天色已晚,洗洗睡……
備注:此文于2019年3月29日發(fā)于e媛微生態(tài)。
參考文獻(xiàn)
[1] Chao A . Nonparametricestimation of the number of classes in a population[J]. Scandinavian Journal of Statistics, 1984, 11: 265-270.
[2] http://scikit-bio.org/docs/0.4.1/generated/generated/skbio.diversity.alpha.chao1.html
[3] Hughes J B , Hellmann J J , Ricketts T H , et al. Counting the Uncountable: Statistical Approaches to Estimating Microbial Diversity[J]. Applied and Environmental Microbiology, 2001, 67(10): 4399-4406.