群落多樣性之Beta多樣性(一)

0 導(dǎo)語

再過不到一個(gè)月,就要高考了。
考試固然重要,它檢驗(yàn)的是努力,決定了起點(diǎn)的高度;
報(bào)考更重要,它是方向,讓考生從無限可能步入可能中的一種,決定了考生的未來。
是啊,任你分?jǐn)?shù)再高,只要報(bào)考出點(diǎn)問題,豈不是多年的努力多半付之東流?
記得那年高考的時(shí)候,我上屆本省某大哥以671分這種穩(wěn)進(jìn)Top2的成績?nèi)チ藮|北電力學(xué)院。
幾無例外,大家報(bào)考時(shí)都會(huì)查一查中國大學(xué)排行榜。
這類排行榜有網(wǎng)大、武書連、中國校友會(huì)等多種版本。
評(píng)價(jià)方式大同小異,即根據(jù)科研實(shí)力、學(xué)生就業(yè)率等指標(biāo)計(jì)算出一個(gè)總的分?jǐn)?shù)進(jìn)行排名。
盡管這個(gè)排名很具有指導(dǎo)意義,但多數(shù)考生只會(huì)關(guān)心排名,往往忽略了一些重要信息,比如高校之間的聯(lián)系和區(qū)別,而這些信息也是非常有價(jià)值的。
舉例來說吧!
假如你是個(gè)學(xué)霸,分?jǐn)?shù)高,性子倔,想報(bào)考工科專業(yè),且非清華北大不去。
這時(shí)候就要研究下清華和北大的聯(lián)系和區(qū)別是什么?
都在北京海淀區(qū),都很牛逼;
北大側(cè)重于理科和文科,清華更側(cè)重于工科。
這時(shí)候,如何選擇,一目了然。
倘若分?jǐn)?shù)不太濟(jì),可能剛剛好夠不上清華,咋整?
中科大,哈工大,華南理工,西工大……都是中國頂級(jí)工科類院校。
倘若分?jǐn)?shù)繼續(xù)不濟(jì),且特想學(xué)建筑,“985”上不了,”211”有風(fēng)險(xiǎn),怎么辦?
此時(shí)你就需要知道建筑領(lǐng)域有“老八?!焙汀敖ㄖ滤能姟边@倆說法,
“老八?!焙汀靶滤能姟贝順I(yè)界公認(rèn)最強(qiáng)的十二所建筑強(qiáng)校。
建筑“老八?!卑l(fā)展到現(xiàn)在,只有一所既不是“985”也不是“211”;
那么不要猶豫,此時(shí)最佳選項(xiàng)就是“老八?!崩镒畈畹哪莻€(gè)。
倘若分?jǐn)?shù)仍然不濟(jì),連一本都懸,咋整?
問題也不大,因?yàn)椤靶滤能姟袄锩嫔踔吝€有一所學(xué)校在我當(dāng)年高考的時(shí)候連“一本”都不是。
此時(shí),“新四軍“里“最挫”的那個(gè)就是夜空中最亮的星。
以低于名校分?jǐn)?shù),享受著名校的教育,何樂而不為呢?
像“學(xué)科側(cè)重方向”,“老八校”,“新四軍”,這些信息是排行榜這類榜單無法給出的。
如此說來,報(bào)考不但要考慮到排名,還要研究學(xué)校之間的區(qū)別與聯(lián)系,是一門高深的學(xué)問。
其實(shí),生物多樣性的研究也是如此。

1 "Within和Between"

宏基因組分析中最常用的群落多樣性指標(biāo)包括Alpha多樣性和Beta多樣性。
Alpha多樣性指標(biāo),是一個(gè)一維的數(shù)值,指的是環(huán)境樣本內(nèi)物種多樣性大小,即Within Sample,如同高校排行榜可作為高校實(shí)力的排名參考,Alpha多樣性指標(biāo)能體現(xiàn)各群落物種多樣性指標(biāo)的大小。
比如表1就是在A(A1~3)和(B1~3)兩組樣本中以觀察到物種數(shù)(Observed Species,Obs)或操作分類單元(Operational Taxonomic Units,OTUs)降序排列獲得Obs指標(biāo)龍虎榜。

表1 兩組樣本的Alpha多樣性指標(biāo)

Sample Obs Chao1 ACE Shannon Simpson
A1 2781 3011.970 3145.893 9.381 0.996
A3 2511 2717.473 2829.702 9.062 0.994
A2 2321 2538.997 2586.814 9.045 0.995
B2 2010 2231.791 2337.814 8.370 0.989
B1 1977 2315.182 2415.277 8.403 0.991
B3 1828 2039.566 2068.423 8.256 0.989

這里倘若A組是處理組,B組是對(duì)照,則可應(yīng)用假設(shè)檢驗(yàn)計(jì)算P值以說明顯著性。說明一定的生物學(xué)意義,A組的生物多樣性顯著大于B組。
當(dāng)然,我們也可以應(yīng)用其他指標(biāo)(Chao1、Shannon等)進(jìn)行降序排名。

在實(shí)際的研究項(xiàng)目中,科學(xué)家們往往會(huì)用添加變量的的方式去表現(xiàn)Alpha多樣性以說明此現(xiàn)象的生物學(xué)意義,比如加個(gè)坐標(biāo)軸,或者再給點(diǎn)顏色看看(圖1)。

圖1. 人類群體腸道菌群多樣性隨年齡和地域不同產(chǎn)生的差異

圖1來自于2012年發(fā)表在Nature上的一篇經(jīng)典文章[1],主要講的是人類菌群結(jié)構(gòu)隨年齡和地域的變化。
圖1a是不同年齡不同地區(qū)人群腸道微生物群落物種數(shù)量(OTU數(shù)量)的分布散點(diǎn)圖。橫縱坐標(biāo)分別表示年齡和腸道中觀察到的物種數(shù)。其中的規(guī)律顯而易見,從出生開始隨著年齡的增長,人的腸道微生物不斷增加,在3歲左右達(dá)到一個(gè)平臺(tái)期,這個(gè)可參考圖1b。
圖中點(diǎn)的顏色用來區(qū)分來自不同地區(qū)的人:非洲馬拉維人(Malawians),美洲印第安人(Amerindian)和美國公民(US residents),成年人中經(jīng)濟(jì)條件差的地區(qū)(馬拉維人和美洲印第安人居住地)人腸道微生物種類要顯著高于經(jīng)濟(jì)條件好的地區(qū)(P<0.005),而兒童中卻并未發(fā)現(xiàn)這種顯著差異。
這讓我想起了孔圣人曾經(jīng)說的那句話:人之初,性本善,性相近,習(xí)相遠(yuǎn)。目測此研究跟古人想法暗合啊。如此從腸道數(shù)據(jù)上來看,大家差不多是生而平等的,也就是說大家出生的時(shí)候跟王思聰?shù)囊矝]什么差別,沒必要先天性地對(duì)他進(jìn)行個(gè)人崇拜。

Alpha多樣性指標(biāo)可描述樣本內(nèi)物種多樣性,僅僅是描述樣本內(nèi)物種數(shù)量和均勻度的指標(biāo),這類指標(biāo)僅與當(dāng)前樣本有關(guān),與其他樣本無關(guān),因此樣本之間的差異遠(yuǎn)近關(guān)系用Alpha多樣性難以較為完整表達(dá)。一個(gè)較為極端但很有可能發(fā)生的例子就是兩個(gè)群落的Alpha多樣性一致,但是物種的種類完全不一致。

因此,對(duì)于環(huán)境樣本,不同的樣本中往往分布著不同的生物群落。對(duì)這些生物群落之間的差異進(jìn)行量化,不僅可以幫助研究者理解各個(gè)樣本的生物多樣性如何,還可以幫助解釋樣本為什么以這種方式聚集或分散。這就涉及到生物群落多樣性的另外一種表達(dá)方式,即Beta多樣性。

Beta多樣性是Whittaker于1960年[2]提出,定義為群落組成變化的程度,或群落分化的程度,與環(huán)境的復(fù)雜梯度或環(huán)境的模式有關(guān)。這么看有點(diǎn)難以理解,我們換句好理解的話說,就是樣本間的相對(duì)差距,針對(duì)的是Between Samples,請(qǐng)注意要與Alpha多樣性所針對(duì)的的Within Sample有所區(qū)分。Beta多樣性,不僅可以反映樣本之間的多樣性距離關(guān)系,而且還可以反映生物群落之間的分化程度。

結(jié)合本文開頭的內(nèi)容,對(duì)兩種多樣性做個(gè)一句話總結(jié)就是:Alpha多樣性相當(dāng)于以打分的方式給大學(xué)打分,可得出排名;Beta多樣性則是研究大學(xué)之間的區(qū)別、聯(lián)系、遠(yuǎn)近親疏關(guān)系。

2 Beta多樣性分析方法

廣義上說,Beta多樣性分析包括分兩部分:距離的計(jì)算和距離的展示。

2.1 距離的計(jì)算

狹義上說,Beta多樣性僅僅就指是樣本間相對(duì)差異距離。
當(dāng)然這個(gè)狹義和廣義僅僅是我個(gè)人的理解。
如何計(jì)算兩樣本Beta多樣性差異距離?
還是老套路,從最簡單直接的開始。
一個(gè)極粗野豪邁的計(jì)算公式:
D_{beta}=(S_1-C)+(S_2-C)
S_1是指樣本1中包含的物種數(shù);
S_2是指樣本2中包含的物種數(shù);
C指的是樣本1和樣本2中共有的物種數(shù);
比如兩個(gè)環(huán)境樣本中共有5個(gè)物種:OTU1、OTU2、OTU3、OTU4、OTU5。
樣本1中有3個(gè)物種:OTU1、OTU2和OTU4;
樣本2中也有3個(gè)物種: OTU2、OTU4和OTU5。
單純從觀察到的物種(Obs)這個(gè)指標(biāo)來看,它們的Alpha多樣性是一致的,但Beta多樣性距離是不一致的。
兩者共有的物種有2個(gè):OTU2和OTU4。
樣本1獨(dú)有的物種是OTU1;樣本2獨(dú)有的物種是OTU5。
那么它們的差異距離,代入公式就是:
D_{beta}=(S_1-C)+(S_2-C)=(3-2)+(3-2)=2
這兩個(gè)樣本的差異距離為2。
也就是說,有2個(gè)物種要么只存在于樣本1中,要么只存在于樣本2中。
這就是最簡單的距離計(jì)算方法,學(xué)名叫漢明距離(Hamming Distance)[3]。
另外還有很多計(jì)算距離的方法,比如Euclidean距離、Bray-Curtis距離、Pearson距離、非加權(quán)或加權(quán)UniFrac距離等[4]。
兩個(gè)樣本的距離計(jì)算大抵如此,那么多個(gè)樣本兩兩計(jì)算距離則會(huì)產(chǎn)生一個(gè)距離矩陣(圖2)。

圖2 3個(gè)樣本的漢明距離矩陣計(jì)算示意圖。Binary OTU Distribution Table中, “1”表示樣本中存在該OTU,“0”表示不存在。

如圖2所示,3個(gè)樣本的距離矩陣可很容易找出兩兩樣本的距離遠(yuǎn)近。
倘若是10個(gè)甚至是50個(gè)以上樣本呢?
我們要考察樣本的聚類關(guān)系怎么辦?
這種距離矩陣的表示方法就變得非常不直觀,
我們需要尋找到更好得展示距離的方式。

2.2 距離的展示

那么啥是數(shù)據(jù)降維呢?
其實(shí)平時(shí)大家都玩過的用手機(jī)拍照就是一種數(shù)據(jù)降維。
現(xiàn)在桌上有半包紅塔山。
需要我們用圖片的方式把這半包煙的數(shù)據(jù)完整的表述出來。
采集完備數(shù)據(jù)的科學(xué)做法是采用機(jī)械制圖方法,繪制出半包煙的正視圖、左視圖、右視圖、俯視圖、甚至細(xì)節(jié)剖面圖等(圖3a-d)。應(yīng)用這些圖,我們能夠描述出這半包煙的完整信息,但是它們是多維的數(shù)據(jù)很不直觀。
這相當(dāng)于我們分析16S序列數(shù)據(jù)后得到的OTU豐度表,你從這張表中很難發(fā)現(xiàn)樣本之間的關(guān)系有何規(guī)律。
因此為求直觀,你只能用一張照片盡可能多地展示這半包煙的信息,這張照片其實(shí)大家都會(huì)拍。
為了更全面展示剖面信息,我們甚至可以把煙盒打開,露出半包煙的更多信息,即煙桿、內(nèi)襯錫紙等。
較為重要的是要選擇好拍攝角度,差不多斜上方45°角。
這樣基本上這半包煙在一張照片上的信息量就做到了盡可能多。
盡管這樣會(huì)損失一些信息(圖3σ照片中不可見的幾個(gè)面),但這可僅僅是二維數(shù)據(jù),包含信息最全的二維數(shù)據(jù),直觀??!

圖3 通俗方式理解數(shù)據(jù)降維

原始數(shù)據(jù)要正視圖、左右視圖、俯視圖、分層剖面圖等才能表達(dá)最完整信息。而降維之后,僅僅一張二維圖片即可展示出相對(duì)來說較完整的半包煙是什么樣的。這就是降維,選擇能夠捕捉到的最全面的拍攝角度,把高維數(shù)據(jù)轉(zhuǎn)換成盡可能包含最全信息的低維數(shù)據(jù)。拍照中轉(zhuǎn)換拍攝角度,放在數(shù)據(jù)分析中就是指變換坐標(biāo)。
降維是一種很好的數(shù)據(jù)可視化方式。在Beta多樣性分析中,常用的降維分析方法有三種:主成分分析(Principle Compounent Analysis, PCA)、多維尺度分析(Multidimensional Scaling, MDS)和主坐標(biāo)分析(Principal Co-ordinates Analysis, PCoA)。這三者的原理基本大同小異,不同之處就是開始時(shí)應(yīng)用的數(shù)據(jù)關(guān)系矩陣不同,PCA用的是屬性之間的相關(guān)性矩陣,而PCoA和MDS應(yīng)用的是屬性之間的距離矩陣。
圖4 PCA、PCoA和MDS分析的基本步驟

如圖4所示,距離的計(jì)算和降維包括下述4個(gè)基本步驟。

  1. 數(shù)據(jù)標(biāo)準(zhǔn)化
    首先根據(jù)OTU豐度分布表對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,即某樣本的某OTU豐度減去該屬性的平均值。
  2. 距離計(jì)算
    根據(jù)標(biāo)準(zhǔn)化后的OTU豐度分布表,計(jì)算出屬性的相關(guān)性或者是距離矩陣。
  3. 尋找坐標(biāo)系
    數(shù)據(jù)分析中則是尋找屬性距離矩陣的特征值和特征向量,并根據(jù)特征值對(duì)特征向量從大到小排序。其中特征值可理解為該坐標(biāo)包含的信息量大小的度量值,特征向量則是坐標(biāo)的方向。該過程可相當(dāng)于上文紅塔山例子中調(diào)整拍攝的囊括的信息量(特征值)和角度(特征向量)。
  4. 線性變換
    找到了新的坐標(biāo)系之后,用標(biāo)準(zhǔn)化之后的數(shù)據(jù)分別右乘囊括信息量最大的坐標(biāo),即特征值排名第一(PC1)和第二(PC2)的特征向量,所有的樣本就已經(jīng)用新的2維坐標(biāo)系定位啦。然后,再計(jì)算出每個(gè)特征向量解釋度,就是囊括信息量的占比。最后在新的直角坐標(biāo)系中作圖,所得到的就是大家最后看到的二維平面圖。
    針對(duì)上面的二進(jìn)制OTU分布表(圖2),包含5種OTUs,也就是5維數(shù)據(jù)。
    我們根據(jù)上面的步驟,采用PCA的降維方式把它降到2維。如下圖:


    圖5 基于5維OTUs信息3個(gè)樣本的PCA計(jì)算結(jié)果

依舊延續(xù)先前的問題,倘若是10個(gè)甚至是50個(gè)樣本呢?
再來看一張圖(圖6),該圖依然來自于前文所述的那篇經(jīng)典文章,是根據(jù)16S rDNA數(shù)據(jù)分析得到的OTU多樣性對(duì)比,計(jì)算出Unifrac距離矩陣,據(jù)此進(jìn)行了PCoA分析獲得的二維數(shù)據(jù)。

圖6 不同地區(qū)成年人糞便微生物群的非加權(quán)UniFrac距離的PCoA分析

PC1和PC2分別表示數(shù)據(jù)降維后解釋度排名前兩位的主坐標(biāo)軸,這兩個(gè)主坐標(biāo)分別占25%和6.6%的數(shù)據(jù)解釋度??擅黠@觀察出發(fā)達(dá)地區(qū)(藍(lán)色)的多樣性距離聚集現(xiàn)象,并與欠發(fā)達(dá)地區(qū)(紅色和綠色)可明顯分開。這說明在后天環(huán)境的影響下,成人的腸道菌群差距還是蠻大的,即“性相近,習(xí)相遠(yuǎn)”。

如果降維后,二維沒法得到自己想要的結(jié)果,比如本來分成兩組的樣本卻分不開,如圖6中紅色和綠色的點(diǎn),或者說所有的樣本點(diǎn)都近乎平均的分散在坐標(biāo)系中,可以增加一個(gè)維度,采用三維展示(圖7)[5]。


圖7 基于Bray-Curtis距離矩陣得到的3D PCA圖。(此圖展示了基于16S數(shù)據(jù)獲得的裸鼴鼠大鼠(粉色)、小鼠(綠色)、西方成年人類(藍(lán)色)與一組不同陸生哺乳動(dòng)物(紅色食肉動(dòng)物(C1-C5)、橙色食肉動(dòng)物(O1-O9)、黃色食草動(dòng)物(H1-H17))之間的分離現(xiàn)象。)

另外,那篇經(jīng)典Nature文章[1],曾用一維的距離數(shù)據(jù)展示過Beta多樣性。
這里可狗尾續(xù)貂般地說一說!
看圖8,這張圖與圖1a唯一不同的僅有縱坐標(biāo)??v坐標(biāo)數(shù)值是應(yīng)用一種叫UniFrac距離的計(jì)算方法,量化了各組樣本中的未成年人對(duì)比成年人數(shù)據(jù)的差異。每一個(gè)點(diǎn)都表示了一個(gè)未成年人和所有來自同一國家、且與他無關(guān)的成年人之間的平均UniFrac距離。此圖和圖1a的表達(dá)出來的意思基本相吻合,隨著年齡的增長,未成年人和成年人的腸道微生多樣性差距越來越小。此文獻(xiàn)上的官方說法是在所有三個(gè)不同地區(qū)的人中,腸道菌群的系統(tǒng)發(fā)育組成在出生后的三年內(nèi)都向著成人的狀態(tài)變化。


圖8. 兒童和成人之間的UniFrac距離隨著兒童年齡的增長而縮短

3 后記

本篇是Beta多樣性的第一篇,與Alpha多樣性相比,Beta多樣性的內(nèi)容相當(dāng)多,光距離的計(jì)算我所聽說過的就有60余種之多;而降維等距離展示的方式涉及到線性代數(shù)等基礎(chǔ)內(nèi)容。
這倒是頗有些像修煉絕世武功,學(xué)習(xí)六脈神劍,必須要有深厚的內(nèi)功和一陽指做基礎(chǔ)。
不過總結(jié)起來,萬變不離其宗。Beta多樣性,“無他,唯距離之計(jì)算與展示爾!”
對(duì)于本文開頭提到的關(guān)于高校報(bào)名,還想再說幾句。
我們查尋各個(gè)學(xué)校的有關(guān)資料會(huì)發(fā)現(xiàn)學(xué)校之間的區(qū)別和聯(lián)系等信息。
倘若把所包含的學(xué)科看做樣本中存在的物種/OTU,各學(xué)科目水平分?jǐn)?shù)看做物種/OTU的絕對(duì)豐度。
按照上述的分析方式根據(jù)相關(guān)性或者距離指標(biāo)做個(gè)PCA或PCoA等分析,哪些學(xué)校會(huì)和哪些學(xué)校聚為一類呢?這些學(xué)校之間的直觀差距到底有多大呢?
這個(gè)Idea就免費(fèi)送給相關(guān)學(xué)者去研究啦。
作為生物狗,我就不攙和了。

備注:本文于2019年5月20日發(fā)表于e媛微生態(tài)公眾號(hào)。

參考文獻(xiàn)

[1] Yatsunenko, T. et al. Human gut microbiome viewed across age and geography[J]. Nature, 2012, 486, 222-227.
[2] Whittaker, R. H. Vegetation of the Siskiyou Mountains, Oregon and California[J]. Ecological Monographs, 1960, 30, 280-338.
[3] https://zh.wikipedia.org/wiki/%E6%B1%89%E6%98%8E%E8%B7%9D%E7%A6%BB
[4] http://qiime.org/1.3.0/scripts/beta_diversity_metrics.html
[5] Debebe T, Biagi E, Soverini M, et al. Unraveling the gut microbiome of the long-lived naked mole-rat[J]. Scientific reports, 2017, 7(1): 9590.

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容