Microbiome||終于可以把對照組與實(shí)驗(yàn)組分開了!(附代碼)

What is the opposite word for Outlier

個(gè)體的微生物組在高維空間中隨時(shí)間變化以形成其個(gè)體微生物組云(personal microbiome cloud,Humans differ in their personal microbial cloud)。無論是在平均微生物組概況(一致性)還是云的直徑(穩(wěn)定性)方面,這種云可能與其他人的相似或不相似。然而,目前還沒有強(qiáng)大的非參數(shù)測試來確定患者與健康個(gè)體的微生物組云差異。

在這里,我們提出了在人類腸道微生物組中檢測離群值的檢驗(yàn)方法,該測試解釋了在一組典型的健康個(gè)體和個(gè)體內(nèi)時(shí)間變異中觀察到的廣泛的微生物組表型(microbiome phenotypes)。我們強(qiáng)大的非參數(shù)離群值檢測測試CLOUD測試對患者的微生物組健康狀況進(jìn)行了兩次評估:

  • 一致性,患者的微生物組云在生態(tài)學(xué)上與健康受試者的子集相似的程度;
  • 穩(wěn)定性,將患者的云直徑與健康受試者的云直徑進(jìn)行比較

CLOUD測試基于局部線性嵌入式(locally linear embedded)生態(tài)距離,使其能夠解釋參考個(gè)體的微生物組云變化。 它還利用患者和參考個(gè)體內(nèi)的時(shí)間變異性來增加測試的穩(wěn)健性。

LLE算法認(rèn)為每一個(gè)數(shù)據(jù)點(diǎn)都可以由其近鄰點(diǎn)的線性加權(quán)組合構(gòu)造得到。算法的主要步驟分為三步:(1)尋找每個(gè)樣本點(diǎn)的k個(gè)近鄰點(diǎn);(2)由每個(gè)樣本點(diǎn)的近鄰點(diǎn)計(jì)算出該樣本點(diǎn)的局部重建權(quán)值矩陣;(3)由該樣本點(diǎn)的局部重建權(quán)值矩陣和其近鄰點(diǎn)計(jì)算出該樣本點(diǎn)的輸出值。

我們描述了CLOUD測試,并將其應(yīng)用于一個(gè)新的和兩個(gè)已發(fā)表的接受糞便微生物群移植治療復(fù)發(fā)性艱難梭菌結(jié)腸炎的患者隊(duì)列,以及兩個(gè)已知的健康隊(duì)列,證明了CLOUD 與臨床結(jié)果具有一致性。盡管CLOUD測試本身并不是臨床失調(diào)的測試方法,但它仍然為離群值測試提供了一個(gè)框架,可用于評估疑似生態(tài)失調(diào),這可能在許多兒科和成人疾病的診斷和預(yù)后中發(fā)揮作用。

實(shí)質(zhì)性方法(Substantial methods )的發(fā)展對微生物組的更好的判別測試,其目標(biāo)是確定區(qū)分治療組或與實(shí)驗(yàn)變量或臨床元數(shù)據(jù)相關(guān)的特定分類群。當(dāng)研究具有兩個(gè)或更多個(gè)實(shí)驗(yàn)組或與微生物組相關(guān)的已知生化梯度時(shí),這些監(jiān)督測試是有用的。Halfvarson等人最近定義了一個(gè)二維健康平面,使用最小二乘法在一個(gè)來自健康受試者未加權(quán)UniFrac距離的主坐標(biāo)分析(PCoA)的空間中計(jì)算。然后將該平面用作代表健康受試者內(nèi)正常微生物變異的代表,并總結(jié)與間歇性生態(tài)失調(diào)炎性腸?。↖BD)相關(guān)的離群值。作者發(fā)現(xiàn),IBD患者的微生物組比健康個(gè)體的微生物群波動更多,并且有時(shí)根據(jù)與新定義的健康平面的偏差占據(jù)PCoA空間的不同區(qū)域。這種方法代表了生態(tài)失調(diào)測試的顯著進(jìn)步,并且在具有相對同質(zhì)和單峰參考群體的情況下可能是有效的。

該圖總結(jié)了基于一組樣品S(a,樣品選擇;b,模型擬合;c,所有樣品)的距離計(jì)算創(chuàng)建代表平面的過程。
d: 健康平面位于UniFrac空間中將線擬合到點(diǎn)的主軸,
e:定義最小二乘擬合以識別平面,該平面最小化距離最近點(diǎn)的距離的平方和。
f:驗(yàn)證健康平面的位置不是由以蛋白細(xì)菌為主的異常值驅(qū)動的:Procrustes分析比較原始樣本和去除Proteobacteria的樣本。 在省略Proteobacteria(黑色)后,載體將每個(gè)原始樣品(紅色)與相同樣品連接。 p <0.001,M2 = 0.018,999個(gè)排列。
g:大多數(shù)載體的短長度表明當(dāng)過濾掉變形菌時(shí),大多數(shù)樣品的相對組成不會改變。

實(shí)際上,人類微生物組是高度多變量的,并且健康可以與許多不同的分類變量相關(guān)聯(lián),這些變量可能無法通過平面或超平面捕獲。目前還沒有已知的微生物組離群值的非參數(shù)檢驗(yàn),定義為生態(tài)距離空間中的群落狀況與健康受試者的大型參考組的顯著偏差。這種測試在醫(yī)學(xué)微生物組研究中將是重要的,用于將患者的微生物組與參考群體進(jìn)行比較,以確定何時(shí)在合格性或穩(wěn)定性方面是顯著異?;蛏鷳B(tài)缺陷,而沒有對生理狀態(tài)的先驗(yàn)知識。

在這里,我們提出了基于云的局部線性無偏生態(tài)障礙(Cloud-based Locally linear Unbiased Dysbiosis,CLOUD)測試,這是一種利用完整的高維樣本間生態(tài)距離矩陣的廣泛穩(wěn)健的非參數(shù)測試。最終,該測試可以納入臨床實(shí)踐,以增強(qiáng)基于微生物組的診斷和決策。

方法

CLOUD測試簡述
開發(fā)用于生態(tài)失調(diào)的廣義測試的一個(gè)主要挑戰(zhàn)是人類腸道微生物組成在個(gè)體之間是高度不同的,一些健康個(gè)體具有幾乎完全不同的分類群。因此,全群落水平(whole-community level)的生態(tài)相似性測量是傳統(tǒng)單變量測試(如血液中使用的測量)的合理替代方法。典型的血液檢測報(bào)告?zhèn)€體血液代謝物的水平,并根據(jù)健康個(gè)體的正常范圍將其分類為正常或異常。

因此,我們的目標(biāo)是建立一個(gè)無監(jiān)督的多維測試,與健康受試者的參考隊(duì)列相比,該測試允許將完整的微生物組概況分類為足夠健康或離群值。 該測試考慮了以下三個(gè)挑戰(zhàn):

  • i人類微生物組是多變量的
  • ii 健康的人體腸道微生物組具有許多不同的分類變量(taxonomic configurations)
  • iii個(gè)體的微生物組可以每天大幅變化
    我們建議使用非參數(shù)CLOUD測試來解決這些問題。具體而言,為了解決第i,CLOUD測試使用全群落差異的多變量生態(tài)距離測量來代替單個(gè)物種的單變量測試。

微生物組的比較是高維度的,而降維分析(例如PCoA)可能完全模糊掉離群值。


重要的是測量患者微生物組的一致性(與健康個(gè)體的相似性)和穩(wěn)定性(相對于健康個(gè)體的概況隨時(shí)間的一致性的概況隨時(shí)間的一致性)。與參考微生物組概況相比,測試單個(gè)微生物組概況的一致性是一個(gè)非常重要的問題。健康個(gè)體的微生物組分分布可以占據(jù)高維微生物組空間中的任意密度分布。這些分布可以具有曲率,間隙/簇,多個(gè)模式和長梯度。因此,符合性的典型參數(shù)測量,例如多元正態(tài)分布或馬哈拉諾比斯距離(multivariate normal distributions or
the Mahalanobis distance),不足以捕獲這些復(fù)雜的,任意的和高維的密度分布。另一方面,簡單的基于質(zhì)心的測試(其中測試樣本與正態(tài)分布云的質(zhì)心進(jìn)行比較)也可能會根據(jù)參考云的形狀模糊離群值。


使用生態(tài)距離的微生物組離群值的非參數(shù)檢驗(yàn)

為了解決上述ii點(diǎn),CLOUD測試僅使用生態(tài)距離(UniFrac距離或Bray-Curtis距離)來評估測試點(diǎn)與參考云的相似性,而不是點(diǎn)到整個(gè)分布距離。 程序如下:

  • 對于大小為n的參考群體中的每個(gè)參考對象i = 1 ... n,在參考群體中識別k個(gè)最近鄰近的對象。計(jì)算鄰域的直徑d_i,作為從該主體到k個(gè)鄰居的平均生態(tài)距離。 k通常選擇為參考集總大小的5%。k=n*5\%.

  • 計(jì)算平均鄰域直徑\overlineu0z1t8os

\overlineu0z1t8os =\dfrac{\sum_{i=0}^N d_i}{n}

  • 對于每個(gè)參考對象i = 1 ... n,計(jì)算該對象的鄰域直徑與平均鄰域直徑的比率r_i =\dfrac{d_i}{ \overlineu0z1t8os }
  • 確定參考群體中測試樣本的k個(gè)最近鄰居。 計(jì)算d_j,從測試對象到其k個(gè)最近參考鄰居的平均生態(tài)距離,以及離群檢測測試,該對象的鄰域直徑與參考組中的平均鄰域直徑的比率:r_ j = \dfrac{d_j}{ \overlineu0z1t8os }
  • 計(jì)算測試對象的經(jīng)驗(yàn)離群值百分位數(shù)作為參考離群值檢測的分?jǐn)?shù)大于或等于測試對象的離群值檢測測試。

換句話說,如果一個(gè)人的微生物組與至少少數(shù)其他正常人足夠接近,并且如果它偏離這種關(guān)系就會產(chǎn)生異常,那么它被認(rèn)為是正常的。例如,離群值百分位數(shù)0.05表示測試對象距其最近的k個(gè)參考鄰居更遠(yuǎn),而95%的參考對象來自其最近的k個(gè)參考鄰居。 離群值檢測統(tǒng)計(jì)量r也具有簡單且有用的解釋: 具有離群值檢測測試r = 2的對象的鄰域直徑是參考群體中的平均鄰域直徑的兩倍。

CLOUD測試的一個(gè)重要特征是它僅利用生態(tài)距離空間中的局部距離。這使得它能夠非參數(shù)地考慮健康微生物組的高維度的任意密度分布.較大的k值通常與推定的離群值的數(shù)量增加相關(guān),即使在參考分布中也是如此。 對于下面描述的這個(gè)和其他測試,將k設(shè)置為接近完整數(shù)據(jù)集的大小允許從臨床角度對離群值進(jìn)行最保守的識別。然而,遠(yuǎn)小于受試者總數(shù)的k值允許測試考慮正常微生物組概況中更大的全局變化。因此,k可以被認(rèn)為是高維參考微生物組云的形狀上的平滑參數(shù)。通常,k應(yīng)至少大于參考分布中預(yù)期的離群值的數(shù)量。在我們的標(biāo)準(zhǔn)測試中,我們在測試單個(gè)樣本時(shí)將k設(shè)置為參考樣本總數(shù)的5%,并且在平均每個(gè)主題內(nèi)的樣本之間的距離時(shí)將參考主體總數(shù)的5%.我們還在下面描述的幾個(gè)數(shù)據(jù)集上測試了幾個(gè)k值,對應(yīng)于群組的5-80%的范圍,并且發(fā)現(xiàn)結(jié)果對k的選擇不是特別敏感。

某些高維數(shù)據(jù)設(shè)置K太高的圖形說明可以導(dǎo)致實(shí)際離群值被歸類為正常(假陰性),并且可以導(dǎo)致正常點(diǎn)被分類為離群值(假陽性)。
使用大k逼近N的目的是破壞局部距離度量,這是為了允許測試僅使用生態(tài)距離空間中的局部區(qū)域,并且可以將分布的極值處的正常參考樣本歸類為離群值。
另一方面,如果K太小,那么它對參考組中的細(xì)微變化不具有魯棒性。默認(rèn)情況下,云測試將鄰域大小設(shè)置為參考集大小的5%。

使用k <n的目的是CLOUD測試的關(guān)鍵組成部分,因?yàn)樗试S測試的靈活性相對于參考群體的生態(tài)距離所在的高維流形中的任意形狀.較大的樣本量對于增加功效始終很重要。 更大樣本量有利于CLOUD測試的方式是參考群體的大小n。 整個(gè)參考人群可用于測試任何單個(gè)測試對象以確定它是否是離群值,但使用局部鄰域?qū)τ诒苊馀c基于質(zhì)心的測試相關(guān)的陷阱至關(guān)重要.

為了解決上述iii點(diǎn),我們還在此處介紹了CLOUD穩(wěn)定性測試.與一致性測試一樣,對來自一組測試受試者的每個(gè)測試受試者分別進(jìn)行穩(wěn)定性測試。我們使用自相似性,通過測量受試者在該受試者前一天的1天的生態(tài)距離(例如,未加權(quán)的UniFrac距離)來計(jì)算日常穩(wěn)定性。然后將測試對象的所有日常UNIFRAC自距離的平均值與參考對象的平均每日UniFrac自距離的分布進(jìn)行比較,以獲得與一致性測試相同的經(jīng)驗(yàn)離群值百分位數(shù)。


患者于與志愿者

我們分析了幾個(gè)公布的數(shù)據(jù)集以及來自參考群體的新樣本。這些患者包括來自一個(gè)公布的數(shù)據(jù)集的五名患者,他們患有多重難治性梭狀芽孢桿菌感染(CDI)難治于標(biāo)準(zhǔn)抗生素治療(患者CD1至CD5),并用糞便微生物移植FMT治療。在接受CDFI的五例患者中,四例FMT治愈,1例失敗。十六名健康受試者參加明尼蘇達(dá)大學(xué)微生物群標(biāo)準(zhǔn)獻(xiàn)血員。治療方案也參與了這項(xiàng)研究。先前描述了糞便供體資格的排除和排除標(biāo)準(zhǔn)。簡而言之,除了作為獻(xiàn)血者的資格之外,這些人不服用藥物;無近期(6個(gè)月)抗生素暴露史;無胃腸道,無免疫力,神經(jīng)發(fā)育或精神問題;體重指數(shù)<25 kg/m2;代謝試驗(yàn)正常。明尼蘇達(dá)大學(xué)機(jī)構(gòu)審查委員會(IRB)批準(zhǔn)了糞便樣本的前瞻性收集和分析。

糞便微生物區(qū)系移植(Fecal microbiota transplantation,FMT)

FMT是通過標(biāo)準(zhǔn)化制備濃縮新鮮或冷凍糞便細(xì)菌,如先前描述的結(jié)腸鏡檢查進(jìn)行的。所有患者均口服口服萬古霉素,每日125次,每次四mg,直至術(shù)前2天。
在手術(shù)前一天,患者接受聚乙二醇結(jié)腸鏡檢查(GoyType?或MOVIPREP?),以去除殘留抗生素和糞便材料. 通過結(jié)腸鏡活檢通道將供體糞便微體置于回腸末端和或盲腸。

樣本選擇

使用拭子收集糞便樣品,以在生產(chǎn)后立即獲得糞便沉積到廁帽中。隨后將樣品轉(zhuǎn)移到實(shí)驗(yàn)室,按照先前描述的方法進(jìn)行處理,并在80℃儲存直到使用。從FMT手術(shù)治愈的4例復(fù)發(fā)性CDI患者中,從第2天(前2天)到第151天(151個(gè)FMT)共收集96個(gè)樣本。此外,收集了59例FMT未能治愈的患者FMT后的FMT標(biāo)本。我們還收集了247例健康受試者的糞便樣品,從第1天(收集的第一天)到第75天。

DNA提取、PCR、測序及序列處理與分析
  • 16S rRNA V4 region
  • 97% similarity cut-off against Greengenes
  • analyzed by using unweighted UniFrac, followed by PCoA
  • R version 3.4.0
結(jié)果
解釋CLOUD測試

CLOUD測試提供零假設(shè)的離群值百分位數(shù),即單個(gè)預(yù)定測試對象的微生物組概況來自獨(dú)立參考群體。離群值百分位數(shù)描述了隨機(jī)選擇的健康受試者具有與測試對象一樣大的鄰域大小的概率。離群值百分位數(shù)由參考人口中鄰域大小的經(jīng)驗(yàn)分布確定。參考群體中包括的參考對象組由重復(fù)隨機(jī)采樣獲得。

可以考慮類比,根據(jù)人們參考人群中觀察到身高的分布,將離群值百分位數(shù)分配給一個(gè)人的身高。


如果參考群體中的人的高度是正態(tài)分布的,則可以使用正態(tài)分布來為測試對象分配離群值百分位數(shù)。在假設(shè)參考對象身高遵循具有某些參數(shù)的正態(tài)分布的情況下,該離群值百分位數(shù)將描述參考對象的哪個(gè)部分具有大于或等于測試對象身高。如果這種正態(tài)性假設(shè)對于特定的參考群體是錯(cuò)誤的,并且如果參考群體足夠大以獲得小的離群值百分位數(shù)并且足夠無偏見地代表總參考群體的真實(shí)隨機(jī)抽樣,那么可以改為使用經(jīng)驗(yàn)參考組中身高的分布,以獲得獨(dú)立測試對象的經(jīng)驗(yàn)離群值百分位數(shù)。


以相同的方式,CLOUD測試離群值百分位數(shù)僅僅是參考對象的分?jǐn)?shù),其局部鄰域直徑大于或等于獨(dú)立測試對象的鄰域直徑。

重要的是,我們的測試不是用于識別參考人群中的離群值,盡管我們確實(shí)執(zhí)行了保持交叉驗(yàn)證來評估由來自三個(gè)不同國家的人組成的健康人群中的異常狀態(tài),以證明CLOUD的靈活性測試參考組中的聚類和多變量變化。

有很多已建立的統(tǒng)計(jì)方法,旨在識別給定參考組內(nèi)的離群值。

這些包括用于測試是否存在單個(gè)離群值的Grubbs測試(Grubbs' test for outliers
,用于測試是否存在特定數(shù)量的離群值的Tietjen-Moore測試(TIETJEN-MOORE TEST
),以及用于測試是否存在任何數(shù)字的廣義極端學(xué)生化偏差測試(t.test),低于某個(gè)上限在一組正常分布的參考值中存在的離群值。

與這些測試相反,CLOUD測試假定參考集沒有離群值,而是設(shè)計(jì)用于測試單個(gè)新的獨(dú)立主題是否是基于參考集的離群值。

與前述建立的測試相比,CLOUD測試是多元的,非參數(shù)的,沒有關(guān)于參考值分布的假設(shè),并且基于專門設(shè)計(jì)用于比較群落組成的生態(tài)距離度量。

生態(tài)距離矩陣相對于分類輪廓的維數(shù)

與使用少量主坐標(biāo)分析(PCoA)空間維度的離群值檢測方法相比,CLOUD測試確實(shí)使用了生態(tài)距離矩陣的全部數(shù)據(jù),沒有任何降維操作。

距離度量本身是數(shù)據(jù)從P維空間的變換,其中P是微生物組概況中的分類群的數(shù)量,到“N-1”維空間,其中N是樣本的數(shù)量。

取決于參考群體的大小,P有時(shí)可能基本上大于N,并且距離變換將表示將分類法簡檔嵌入到較低維度空間中。

例如,如果只有100個(gè)樣本的數(shù)據(jù)集中有1000個(gè)類群,那么生態(tài)距離矩陣可能具有比分類子輪廓矩陣更低的秩;

然而,在類群分布矩陣中經(jīng)常有許多類群的相關(guān)組,使得分類單元輪廓矩陣的實(shí)際秩可能小于所觀察到的唯一分類群的數(shù)量。

因此,使用完整生態(tài)距離矩陣的CLOUD測試不一定利用分類單元輪廓空間的全維度,但確實(shí)利用比僅在少量PCoA維度中操作的測試大得多的維度。

應(yīng)用1:健康受試者的一致性測試

為了評估我們的測試鑒定健康個(gè)體的能力,鑒于參考人群差異很大,我們使用兩個(gè)大規(guī)模的微生物組數(shù)據(jù)集來填充健康微生物組的多維景觀。

然后,我們使用保持測試( [hold-out testing](https://zhuanlan.zhihu.com/p/37646822)來評估測試的I型錯(cuò)誤率,將這些參考群體重復(fù)子采樣到單獨(dú)的“參考”和“測試”組中。

什么是保持測試 ? 從100個(gè)例子里硬生生抽出20個(gè)例子把他們晾在一邊,完完全全不參與模型訓(xùn)練。這20個(gè)例子我們稱之為hold-out set。然后剩下80個(gè)例子,等分成4份然后做4次模型訓(xùn)練。每次都用到不同的25% 的測試集(剩下的75%則作為訓(xùn)練集)。 【該方法也稱作k-fold cross validation,本例中,k=4】。最終,在四次訓(xùn)練的基礎(chǔ)上,優(yōu)化參數(shù),取平均值。等模型訓(xùn)練好后,用這個(gè)hold-out set來證明給別人看:我的模型是可以很好地工作在沒有參與模型訓(xùn)練的例子上滴!

首先,我們分析了人類微生物組項(xiàng)目(HMP)的16S rRNA基因數(shù)據(jù)(可變區(qū)V3-V5),包括239名健康受試者

這些數(shù)據(jù)可在https://www.hmpdacc.org/上獲得。 在該數(shù)據(jù)集中,我們使用腸道樣本的子集,不包括來自肥胖患者的樣本,從200個(gè)患者中留下200個(gè)樣本。 HMP DACC網(wǎng)站(https://www.hmpdacc.org/HMMCP/)上提供了完整的元數(shù)據(jù)和注釋協(xié)議。 我們使用200個(gè)糞便樣本的未加權(quán)UniFrac距離矩陣作為生態(tài)距離矩陣。

雖然CLOUD測試旨在將測試對象與獨(dú)立參考組進(jìn)行比較,但我們希望評估參考人群子集相對于其余參考人群的離群值狀態(tài)。

為了達(dá)到這個(gè)結(jié)果,我們隨機(jī)抽取50名受試者作為測試用例,然后對其他150名受試者進(jìn)行二次抽樣,直至100次訓(xùn)練,并重復(fù)該過程30次。

在30個(gè)重復(fù)的過程中,使用這些隨機(jī)選擇的訓(xùn)練集,我們將CLOUD符合性測試應(yīng)用于k的幾個(gè)值(最近鄰居的數(shù)量),從k = 1k =(所有測試群組-1)并且沒有識別任何 受試者作為離群值,除了幾個(gè)隨機(jī)數(shù)據(jù)集中的k的極值,證明了CLOUD檢驗(yàn)對鄰域大小的穩(wěn)健性和低假陽性率

我們還評估了以前發(fā)表的馬拉維農(nóng)村和美國大都市地區(qū)的個(gè)人CLOUD測試。

我們僅包括來自15歲以上受試者的糞便樣本(n = 219)。 我們使用了219個(gè)糞便樣本的未加權(quán)UniFrac距離矩陣。 我們隨機(jī)抽取50名受試者作為測試用例,然后對其他169名受試者進(jìn)行二次抽樣,直至100次訓(xùn)練,并重復(fù)該過程30次。

在30個(gè)重復(fù)的程序中,使用隨機(jī)選擇的訓(xùn)練數(shù)據(jù)集,我們將生態(tài)失調(diào)測試應(yīng)用于k的若干值,如上所述,并且在任何訓(xùn)練/測試子集中沒有發(fā)現(xiàn)離群值。 這證明了CLOUD測試對來自給定參考群體的不同訓(xùn)練集的穩(wěn)健性。 在這里,該測試可以成功地解釋非常高的個(gè)體間差異,因?yàn)閬碜圆煌瑖业氖茉囌呔哂懈叨炔煌奈⑸锝M。

a在CLOUD測試預(yù)測中選擇的最近的健康鄰居數(shù),以查找國際群組中的離群值(HMP數(shù)據(jù)集)。 我們隨機(jī)選擇50名受試者的測試數(shù)據(jù)集,并在200名受試者的完整數(shù)據(jù)集中隨機(jī)選擇100名受試者的訓(xùn)練數(shù)據(jù)集30次。 我們重復(fù)訓(xùn)練數(shù)據(jù)集的隨機(jī)選擇30次。 除了幾個(gè)隨機(jī)訓(xùn)練數(shù)據(jù)集中的k的極值之外,我們沒有識別離群值。 該分析證明了CLOUD測試對鄰域大小的穩(wěn)健性。 垂直條表示訓(xùn)練數(shù)據(jù)集的5%,即測試的默認(rèn)鄰域大小。

b對全球腸道數(shù)據(jù)集進(jìn)行了相同的分析。

c來自Unweighted UniFrac距離的全局腸道數(shù)據(jù)集的主坐標(biāo)圖,證明CLOUD測試對于具有參考組的強(qiáng)聚類效果是穩(wěn)健的

應(yīng)用2:FMT后的微生物組修復(fù)

在人類和小鼠模型中,糞便微生物群移植(FMT)已經(jīng)證明了治愈CDI的高效率,CDI是一種嚴(yán)重且復(fù)發(fā)的感染,發(fā)病率增加。 一些研究報(bào)道,F(xiàn)MT后接受者的糞便微生物組比移植前收集的患者的微生物組更加多樣化并且與供體微生物群落結(jié)構(gòu)更相似。 我們小組最近的一項(xiàng)研究表明,F(xiàn)MT導(dǎo)致細(xì)菌糞便樣品組成從明顯的生理狀態(tài)快速正?;?,成為正常糞便微生物組的一個(gè)代表,成功用FMT治療。 然而,沒有良好的統(tǒng)計(jì)學(xué)測試來確定患者的微生物組相對于健康受試者群體是否已經(jīng)恢復(fù)。 在這里,我們將CLOUD測試應(yīng)用于FMT接受者,并將其與一組健康受試者的一致性進(jìn)行比較。

一致性和成功的FMT

我們應(yīng)用CLOUD測試來評估我們隊(duì)列患者中FMT后成功的微生物組恢復(fù)。 下圖中的結(jié)果繪制了10個(gè)最近的獨(dú)立健康鄰居,顯示在FMT后治愈CDI的患者中非生理性微生物組的明顯恢復(fù),因?yàn)閮山M中未加權(quán)UniFrac距離非常接近(健康受試者) 和成功的FMT)和平均距離之間的差異沒有什么不同。 這也顯示FMT在最終復(fù)發(fā)CDI的患者中恢復(fù)微生物組失敗,因?yàn)檫@兩組之間的距離明顯不同(健康受試者和FMT失敗,離群值百分位數(shù)<0.001)。 這表明CLOUD測試能夠成功區(qū)分FMT最終導(dǎo)致成功的患者。

然后,我們在每個(gè)患者的水平上應(yīng)用CLOUD測試,即將來自單個(gè)患者的所有樣本聚合成單個(gè)平均樣本(FMT的響應(yīng)者和非響應(yīng)者),并且發(fā)現(xiàn)四個(gè)響應(yīng)者患者不被視為離群值, 而對FMT無反應(yīng)的患者被認(rèn)為是離群值。 這種一致性測試對于鄰域大小是穩(wěn)健的,因?yàn)樵黾幼罱莫?dú)立健康鄰居的數(shù)量(從k = 1k = 100)總是顯示健康對照與來自未成功用FMT治療的患者的樣本之間的顯著差異.且健康對照和響應(yīng)FMT的患者的樣品之間沒有區(qū)別。 然而,使用非常大的k(k> 100),一名應(yīng)答者患者被認(rèn)為是離群值(離群值百分位數(shù)<0.05)。 同樣,這說明了只使用生態(tài)距離的局部鄰域是可行的。

a前10個(gè)最近的獨(dú)立健康鄰居。該圖顯示了FMT響應(yīng)者中微生物組的恢復(fù),因?yàn)榻】凳茉囌吆虵MT成功的樣本之間的距離非常相似。這也顯示無應(yīng)答患者中微生物組的恢復(fù)失敗,因?yàn)閬碜允』颊吆徒】凳茉囌叩臉悠分g的距離非常不同。

b接受FMT的患者log10離群值百分位圖。虛線表示0.05的離群值百分位數(shù)。當(dāng)使用k = 5%的人群時(shí),無應(yīng)答者患者被認(rèn)為是離群值。使用大的鄰域大小將1個(gè)響應(yīng)者患者分類為離群值。

c通過隨時(shí)間的自相似性測量的患者穩(wěn)定性。使用Unweighted UniFrac距離繪制一天到相應(yīng)前一天的距離。該圖顯示健康對照和響應(yīng)者患者中兩個(gè)連續(xù)糞便微生物組樣本之間的穩(wěn)定性,而無應(yīng)答者患者在兩個(gè)連續(xù)樣本之間顯示不穩(wěn)定

在其他兩項(xiàng)FMT復(fù)發(fā)CDI研究一致性檢驗(yàn)

我們將CLOUD測試應(yīng)用于描述復(fù)發(fā)性CDI的已發(fā)表數(shù)據(jù)集,該數(shù)據(jù)集探討了FMT糞便供體和受體的糞便微生物群。該數(shù)據(jù)集包括來自供體的10個(gè)樣品,來自接受者的14個(gè)FMT前樣品和來自FMT后樣品的16個(gè)樣品。具體而言,5個(gè)FMT后樣本檢測為伴隨艱難梭菌(Clostridium difficile)陽性,11個(gè)FMT后樣本檢測為陰性。我們使用捐贈者隊(duì)列來定義最近的獨(dú)立健康鄰居。使用Bray-Curtis距離,我們測試了從FMT接收者收集的所有樣本。我們發(fā)現(xiàn),當(dāng)k對應(yīng)于健康供體樣品數(shù)量的5%至40%時(shí),檢測為伴隨艱難梭菌的陽性的FMT后樣品均被CLOUD視為離群值(離群值百分位數(shù)<0.001)。此外,F(xiàn)MT前樣本被認(rèn)為是離群值(離群值百分位數(shù)<0.001),而同時(shí)艱難梭菌(離群值百分位數(shù)= 0.4至0.75)檢測為陰性的FMT后樣本被正確歸類為非離群值。

我們還將CLOUD測試應(yīng)用于另一個(gè)已發(fā)表的糞便數(shù)據(jù)集,該數(shù)據(jù)集描述了來自腸道微生物組的預(yù)測信號與復(fù)發(fā)性CDI的發(fā)展之間的關(guān)系。該數(shù)據(jù)集包括來自供體的10個(gè)樣品,從CDI復(fù)發(fā)的患者收集的11個(gè)受體樣品,以及來自未發(fā)現(xiàn)復(fù)發(fā)的患者的21個(gè)受體樣品,因?yàn)樗鼈儽徽J(rèn)為是非遺傳性和治愈的。我們使用來自相同數(shù)據(jù)集的捐贈者群組來定義最近的獨(dú)立健康鄰居。使用糞便樣本的Bray-Curtis距離矩陣,我們測試了在FMT接收者中收集的所有樣本。與之前的數(shù)據(jù)集一樣,我們發(fā)現(xiàn),當(dāng)k相當(dāng)于健康供體樣本數(shù)量的5%到40%時(shí),來自復(fù)發(fā)患者的樣本被CLOUD視為離群值(離群值百分位數(shù)<0.001),所有前FMT受體樣本(離群值百分位數(shù)<0.001)。相反,來自未復(fù)發(fā)的患者的所有樣本均符合(不考慮離群值,離群值百分位數(shù)= 0.6至0.65)。

FMT數(shù)據(jù)集中的穩(wěn)定性測試

為了評估通過FMT治愈CDI的患者腸道微生物組的穩(wěn)定性,我們獲得了上述CLOUD穩(wěn)定性度量。 我們觀察到健康對照中糞便微生物組在每日時(shí)間過程中以及在FMT手術(shù)后幾天內(nèi)成功應(yīng)答FMT的患者中的高穩(wěn)定性。 相比之下,對FMT沒有反應(yīng)的患者的微生物組在FMT手術(shù)后的不同樣本時(shí)間集合中顯示出生態(tài)失調(diào)和不穩(wěn)定性。 上圖c中的結(jié)果顯示健康對照和成功應(yīng)答FMT的患者的糞便微生物組的連續(xù)每日樣品之間的高穩(wěn)定性,而復(fù)發(fā)的患者在每兩個(gè)連續(xù)樣品之間平均顯示出顯著更高的不穩(wěn)定性,盡管存在不足 具有多個(gè)每日時(shí)間點(diǎn)的獨(dú)立參考受試者的數(shù)量以獲得可靠的離群值百分位數(shù)。

討論

隨著時(shí)間的推移,個(gè)體之間和個(gè)體之間的微生物組組成存在很大差異。已經(jīng)開發(fā)了用于測試疾病狀況是否與特定分類群或整體生態(tài)群落組成相關(guān)或相關(guān)的方法。然而,據(jù)我們所知,基于健康個(gè)體的參考組,在給定時(shí)刻或在給定時(shí)期內(nèi)微生物組譜的變化很大,以前沒有發(fā)表非參數(shù)統(tǒng)計(jì)檢驗(yàn),表明患者的整體微生物組概況是否可以被認(rèn)為是健康的。

在這里,我們通過表征人腸道微生物組來開發(fā)一種從FMT后的生態(tài)狀態(tài)恢復(fù)的測試,該微生物組解釋了在一組健康個(gè)體中觀察到的廣泛的微生物組表型以及個(gè)體內(nèi)的時(shí)間變化。這種穩(wěn)健的非參數(shù)測試基于當(dāng)?shù)厣鷳B(tài)距離,可用于識別具有微生物組的受試者,所述微生物組在一致性或隨時(shí)間穩(wěn)定性方面顯著異常。我們的測試進(jìn)一步允許無監(jiān)督檢測微生物組離群值。我們已在三個(gè)臨床數(shù)據(jù)集中驗(yàn)證了生態(tài)失調(diào)試驗(yàn),以顯示生態(tài)失調(diào)試驗(yàn)與艱難梭菌感染復(fù)發(fā)的臨床結(jié)果的一致性。我們還證明,隨著時(shí)間的推移,受試者的微生物組云內(nèi)的局部穩(wěn)定性分析提供了經(jīng)歷成功和不成功的FMT程序的患者的強(qiáng)烈分離,其中失敗的程序(定義為晚期CDI復(fù)發(fā)的存在)導(dǎo)致患者微生物組明顯不太穩(wěn)定。

由于三個(gè)原因,這種無監(jiān)督的微生物組分析中的符合性和穩(wěn)定性離群值的識別特別具有挑戰(zhàn)性,我們已經(jīng)在我們的方法中解決了如下問題。

首先,人類微生物群是高度多元的,每個(gè)個(gè)體中包含成百上千種不同的物種。我們的生物障礙測試使用生態(tài)學(xué)和系統(tǒng)發(fā)育的完整微生物群落距離度量,如UNIFRAC(用于操作分類單位或OTU)或Bray Curtis(物種級分類),以評估兩個(gè)個(gè)體內(nèi)的物種或OTU混合物的散度水平,而不是關(guān)注微生物群中的任何個(gè)體成員。

第二,健康的人類腸道微生物群有許多不同的分類學(xué)結(jié)構(gòu)。兩個(gè)人可以有幾乎完全不同的細(xì)菌集合,但仍然可以被認(rèn)為是健康的。我們的方法只使用生態(tài)距離。我們評估測試對象的生態(tài)鄰近度與該對象最近的健康鄰居,以確定測試對象的“個(gè)人微生物群落云”的一致性。然后,我們比較云的接近所有健康的人的云,以確定測試對象是否足夠接近至少其他一些健康的人,以被認(rèn)為是健康的。只依賴于局部生態(tài)距離允許靈活性來解釋任意尺寸和密度分布的高維集的個(gè)人微粒體云團(tuán)的健康個(gè)體。

第三,個(gè)體的微生物組可以每天大幅變化。我們計(jì)算上面的鄰域大小不是基于來自每個(gè)主題的單個(gè)時(shí)間點(diǎn),而是基于多個(gè)時(shí)間點(diǎn)的平均值來計(jì)算主題的微生物組云一致性的時(shí)間變化。此外,我們建議對受試者個(gè)體微生物組云的直徑進(jìn)行單獨(dú)測試,并將其與參考或健康受試者的微生物組云的直徑分布進(jìn)行比較,以評估穩(wěn)定性。

第四,在研究中難以以完全相同的方式收集和儲存所有樣品,特別是在縱向研究中,在最終時(shí)間點(diǎn)收集的樣品在DNA提取之前在冷凍儲存中花費(fèi)的時(shí)間少于在其他時(shí)間收集的樣品。在小鼠研究中,籠養(yǎng)和動物批次效應(yīng)也會引入系統(tǒng)性偏差。 CLOUD測試可能是一種有用的方法,用于檢測研究中的離群值,其中有問題的數(shù)據(jù)與樣本收集或保存錯(cuò)誤相關(guān)。

CLOUD測試有幾個(gè)值得注意的限制。 該方法的關(guān)鍵組成部分是所使用的距離度量的選擇,因?yàn)椴煌木嚯x假定了不同的生態(tài)相似性模型。 在這里,我們使用Unweighted UniFrac距離度量,因?yàn)槲覀兎治?6S數(shù)據(jù),UniFrac距離是這種情況下的有效距離度量。 然而,其他生態(tài)距離可能適合某些研究,事實(shí)上,我們發(fā)現(xiàn)Bray-Curtis在CLOUD測試中很好地區(qū)分了兩個(gè)復(fù)發(fā)CDI數(shù)據(jù)集中的恢復(fù)和非恢復(fù)。 CLOUD測試還要求正確選擇參考集以表示高維參考微生物組景觀的充分變化,并且以與參考樣品相同的方式收集和分析測試樣品。

結(jié)論

隨著醫(yī)學(xué)微生物組研究領(lǐng)域越來越接近從流行病學(xué)調(diào)查到臨床應(yīng)用的轉(zhuǎn)化,臨床醫(yī)生需要一種可靠的測量方法,可以確定微生物組是否與參考人群中的微生物組在統(tǒng)計(jì)學(xué)上相似。該測量必須考慮微生物組的高維度,高個(gè)體間可變性和高縱向可變性。 CLOUD測試旨在解釋這些限制因素,可用于將患者的微生物組與參考人群進(jìn)行比較,以確定其在一致性或穩(wěn)定性方面是否顯著異?;蚴巧懋惓!T摐y試依賴于具有健康個(gè)體的相關(guān)參考群組,但由于其依賴于本地距離而對于從數(shù)據(jù)庫中添加或去除高度不一致的樣本也是完全不變的。檢測與整合或穩(wěn)定性相關(guān)的生態(tài)失調(diào)的能力可以作為在兒科或成人臨床實(shí)踐中與微生物組功能改變相關(guān)的各種醫(yī)學(xué)病癥中的診斷工具。

文章中大牛給出了計(jì)算離群值百分位數(shù)的R函數(shù),只要輸入一個(gè)距離矩陣就可以啦:

# inputs a distance matrix
# returns piecewise distances of samples and their outlier percentile
# and a matrix of the repeated measures of distances  
# k is number of neighbors choosen


"piecewise_kn_V1" <- function(d, test.ix, k=X, ndim=-1){ 
  if(class(d) != 'matrix') d <- as.matrix(d) 
  stats <- numeric(length(test.ix))
  pvals <- numeric(length(test.ix))  
  for(i in 1:length(test.ix)){
    ref.ix <- test.ix[-i]
    keep.ix <- c(test.ix[i], ref.ix)
    if(ndim > -1){
      pc <- cmdscale(d[keep.ix,keep.ix,drop=F],k=ndim)
      d.i <- as.matrix(dist(pc))
    } else {
      d.i <- d[keep.ix,keep.ix,drop=F]
    }
    test.dist <- mean(sort(d.i[1,-1])[1:k])
    ref.dists <- numeric(length(ref.ix))
    for(j in 1:length(ref.ix)){
      ref.dists[j] <- mean(sort(d.i[-1,-1][j,-j]))
    }
    
    stats[i] <- test.dist / mean(ref.dists)
    pvals[i] <- mean(test.dist < ref.dists)
  }
  result <- list()
  result$stats <- stats
  result$pvals <- pvals
  outcome <- pvals <= 0.05
  result$lenght <- length(outcome[outcome==TRUE]) 
  return(result) 
}

CLOUD: a non-parametric detection test for microbiome outliers
機(jī)器學(xué)習(xí)降維算法三:LLE (Locally Linear Embedding) 局部線性嵌入
Emmanuel Montassier
Dan Knights
Grubbs' test for outliers
一個(gè)Outlier的江湖 -- 經(jīng)典統(tǒng)計(jì)觀
離群值!離群值?離群值!
分辨真假數(shù)據(jù)科學(xué)家的20個(gè)問題及回答
TIETJEN-MOORE TEST
機(jī)器學(xué)習(xí)中testing和hold-out的區(qū)別【為什么要分出一個(gè)hold-out】
103.3.4 Box Plots and Outlier Detection
Outliers: Finding Them in Data, Formula, Examples. Easy Steps


最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容