STENSL:使用公共數(shù)據(jù)進(jìn)行微生物溯源與環(huán)境選擇

feast團(tuán)隊(duì)的小幅更新之作,比較可惜的是由于發(fā)表的雜志影響不大,迄今引用只有個(gè)位數(shù),相信這好酒香一定會(huì)飄出深巷子的。
微生物源追蹤分析已成為一種廣泛的技術(shù),用于表征復(fù)雜微生物群落的特性。但是,此分析目前僅限于在特定研究中采樣的源環(huán)境。為了將范圍擴(kuò)大到單一研究之外,并允許使用大型數(shù)據(jù)庫(kù)和存儲(chǔ)庫(kù)(例如地球微生物組項(xiàng)目)探索源環(huán)境,需要一個(gè)源選擇程序。當(dāng)考慮的潛在來(lái)源數(shù)量眾多時(shí),這種程序?qū)⒃试S區(qū)分促成環(huán)境和令人討厭的環(huán)境。在這里,我們介紹了 STENSL(microbial source Tracking with ENvironment SeLection),這是一種機(jī)器學(xué)習(xí)方法,通過(guò)執(zhí)行無(wú)監(jiān)督源選擇和實(shí)現(xiàn)對(duì)潛在源環(huán)境的稀疏識(shí)別來(lái)擴(kuò)展常見(jiàn)的微生物源跟蹤分析。通過(guò)將稀疏性納入潛在源環(huán)境的估計(jì)中,STENSL提高了真實(shí)源貢獻(xiàn)的準(zhǔn)確性,同時(shí)顯著減少了非貢獻(xiàn)源引入的噪聲。因此,我們預(yù)計(jì),源選擇將增強(qiáng)微生物源追蹤分析,從而能夠從公開(kāi)可用的存儲(chǔ)庫(kù)中探索多個(gè)源環(huán)境,同時(shí)保持統(tǒng)計(jì)推斷的高精度。

算法概述

模擬數(shù)據(jù)測(cè)試

使用模擬數(shù)據(jù)將 STENSL 與 FEAST、SourceTracker2 和 RAD 的準(zhǔn)確性進(jìn)行比較,發(fā)現(xiàn)STENSL是唯一能夠一致地估計(jì)真實(shí)來(lái)源貢獻(xiàn)水平的方法,在高達(dá)90%的正未知貢獻(xiàn)中,均方誤差(MSE)顯著降低。

模型數(shù)據(jù)測(cè)試

從三名人類(lèi)受試者和三名小鼠受試者的消化系統(tǒng)獲得的微生物樣本的混合物,組裝了 24 個(gè)體外Sink,每個(gè)Sink由兩到三個(gè)不同混合比例的微生物樣品組成。在對(duì)這組貢獻(xiàn)源和匯進(jìn)行微生物源跟蹤分析時(shí),我們添加了一組 50 個(gè)額外的非貢獻(xiàn)源。使用STENSL 與 FEAST、SourceTracker2 和 RAD 的準(zhǔn)確性進(jìn)行比較。與我們的仿真結(jié)果類(lèi)似,我們發(fā)現(xiàn)在真實(shí)數(shù)據(jù)中,STENSL的準(zhǔn)確度明顯高于其他方法

人類(lèi)微生物組計(jì)劃樣本的源選擇

使用唾液微生物組樣本,包含舌頭、上顎和頰粘膜在內(nèi)的幾種口腔獲取樣本,候選來(lái)源定義為來(lái)自唾液樣本的焦點(diǎn)受試者的所有微生物組樣本(不包括唾液),以及來(lái)自88個(gè)個(gè)體的15個(gè)身體部位的所有其他可用微生物樣本。使用STENSL 與 FEAST、SourceTracker2 和 RAD 的準(zhǔn)確性進(jìn)行比較。


結(jié)果STENSL將總共43.1%歸因于屬于采集水槽的焦點(diǎn)受試者的其他口腔微生物組樣本(17.2%來(lái)自口腔粘膜,15.3%來(lái)自舌背,10.6%來(lái)自喉嚨),而SourceTracker2僅將4.9%歸因于屬于采集水槽的重點(diǎn)受試者的其他口腔微生物組樣本(3.6%來(lái)自口腔粘膜, 0.6%來(lái)自舌背,0.7%來(lái)自喉嚨)。此外,STENSL估計(jì)有26%的未知貢獻(xiàn),而估計(jì)來(lái)自其他個(gè)體的大多數(shù)非貢獻(xiàn)來(lái)源的貢獻(xiàn)為零。
總之,STENSL通過(guò)最小化有害源(無(wú)貢獻(xiàn)煩的)的貢獻(xiàn)并突出實(shí)際的貢獻(xiàn)源,與可比方法相比,顯著提高了微生物源追蹤分析的準(zhǔn)確性。通過(guò)執(zhí)行對(duì)數(shù)百個(gè)有害源存在的魯棒性源選擇,STENSL可以使用公開(kāi)可用的存儲(chǔ)庫(kù)進(jìn)行有效的源探索,從而增強(qiáng)微生物源追蹤分析。
軟件使用
由于是feast團(tuán)隊(duì)的更新,用法和feast一致啦,這種左右手互搏,自己打敗自己的方法,值得尊敬呀!
不過(guò)仔細(xì)看了下,這個(gè)提交一直沒(méi)合并到主分支上,不確定為什么呢?

STENSL_example.R

feast.result = FEAST(
    C=as.matrix(otus),
    metadata=meta,
    EM_iterations=MAX_ITERS,
    COVERAGE=COVERAGE_DEPTH,
    different_sources_flag=0,
)

stensl.result <- STENSL(
    C=as.matrix(otus),
    metadata=meta,
    EM_iterations=MAX_ITERS,
    COVERAGE=COVERAGE_DEPTH,
    l.range=c(0.1,1,10)
)

歡迎交流你的想法!

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀(guān)點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容