序
受《Host-independent synergism between?Lactobacillus crispatus?and other vaginal lactobacilli》的啟發(fā),使用MEMOTE進(jìn)行合成菌群的評(píng)估。
該文使用MEMOTE開展模型評(píng)價(jià)是為了驗(yàn)證自己的發(fā)現(xiàn)的魯棒性,操作分為如下步驟:
1.下載數(shù)據(jù)庫(kù)中已發(fā)表的同種/屬菌株基因組,進(jìn)行基因組比較分析,獲取該種/屬的核心基因組
2.使用carveme,基于核心基因組構(gòu)建代謝模型,查看該軟件的運(yùn)行結(jié)果https://sv.insysbio.com/online/
3.使用MEMOTE評(píng)價(jià)構(gòu)建的代謝模型
以上方法適合文章分析的主要目的,但是未必適合每個(gè)研究者。
在我們的研究中,配比的菌株有已經(jīng)明確菌株基因組,故而可以跳過上述步驟1,直接評(píng)價(jià)搭配菌株的代謝模型。

MEMOTE發(fā)表的原文標(biāo)題:【MEMOTE for standardized genome-scale metabolic model testing】,翻譯如下:
不兼容的描述格式與缺失的注釋信息?,限制了基因組規(guī)模代謝模型(GEMs)的重復(fù)利用。此外,在單一生物量目標(biāo)函數(shù)中,數(shù)值誤差? 以及關(guān)鍵輔因子的遺漏?,都可能對(duì)模型的預(yù)測(cè)性能產(chǎn)生顯著影響。而如果未能對(duì)通量循環(huán)(flux cycles)和物質(zhì)不平衡(imbanlance)問題進(jìn)行校驗(yàn),則會(huì)導(dǎo)致模型的預(yù)測(cè)結(jié)果失去可信度?。
每年都有越來(lái)越多人工校正和自動(dòng)生成的基因組規(guī)模代謝模型(GEMs)發(fā)表,其中也包括人類及癌癥組織相關(guān)的模型?。我們認(rèn)為,優(yōu)化基因組規(guī)模代謝模型的可重復(fù)性與可復(fù)用性至關(guān)重要。研究人員需要的模型應(yīng)具備以下特性:
1.與軟件無(wú)關(guān)(software-agnostic),且模型各組件配有標(biāo)準(zhǔn)化、不依賴特定數(shù)據(jù)庫(kù)的標(biāo)識(shí)符;
2.模型的默認(rèn)條件與數(shù)學(xué)表達(dá)形式必須被精確定義,以實(shí)現(xiàn)原始模型預(yù)測(cè)結(jié)果的復(fù)現(xiàn);
3.模型需能在不同條件下輸出具有生物學(xué)可行性(feasible phenotypes)的表型;
4.用于構(gòu)建模型的所有數(shù)據(jù),都必須以可復(fù)用的格式對(duì)外公開。
我們可采用雙重策略來(lái)提升基因組規(guī)模代謝模型(GEMs)的可復(fù)用性與可重復(fù)性。
其一,我們倡議將系統(tǒng)生物學(xué)標(biāo)記語(yǔ)言第三版通量平衡約束拓展包(SBML3FBC)? 作為模型的主要描述與交換格式。該拓展包能夠?yàn)橥可舷孪蓿╢lux bounds)、多線性目標(biāo)函數(shù)(multiple linear objective functions)、基因-蛋白-反應(yīng)(GPR)關(guān)聯(lián)規(guī)則、代謝物化學(xué)式(metabolite chemical formulas)、電荷屬性(charge)及相關(guān)注釋(annotations)等領(lǐng)域?qū)俚哪P徒M件,提供結(jié)構(gòu)化、語(yǔ)義明確的描述。SBML拓展包由系統(tǒng)生物學(xué)標(biāo)記語(yǔ)言(SBML)社區(qū)與基于約束的建模社區(qū)共同研發(fā),并會(huì)根據(jù)用戶反饋持續(xù)更新。目前,它已被眾多基于約束的建模軟件及公共模型數(shù)據(jù)庫(kù)所采用(詳見網(wǎng)址 http://cbmpy.sourceforge.net/ 及參考文獻(xiàn) 10–15),因此,該拓展包理應(yīng)被視為基因組規(guī)模代謝模型編碼的行業(yè)標(biāo)準(zhǔn)。
其二,我們推出了一款開源Python軟件 ——MEMOTE(國(guó)際音標(biāo)標(biāo)注為 /?mi?mo?t/)。該軟件采用統(tǒng)一化方案,既能保障 SBML3FBC 格式的形式化定義準(zhǔn)確性,又能借助軟件開發(fā)領(lǐng)域已成熟應(yīng)用的工具與最佳實(shí)踐,為代謝模型提供質(zhì)量控制與持續(xù)性質(zhì)量保障 1???。MEMOTE 支持將以 SBML3FBC 格式及舊版格式編碼的化學(xué)計(jì)量模型作為輸入。除了可執(zhí)行與 SBML 驗(yàn)證器 1?功能類似的結(jié)構(gòu)驗(yàn)證外,該軟件還基于四大通用領(lǐng)域的一致性測(cè)試對(duì)代謝模型進(jìn)行基準(zhǔn)評(píng)估,這四大領(lǐng)域分別是:注釋信息(annotation)、基礎(chǔ)測(cè)試(basic tests)、生物量反應(yīng)(biomass reaction)及化學(xué)計(jì)量學(xué)(stoichiometry)。
注釋測(cè)試的作用是檢驗(yàn)?zāi)P褪欠褡裱鐓^(qū)標(biāo)準(zhǔn)完成注釋,具體包含三項(xiàng)核心要求:
1.注釋需帶有符合模型注釋最小信息標(biāo)準(zhǔn)(MIRIAM) 的交叉引用 1?;
2.所有主標(biāo)識(shí)符必須歸屬于同一命名空間,而非分散在多個(gè)命名空間中;
3.模型各組件需采用系統(tǒng)生物學(xué)本體(SBO)術(shù)語(yǔ)進(jìn)行描述 2?。
缺乏清晰、標(biāo)準(zhǔn)化的注釋,會(huì)增加基因組規(guī)模代謝模型(GEMs)的使用、對(duì)比與拓展難度,進(jìn)而嚴(yán)重阻礙相關(guān)研究的協(xié)作推進(jìn) 3??。
基礎(chǔ)測(cè)試用于檢驗(yàn)模型的形式化定義準(zhǔn)確性,同時(shí)核驗(yàn)代謝物、亞細(xì)胞區(qū)室(compartments)、反應(yīng)及基因等核心組件是否完整存在。
這類測(cè)試還會(huì)對(duì)代謝物化學(xué)式、電荷信息以及基因-蛋白-反應(yīng)(GPR)關(guān)聯(lián)規(guī)則進(jìn)行校驗(yàn)。此外,基礎(chǔ)測(cè)試也涵蓋各類通用質(zhì)量指標(biāo)的檢測(cè),例如用于表征模型完整性的代謝覆蓋度—— 該指標(biāo)由反應(yīng)數(shù)量與基因數(shù)量的比值計(jì)算得出 21。
該類測(cè)試針對(duì)模型開展以下幾項(xiàng)核查:不同條件下生物量前體(biomass precursors)的合成能力、生物量的一致性(biomass consistency)、非零生長(zhǎng)速率(nonzero growth rate),以及直接前體(direct precursors)的供給狀態(tài)。
生物量反應(yīng)(biomass reaction)基于所建模生物的生物量組成構(gòu)建,其作用是表征該生物在計(jì)算機(jī)模擬環(huán)境下,合成細(xì)胞生長(zhǎng)與維持所需前體物質(zhì)的能力。因此,一個(gè)全面且構(gòu)建規(guī)范的生物量反應(yīng),對(duì)于基因組規(guī)模代謝模型(GEMs)實(shí)現(xiàn)精準(zhǔn)預(yù)測(cè)至關(guān)重要?。
MEMOTE可識(shí)別出化學(xué)計(jì)量不守恒(Stoichiometric inconsistency)、能量代謝物(energy metabolites )的錯(cuò)誤生成? 以及永久性阻斷反應(yīng)(permanently blocked reactions)這三類問題。化學(xué)計(jì)量的誤差,可能會(huì)導(dǎo)致模型出現(xiàn)憑空生成三磷酸腺苷(ATP)或氧化還原輔因子的情況 2,這會(huì)對(duì)模型在通量分析(flux based analysis)中的表現(xiàn)產(chǎn)生不利影響?。
MEMOTE支持對(duì)任意兩個(gè)給定模型進(jìn)行快速對(duì)比,在該過程中,各項(xiàng)測(cè)試結(jié)果會(huì)被量化整合,最終計(jì)算出一個(gè)綜合評(píng)分(詳見補(bǔ)充說明 1)。除了這些通用一致性測(cè)試外,研究人員還能向 MEMOTE 導(dǎo)入多種格式(.csv、.tsv、.xls 或 .xlsx)的實(shí)驗(yàn)數(shù)據(jù),這些數(shù)據(jù)可來(lái)源于生長(zhǎng)實(shí)驗(yàn)與基因擾動(dòng)研究。為保障研究的可重復(fù)性,研究人員可對(duì) MEMOTE 進(jìn)行配置,使其識(shí)別特定數(shù)據(jù)類型,并將這些數(shù)據(jù)作為預(yù)設(shè)實(shí)驗(yàn)測(cè)試的輸入,用于模型驗(yàn)證(詳見補(bǔ)充說明 2)。
MEMOTE設(shè)有兩種核心工作流程(見圖 1a 及補(bǔ)充圖 1-3):
用于同行評(píng)審的流程:MEMOTE可生成兩種報(bào)告 ——“快照?qǐng)?bào)告” 用于展示單個(gè)模型的測(cè)試結(jié)果,“差異報(bào)告” 則用于呈現(xiàn)多個(gè)模型的對(duì)比測(cè)試結(jié)果。
用于模型重建的流程:MEMOTE能幫助用戶為模型創(chuàng)建一個(gè)版本控制倉(cāng)庫(kù),并啟用持續(xù)集成功能,進(jìn)而生成一份 “歷史報(bào)告”,記錄模型每一次有跡可循的編輯操作對(duì)應(yīng)的測(cè)試結(jié)果。
盡管模型倉(cāng)庫(kù)支持離線使用,但我們?nèi)越ㄗh借助分布式版本控制開發(fā)平臺(tái)開展社區(qū)協(xié)作,例如GitHub、GitLab以及 BioModels12。MEMOTE 與 GitHub 深度集成,在 MEMOTE 中生成并完成版本管理的模型,可便捷上傳至 GitLab 和 BioModels 平臺(tái)。以 MEMOTE 作為基準(zhǔn)工具的協(xié)作式模型重建工作,可在上述三個(gè)軟件平臺(tái)上同步開展(見圖 1b)
我們利用7個(gè)基因組規(guī)模代謝模型(GEM)數(shù)據(jù)集中的模型,對(duì) MEMOTE 的有效性進(jìn)行了驗(yàn)證(見圖 2、補(bǔ)充表 1 及補(bǔ)充方法)。這些數(shù)據(jù)集包含人工重建和(半)自動(dòng)重建的模型[ manually and (semi)-automatically reconstructed GEMs],共計(jì)10780個(gè)。多數(shù) GEM 數(shù)據(jù)集均已提供 SBML 格式的模型文件。
我們采用t分布隨機(jī)鄰域嵌入(t-SNE)算法,對(duì)標(biāo)準(zhǔn)化后的測(cè)試結(jié)果進(jìn)行非線性降維分析(詳見補(bǔ)充方法),結(jié)果顯示(見圖 2a):同一來(lái)源的模型彼此間相似度通常高于不同來(lái)源的模型。不過,部分模型來(lái)源內(nèi)部也呈現(xiàn)出了亞分組的特征(見圖2a)。除Path2Models數(shù)據(jù)集 22 外 —— 該數(shù)據(jù)集依賴的通路數(shù)據(jù)庫(kù)存在反應(yīng)化學(xué)計(jì)量比與反應(yīng)方向性的錯(cuò)誤信息 23—— 其余自動(dòng)重建的 GEM 模型均滿足化學(xué)計(jì)量守恒(見圖 2b)和質(zhì)量平衡的要求(詳見補(bǔ)充圖 4)。在我們測(cè)試的人工重建模型中,BiGG數(shù)據(jù)集 13 的大部分模型符合化學(xué)計(jì)量守恒,但已發(fā)表模型之間的差異顯著:約 70% 的模型至少存在一種化學(xué)計(jì)量不平衡的代謝物?;瘜W(xué)計(jì)量不守恒的模型必然無(wú)法實(shí)現(xiàn)質(zhì)量平衡,而用于計(jì)算分子質(zhì)量的化學(xué)式注釋缺失,會(huì)進(jìn)一步導(dǎo)致更多反應(yīng)被判定為不平衡反應(yīng)。我們?cè)谝寻l(fā)表模型中發(fā)現(xiàn)的上述問題,印證了在 GEM 模型的同行評(píng)審階段(理想情況下在投稿前)應(yīng)用 MEMOTE 進(jìn)行質(zhì)量檢測(cè)的必要性。
在GEM模型的重建過程中,代謝反應(yīng)基于基因功能注釋信息來(lái)定義,相關(guān)內(nèi)容會(huì)以基因 - 蛋白 - 反應(yīng)(GPR)關(guān)聯(lián)規(guī)則的形式輸出。我們發(fā)現(xiàn),在被測(cè)模型中,約 15% 的反應(yīng)未標(biāo)注 GPR 關(guān)聯(lián)規(guī)則(見圖 2c);部分已發(fā)表模型亞組中,無(wú) GPR 關(guān)聯(lián)規(guī)則的反應(yīng)占比甚至高達(dá) 85%。造成這一現(xiàn)象的原因可能包括:模型中存在大量建模專屬反應(yīng)(modeling-specific reactions)、自發(fā)反應(yīng)(spontaneous reactions)2?,或是部分已知反應(yīng)的對(duì)應(yīng)功能基因尚未被發(fā)現(xiàn),也可能是 GPR 關(guān)聯(lián)規(guī)則的注釋方式不符合標(biāo)準(zhǔn)。
CarveMe數(shù)據(jù)集 2?與Path2Models數(shù)據(jù)集 22 中,全局阻斷反應(yīng)( universally blocked reactions)的占比極低;而AGORA數(shù)據(jù)集 2?與KBase數(shù)據(jù)集 1?的模型中,該類反應(yīng)占比約為 30%;BiGG數(shù)據(jù)集 13 與OptFlux數(shù)據(jù)集 1?的模型中,該類反應(yīng)占比約為 20%(見圖 2d)。類似地,孤立代謝物與末端代謝物(orphan and dead-end metabolites)在所有已發(fā)表的數(shù)據(jù)集模型中也普遍存在(詳見補(bǔ)充圖5、圖 6)。需要說明的是,阻斷反應(yīng)與末端代謝物的存在并非判定模型質(zhì)量低下的直接依據(jù),但當(dāng)全局阻斷反應(yīng)的占比過高時(shí)(例如超過 50%),則可能意味著模型重建過程中存在需要解決的問題。
AGORA、KBase 和 BiGG 是僅有的三個(gè)具備符合 SBML 標(biāo)準(zhǔn)的代謝物及反應(yīng)注釋的數(shù)據(jù)集。僅在 KBase 數(shù)據(jù)集的模型和經(jīng)篩選的 BiGG 數(shù)據(jù)集模型中,存在基因注釋信息(詳見補(bǔ)充圖片7-9)。
每個(gè)數(shù)據(jù)集都為模型的各類組件采用了專屬的標(biāo)識(shí)符體系,不過這三個(gè)數(shù)據(jù)集的標(biāo)識(shí)符之間存在一定的重疊(詳見補(bǔ)充圖10)。具體來(lái)看,KBase 與 BiGG 數(shù)據(jù)集的模型標(biāo)識(shí)符存在部分重疊(詳見補(bǔ)充圖 12–16),AGORA 與 BiGG 數(shù)據(jù)集的模型標(biāo)識(shí)符也存在部分重疊(詳見補(bǔ)充圖 17–18),但KBase 與 AGORA 數(shù)據(jù)集的模型標(biāo)識(shí)符則無(wú)重疊。只有BiGG數(shù)據(jù)集使用MetaNetX注釋(補(bǔ)充圖片19)。MetaNetX 數(shù)據(jù)庫(kù)通過構(gòu)建一套專屬的唯一標(biāo)識(shí)符,建立起不同生化數(shù)據(jù)庫(kù)命名空間之間的映射關(guān)系,以此實(shí)現(xiàn)命名空間的整合。因此,只要獲取某一代謝實(shí)體對(duì)應(yīng)的 MetaNetX 標(biāo)識(shí)符,往往就能同時(shí)查詢到該實(shí)體在其他數(shù)據(jù)庫(kù)中的對(duì)應(yīng)標(biāo)識(shí)符(詳見補(bǔ)充方法)。
MEMOTE測(cè)試涵蓋兩類核心要求:一類是語(yǔ)義層面的要求,這類要求是 SBML3FBC 格式的基礎(chǔ);另一類是概念層面的要求,這類要求則是基于約束的建模方法的核心。該測(cè)試工具具備可擴(kuò)展性,能夠結(jié)合實(shí)驗(yàn)數(shù)據(jù)對(duì)模型的性能進(jìn)行驗(yàn)證;同時(shí),它既可以作為獨(dú)立工具運(yùn)行,也能整合到現(xiàn)有的模型重建流程中使用。MEMOTE 借助現(xiàn)代軟件開發(fā)領(lǐng)域已趨成熟的可靠工作流程,為研究社區(qū)提供了可量化的評(píng)估指標(biāo),以此支撐相關(guān)研究開展,同時(shí)促進(jìn)科研人員對(duì)模型的假設(shè)前提與局限性展開公開討論,進(jìn)而推動(dòng)研究的開放性與協(xié)作性。
一套既定的代謝模型測(cè)試方案的應(yīng)用,并不依賴于MEMOTE的搭載部署;對(duì)于部分用戶而言,為了優(yōu)化使用體驗(yàn),單獨(dú)部署各項(xiàng)測(cè)試或許是更理想的選擇。
我們提出,構(gòu)建一個(gè)獨(dú)立的中心化測(cè)試程序庫(kù),并配套相應(yīng)的運(yùn)行工具,能夠?yàn)槟P唾|(zhì)量控制提供一套無(wú)偏倚的解決方案—— 原因在于這些測(cè)試程序會(huì)由社區(qū)成員持續(xù)進(jìn)行審核完善。該資源將由 openCOBRA 聯(lián)盟在 Nikolaus Sonnenschein 的牽頭管理下長(zhǎng)期維護(hù)。
為推動(dòng)工具的集成復(fù)用、避免重復(fù)開發(fā),MEMOTE不僅提供了 Python 應(yīng)用程序編程接口(API),還支持以網(wǎng)絡(luò)服務(wù)的形式部署使用。目前,MEMOTE 已被整合到多個(gè)服務(wù)與工具中(詳見補(bǔ)充說明 3)。關(guān)于 MEMOTE 的替代方案與未來(lái)發(fā)展方向,我們分別在補(bǔ)充說明 4 和補(bǔ)充說明 5 中進(jìn)行了探討。
我們建議MEMOTE用戶主動(dòng)聯(lián)系基因組規(guī)模代謝模型(GEM)的開發(fā)者,反饋模型中發(fā)現(xiàn)的各類錯(cuò)誤,進(jìn)而推動(dòng)模型作為科研資源的社區(qū)化完善。使用不一致的 GEM 開展假說推導(dǎo),可能會(huì)使研究誤入歧途。因此,在測(cè)試權(quán)重設(shè)計(jì)上,我們將化學(xué)計(jì)量守恒性與系統(tǒng)生物學(xué)本體(SBO)術(shù)語(yǔ)標(biāo)注的重要性,設(shè)定為高于代謝物、反應(yīng)及基因注釋相關(guān)測(cè)試。
我們承諾將持續(xù)保持MEMOTE的開源屬性,以此踐行社區(qū)協(xié)作的理念。可靠的模型基準(zhǔn)測(cè)試體系,離不開整個(gè)科研社區(qū)的積極支持。在此,我們誠(chéng)邀所有相關(guān)領(lǐng)域的專家加入這項(xiàng)工作,助力 MEMOTE 不斷迭代優(yōu)化。