Introduction
天然產(chǎn)物(natural product,NP)是指生物體內(nèi)的組成成分或其代謝產(chǎn)物,具有廣泛的應(yīng)用價值。
其中,來源于微生物的次級代謝產(chǎn)物,在生物醫(yī)學(xué)、工業(yè)和農(nóng)業(yè)中扮演著重要角色[1]。
生物合成基因簇(biosynthetic gene cluster,BGC) 是一類非常重要的基因集合類型。
一個BGC通常包含數(shù)個到上百個功能基因,共同產(chǎn)生一個或者若干個小分子代謝物。
- 從序列上來說,一個BGC所囊括的基因一般在染色體上成簇排列。例如,青霉素的合成由三個基因控制,分別是pcbAB、pcbC和penDE,這三個基因位于同一條染色體上。
- 從功能上來說,一個BGC所囊括的基因通常共同產(chǎn)生一個或者若干個小分子化合物。次生代謝產(chǎn)物(secondary metabolites,SM)是BGC合成的主要產(chǎn)物,大部分具有生物活性,通常是低分子量的化合物,在生長和發(fā)育的特定階段產(chǎn)生。例如,抗生素,翻譯后修飾核糖體多肽(RiPP,核糖體合成,經(jīng)由翻譯后修飾得到的一大類天然產(chǎn)物)。

生物合成基因簇(BGCs)可以根據(jù)它們所編碼產(chǎn)生的次級代謝物類型來分類[2]。以下是一些主要類型:
-
聚酮類合成酶基因簇(Polyketide Synthases, PKSs):
- 這類基因簇負責(zé)產(chǎn)生大量的聚酮類化合物,這些化合物通常具有抗生素、抗癌或其他生物活性。
-
非核糖體肽合成酶基因簇(Nonribosomal Peptide Synthetases, NRPSs):
- NRPS基因簇編碼非核糖體肽合成酶,這些合成酶可以生產(chǎn)多肽類次級代謝物,如抗生素和免疫抑制劑。
-
核糖體合成肽基因簇(Ribosomal Synthesized and Post-translationally Modified Peptides, RiPPs):
- 這類基因簇編碼通過核糖體合成并在翻譯后進行修飾的肽類化合物。
-
萜類合成基因簇(Terpene Synthases):
- 萜類基因簇編碼合成萜類化合物的酶,這些化合物廣泛存在于植物中,具有多種生物學(xué)和藥理作用。
-
堿性化合物基因簇(Alkaloid Synthases):
- 堿性化合物基因簇負責(zé)生產(chǎn)堿性化合物,這些化合物通常具有藥理活性,如鎮(zhèn)痛和抗癌效果。
-
混合型基因簇:
- 混合型基因簇包含多種類型的合成酶,能夠生產(chǎn)具有復(fù)雜生物活性的混合次級代謝物。
從大量環(huán)境微生物分離培養(yǎng),挖掘生物合成基因簇(biosynthetic gene cluster,BGC)以檢驗并生產(chǎn)新型NP十分困難。
但隨著高通量測序技術(shù)和生物大數(shù)據(jù)處理工具的快速發(fā)展,直接從宏基因組(metagenome)中探索BGC的策略已經(jīng)越來越成熟:

Methods
重要的BGC通常通過干濕實驗共同確定:

- 生信方法:
從宏基因組數(shù)據(jù)中挖掘 BGC 包括兩大類方法:BGC 的挖掘方法和 BGC 的優(yōu)化方法。
BGC 的挖掘方法主要分為序列比對和特征比對。序列比對采用諸如 BLAST 等方法,而特征比對則包括傳統(tǒng)的隱馬爾科夫模型(HMM)比對以及基于數(shù)據(jù)模型的深度學(xué)習(xí)等方法。
而 BGC 的優(yōu)化方法主要有數(shù)據(jù)庫搜索和進化分析。
數(shù)據(jù)庫搜索涉及 BGC 序列數(shù)據(jù)庫和 BGC 相關(guān)小分子質(zhì)譜數(shù)據(jù)庫的搜索,進化分析的主要目標是分析 BGC 的演化和變異模式。

- 濕實驗:
分離培養(yǎng),基因簇表達,產(chǎn)物富集與鑒定。
Databases
BGC的分析和比對,主要是建立在BGC數(shù)據(jù)庫基礎(chǔ)之上:
antiSMASH
是有關(guān)次生代謝物 BGC 的綜合資源,集成了各種分析工具。MIBiG
定義了生物合成基因簇的最低信息 (MIBiG):一種標準化數(shù)據(jù)格式,描述了唯一表征 BGC 所需的最低信息。
同時構(gòu)建了一個附帶的 BGC 在線數(shù)據(jù)庫,詳細記錄了來自于上千個微生物物種的上千個經(jīng)實驗驗證的非冗余BGC。Bactibase
主要包括細菌及其產(chǎn)生的抗菌肽、細菌素等。BiG-FAM
將同源 BGCs 分組到生物合成基因簇家族 (GCF) ,這是生物合成基因簇 (BGC)“同源”組的在線存儲庫,這些生物合成基因簇 (BGC) 假定編碼相似的專門代謝物的產(chǎn)生。通過將從當(dāng)前可用的基因組和 MAG 中鑒定出的大規(guī)模全球 BGC 集合作為數(shù)據(jù)源,BiG-FAM 提供了可探索的微生物次生代謝多樣性“圖集”,以瀏覽和搜索跨類群的生物合成多樣性。IMG-ABC
集成微生物基因組 - 生物合成基因簇圖譜 (IMG-ABC) 是次級代謝物化合物 (SM) 生物合成基因簇 (BGC) 的綜合數(shù)據(jù)集市,根據(jù) IMG 中的所有分離基因組進行預(yù)測。此外,從宏基因組衍生的支架箱預(yù)測的 BGC 揭示了來自不同環(huán)境的稀有或未培養(yǎng)的類群中潛在的新型 SM。
Tools
antiSMASH是一套常用的BGCs搜索工具集,其利用人工智能計算工具在數(shù)據(jù)庫基礎(chǔ)上進行操作。
其主要功能是基于代謝途徑中生物合成酶的基因在染色體上通常成簇排列的原理,通過特定類型的模型來識別已知的次級代謝基因簇。
在antiSMASH中,次級代謝基因簇被分為多個類別,然后通過序列比對等方法進行同源比對和發(fā)現(xiàn)BGC。通過分析與目的基因相似的BGC結(jié)果,可以大致解讀目的基因的功能。
此外,antiSMASH還提供了一些獨立的工具,例如由質(zhì)譜引導(dǎo)的肽挖掘工具Pep2Path、抗生素耐藥性靶標搜尋器ARTS和sgRNA設(shè)計工具CRISPy-web等。
ClusterFinder利用隱馬爾可夫模型(HMM)將BGC的核苷酸序列轉(zhuǎn)換為一系列連續(xù)的Pfam結(jié)構(gòu)域,因此能夠更準確地識別新型BGC。相比之前的算法,ClusterFinder不僅能夠識別少數(shù)BGC類別,而且基于732個手動匯總的BGC訓(xùn)練集,能夠檢測出多種特征明確的基因簇類別,為基因簇識別問題提供了更通用的解決方案。
MetaBGC是一種基于“讀段”的算法,能夠從人類微生物組中發(fā)掘之前未被報道過的BGC。該算法不需要分離培養(yǎng)細菌或進行測序,可以直接在人類微生物組衍生的宏基因組測序數(shù)據(jù)中識別BGC。通過構(gòu)建基于群落畫像的隱馬爾可夫模型,可以在單一的宏基因組讀取水平上識別、定量和聚集微生物組衍生的BGC。
DeepBGC采用深度學(xué)習(xí)技術(shù)來檢測細菌和真菌基因組中的BGC。該方法利用雙向長期短期記憶遞歸神經(jīng)網(wǎng)絡(luò)和類似word2vec的Pfam蛋白域嵌入,使用隨機森林分類器預(yù)測產(chǎn)品類別和檢測到的BGC的活性。
Examples
- 2019年,一項人類腸道微生物宏基因組挖掘工作發(fā)現(xiàn)了未培養(yǎng)的細菌基因組編碼數(shù)百種新的生物合成基因簇,并具有獨特功能[3]。通過從11850個人類腸道微生物群中重建92143個宏基因組組裝基因組,識別了1952個未培養(yǎng)的候選細菌物種。這些未經(jīng)培養(yǎng)的細菌物種及其基因組大大擴展了人類腸道微生物群的已知物種庫,增加了系統(tǒng)發(fā)育多樣性281%。這些候選物種編碼數(shù)百個新的生物合成基因簇,并在鐵-硫和離子結(jié)合等代謝方面具有獨特功能,揭示了未培養(yǎng)腸道細菌的多樣性,為腸道微生物群的分類和功能特征提供了前所未有的解決方案。

- 2018年,基于草原土壤的宏基因組數(shù)據(jù)[4],研究人員重建了上千個基因組,其中幾百個近乎完整,并鑒定了未被研究過的微生物(一類酸桿菌),這些微生物編碼多種聚酮化合物和非核糖體肽的基因組簇。研究者鑒定出了兩個來自不同譜系類群的酸桿菌基因組,每個基因組都擁有一個異常龐大的生物合成基因庫,并含有多達15個大型聚酮化合物和非核糖體肽生物合成基因位點。通過微觀操作實驗,收集了120個時間點的樣品,使用轉(zhuǎn)錄組學(xué)的手段,發(fā)現(xiàn)基因簇對不同環(huán)境擾動的響應(yīng)情況并不相同。通過對微生物的轉(zhuǎn)錄共表達網(wǎng)絡(luò)分析,發(fā)現(xiàn)生物合成基因的表達與雙組分系統(tǒng)、轉(zhuǎn)錄激活、假定抗微生物劑抗性和鐵調(diào)節(jié)模塊的基因相關(guān),這一結(jié)果將代謝物生物合成與環(huán)境感知和生態(tài)競爭過程聯(lián)系起來。

- 2022年,瑞士蘇黎世聯(lián)邦理工學(xué)院的研究團隊利用基因組學(xué)技術(shù)和大數(shù)據(jù)挖掘方法,在全球215個采樣點的不同深度層共1038個海水樣本中發(fā)現(xiàn)了多種海洋細菌生物合成基因簇[5]。他們創(chuàng)建了海洋微生物組學(xué)數(shù)據(jù)庫(OMD),發(fā)現(xiàn)了39055個生物合成基因簇,參與了約6873種化合物的生物合成過程。進一步的實驗驗證表明,部分基因簇在亞磷酸鹽等化合物的生物合成中發(fā)揮關(guān)鍵作用。該研究通過基因組學(xué)方法發(fā)現(xiàn)了新型海洋細菌和生物合成基因簇,并對部分BGC進行了實驗驗證,對海洋生態(tài)、生物進化和天然產(chǎn)物等領(lǐng)域的研究具有重要意義。

- 2024年,研究人員分析了來自 9 個不同深海冷泉區(qū)域的 81 個宏基因組、33 個宏轉(zhuǎn)錄組和 7 個代謝組,以研究它們的次生代謝物[6]。冷泉微生物組編碼多樣且豐富的生物合成基因簇(BGC)。大多數(shù) BGC 與未被充分研究的細菌和古細菌有關(guān),包括甲烷和硫循環(huán)的關(guān)鍵介質(zhì)。 BGC 編碼多種可能影響群落動態(tài)的抗菌化合物和預(yù)計影響生物地球化學(xué)循環(huán)的各種代謝物。主要參與者的 BGC 分布廣泛且表達量高,其豐度和表達水平隨沉積物深度而變化。沉積物代謝組學(xué)揭示了獨特的天然產(chǎn)物,突出了未知的化學(xué)潛力并證實了這些沉積物中的 BGC 活性。

嘗試將BGC挖掘流程應(yīng)用在自己的微生物組項目中,下次再分享具體的分析流程代碼。
References
- LAI Qilong,YAO Shuai,ZHA Yuguo,BAI Hong,NING Kang. Microbiome-based biosynthetic gene cluster data mining techniques and application potentials[J]. Synthetic Biology Journal,2023,4(3):611-627
- Barbara R Terlouw, Kai Blin, Jorge C Navarro-Mu?oz, Nicole E Avalon, et al., MIBiG 3.0: a community-driven effort to annotate experimentally validated biosynthetic gene clusters, Nucleic Acids Research, Volume 51, Issue D1, 6 January 2023, Pages D603–D610
- A. Almeida, A. L. Mitchell, M. Boland, S. C. Forster, G. B. Gloor, A. Tarkowska, T. D. Lawley, R. D. Finn, A new genomic blueprint of the human gut microbiota. Nature 568, 499–504 (2019).
- A. Crits-Christoph, S. Diamond, C. N. Butterfield, B. C. Thomas, J. F. Banfield, Novel soil bacteria possess diverse genes for secondary metabolite biosynthesis. Nature 558, 440–444 (2018).
- L. Paoli, H.-J. Ruscheweyh, C. C. Forneris, F. Hubrich, et al., Biosynthetic potential of the global ocean microbiome. Nature 607, 111–118 (2022).
- X. Dong, T. Zhang, W. Wu, Y. Peng, X. Liu, Y. Han, X. Chen, Z. Gao, J. Xia, Z. Shao, C. Greening, A vast repertoire of secondary metabolites potentially influences community dynamics and biogeochemical processes in cold seeps. Science Advances 10, eadl2281 (2024).