Network-based approaches for understanding gene regulation and function in plants

文章鏈接:?https://doi.org/10.1111/tpj.14940??
背景
? ? ? ? 測(cè)序技術(shù)的發(fā)展帶來(lái)了許多問(wèn)題,例如,如何有效挖掘大量組學(xué)數(shù)據(jù)集,深入理解復(fù)雜生物學(xué)特征背后的分子機(jī)制。
????????為解決這個(gè)問(wèn)題,植物轉(zhuǎn)錄調(diào)控研究中主要使用的方法是轉(zhuǎn)錄網(wǎng)絡(luò)分析,即一種基于網(wǎng)絡(luò)分析,推導(dǎo)描述生物過(guò)程的模型。這種模型注重分子之間的相互作用,以識(shí)別可能存在的生物過(guò)程。如Fig1,轉(zhuǎn)錄網(wǎng)絡(luò)分析包括數(shù)據(jù)采集、網(wǎng)絡(luò)建模和網(wǎng)絡(luò)功能評(píng)估。首先,通過(guò)高通量測(cè)序技術(shù)獲得基因表達(dá)數(shù)據(jù),構(gòu)建共表達(dá)網(wǎng)絡(luò);然后,與TF-DNA相互作用組數(shù)據(jù)整合構(gòu)建基因調(diào)控網(wǎng)絡(luò)(GRNs),或者不使用TF-DNA相互作用組數(shù)據(jù)而直接推斷構(gòu)建GRN。

內(nèi)容概要
????????首先,文章闡述了近年來(lái)監(jiān)測(cè)轉(zhuǎn)錄組動(dòng)態(tài)變化和TF-DNA互作方面的技術(shù)進(jìn)展。其次,文章描述了已公開(kāi)的轉(zhuǎn)錄網(wǎng)絡(luò)計(jì)算建模方法,并說(shuō)明了植物生物學(xué)中各種建模算法識(shí)別的部分特性。最后,文章介紹了植物基因調(diào)控在系統(tǒng)層面的研究可能會(huì)面臨的挑戰(zhàn)和其未來(lái)發(fā)展方向。
DATA COLLECTION FOR GENE NETWORK INFERENCE
Transcriptome analysis
? ? ? ? 量化全局基因表達(dá)的變化是構(gòu)建轉(zhuǎn)錄網(wǎng)絡(luò)的重要部分,目前量化方法中公認(rèn)的最合適的方法之一是RNA-seq。RNA-seq可以適應(yīng)任何生物系統(tǒng),提供直接且無(wú)偏的轉(zhuǎn)錄豐度變化,為轉(zhuǎn)錄網(wǎng)絡(luò)的搭建提供基礎(chǔ)數(shù)據(jù)。
TF-DNA interaction profiling
????????作物很多生物過(guò)程是由TF-DNA的相互作用介導(dǎo)的,TF-DNA相互作用會(huì)影響基因的轉(zhuǎn)錄表達(dá)。當(dāng)前主要有三種常用的實(shí)驗(yàn)技術(shù),可以描述TF在基因組上的結(jié)合位點(diǎn)與互作情況:
(1)ChIP-seq,即染色質(zhì)免疫共沉淀技術(shù)以及深度測(cè)序
(2)利用異源表達(dá)系統(tǒng)繪制結(jié)合位點(diǎn),例如酵母單雜交技術(shù)(Y1H)
(3)回貼至開(kāi)放核染色質(zhì)區(qū)域,包括DNase-seq、MNase-seq、ATAC-seq等技術(shù)。DNase-seq是使用限制性內(nèi)切酶(DNase I)對(duì)樣品進(jìn)行片段化處理。MNase-seq是使用限制性外切酶切除不受保護(hù)的區(qū)域,余下核小體上纏繞的DNA序列。ATAC-seq是使用Tn5轉(zhuǎn)座酶隨機(jī)結(jié)合到DNA轉(zhuǎn)錄起始位置,完整捕獲整個(gè)開(kāi)放序列。
????????但目前,上述方法引入到作物研究領(lǐng)域還是非常困難的,都有著各自的技術(shù)短板。ChIP-seq方法被廣泛應(yīng)用于擬南芥的研究中,但由于為作物制備高質(zhì)量ChIP-seq庫(kù)的技術(shù)限制,ChIP-seq在作物中的實(shí)施更困難。Y1H篩選受異源表達(dá)系統(tǒng)的影響,在非植物細(xì)胞中的互作的TF-DNA并不意味著特定的實(shí)驗(yàn)條件下在植物細(xì)胞內(nèi)相互作用。DNase-seq、MNase-seq對(duì)于遺傳物質(zhì)需求量大,制備過(guò)程非常復(fù)雜。與DNase-seq、MNase-seq相比,ATAC-seq雖然降低了遺傳物質(zhì)需求量,簡(jiǎn)化了樣品制備過(guò)程,但其主要缺點(diǎn)是Tn5轉(zhuǎn)座酶也可以結(jié)合線粒體和葉綠體基因組,影響了獲得核基因組相關(guān)信息的效率。
In vitro TF-DNA binding databases
????????TF常與目標(biāo)基因轉(zhuǎn)錄起始位點(diǎn)(TSS)附近的順式作用元件(CREs)結(jié)合,影響基因的轉(zhuǎn)錄表達(dá),并且為TF-CRE與DNA結(jié)合存在特異性。因此,CREs是控制基因表達(dá)的關(guān)鍵元件。目前已開(kāi)發(fā)的植物CREs體外識(shí)別技術(shù)有PBM、DAP-seq;相關(guān)的計(jì)算開(kāi)發(fā)工具包括MEME組件、HOMER。
NETWORK INFERENCE:MODELING METHODS
????????植物的轉(zhuǎn)錄網(wǎng)絡(luò)分析主要包括共表達(dá)網(wǎng)絡(luò)與GRNs。
Coexpression network modeling
????????近年來(lái),隨著相關(guān)技術(shù)與算法的發(fā)展,共表達(dá)網(wǎng)絡(luò)模型在解決許多生物學(xué)問(wèn)題方面越來(lái)越受歡迎。這種模型支持在多個(gè)條件下同時(shí)識(shí)別、聚類和探索數(shù)千個(gè)具有相似表達(dá)模式的共表達(dá)基因。文章舉例證明了共表達(dá)網(wǎng)絡(luò)的以下特點(diǎn):(i)在鑒定新的植物基因方面具有強(qiáng)大的作用;(ii)可用于研究植物中未知的代謝途徑;(iii)可用于研究次要代謝物以外(?如激素)的途徑;(iv)可用于定量測(cè)量共表達(dá)模塊之間的距離,促進(jìn)分子表型研究;(v)可用于研究基因表達(dá)變化的時(shí)間動(dòng)態(tài)。
GRN modeling
? ? ? ? 如Fig2,轉(zhuǎn)錄網(wǎng)絡(luò)構(gòu)建后與可用的表型數(shù)據(jù)整合,作為機(jī)器學(xué)習(xí)模型的訓(xùn)練集,用以訓(xùn)練模型。機(jī)器學(xué)習(xí)模型通過(guò)訓(xùn)練,可以預(yù)測(cè)輸入數(shù)據(jù)中基因之間網(wǎng)絡(luò)關(guān)系。經(jīng)過(guò)植物體內(nèi)功能驗(yàn)證的數(shù)據(jù)可以直接合并到訓(xùn)練集中,提高機(jī)器學(xué)習(xí)模型的性能。

????????GRN建模時(shí),利用轉(zhuǎn)錄組數(shù)據(jù)預(yù)測(cè)TF-DNA互作是一項(xiàng)工作難點(diǎn),目前的方法可大致分為基于模型預(yù)測(cè)和無(wú)模型預(yù)測(cè)。
????????基于模型預(yù)測(cè)需要構(gòu)建生物模型,然后學(xué)習(xí)該模型參數(shù),創(chuàng)建針對(duì)給定數(shù)據(jù)集的動(dòng)態(tài)模型。其中最常用的一種方法是Bayesian network(BN),已成功應(yīng)用于推斷轉(zhuǎn)錄因子和下游靶基因之間的功能關(guān)系。
????????無(wú)模型預(yù)測(cè),即它們不對(duì)基因調(diào)控機(jī)制做出任何假設(shè),只優(yōu)化基因間共變異的尺度。其中常見(jiàn)方法有基于機(jī)器學(xué)習(xí)的回歸樹(shù)算法,the Gene Network Inference with Ensemble of Trees 3?(GENIE3) 。
????????Regression Tree Pipeline for Spatial,Temporal,And Replicate,一種基于回歸樹(shù)且實(shí)現(xiàn)GENIE3的方法,最近用于將時(shí)間序列轉(zhuǎn)錄組數(shù)據(jù)集與磷蛋白組數(shù)據(jù)集成GRN模型,成功揭示了JA信號(hào)與其他信號(hào)通路串?dāng)_的新成分。盡管這種方法性能已被證明,但通常難以解釋,限制了這種方法的預(yù)測(cè)能力。
? ? ? ? 目前,Jump3已應(yīng)用于連接基于模型預(yù)測(cè)和無(wú)模型預(yù)測(cè),表現(xiàn)出了具有競(jìng)爭(zhēng)力的性能,在未來(lái)可能用于建立高度復(fù)雜的GRN。
Network visualization and online tools
????????推斷的基因轉(zhuǎn)錄網(wǎng)絡(luò)需要一種合適的方式進(jìn)行可視化。目前Cytoscape是應(yīng)用最廣泛的網(wǎng)絡(luò)可視化工具,內(nèi)置網(wǎng)絡(luò)拓?fù)浞治鏊惴ǎ梢酝ㄟ^(guò)200個(gè)組件拓展功能(https://apps.cytoscape.org/apps/all),改善網(wǎng)絡(luò)展示或下游分析。VirtualPlant (http://virtualplant.bio.nyu.edu)提供了在線平臺(tái),可根據(jù)多物種全基因組數(shù)據(jù)識(shí)別并可視化給定基因之間的互作。
CONCLUDING REMARKS AND FUTURE PERSPECTIVES
????????當(dāng)前主要的困難是缺乏一套基于機(jī)器學(xué)習(xí)的轉(zhuǎn)錄網(wǎng)絡(luò)分析的標(biāo)準(zhǔn)計(jì)算流程。另一個(gè)重要的瓶頸是訓(xùn)練集質(zhì)量不高,降低了模型推理的性能。高質(zhì)量訓(xùn)練集包括數(shù)據(jù)準(zhǔn)確,高信噪比和較好的重現(xiàn)性。
? ? ? ? 另外,在后基因組學(xué)時(shí)代,我們面臨的一個(gè)重要問(wèn)題是是否能夠以合理成本,從高度異構(gòu)、嘈雜多維的數(shù)據(jù)集中提取出具有生物學(xué)意義的理解?;跈C(jī)器學(xué)習(xí)和人工智能的模型開(kāi)發(fā),有望通過(guò)改進(jìn)數(shù)據(jù)聚類,輔助利用植物轉(zhuǎn)錄組數(shù)據(jù)探索轉(zhuǎn)錄網(wǎng)絡(luò)時(shí)空動(dòng)態(tài)。