系統(tǒng)功能注釋和生物網絡可視化
Spatial Analysis of Functional Enrichment(SAFE),功能富集空間分析
生物網絡代表genes間的關系,但我們對這種網絡功能組織的理解非常有限。這里,我描述spatial analysis of functional enrichment(SAFE),功能富集空間分析。SAFE在2D空間可視化網絡并且度量跨越本地鄰接功能富集的連續(xù)性分布,會產生相關聯(lián)的功能列表和他們的相關性定位的map。我應用SAFE來注釋啤酒酵母基因相互作用相似性網絡和PPI網絡,用GO terms。SAFE注釋的基因網絡匹配手工來源的注釋,花的時間少,網絡對噪音文件和生物信號敏感。使用SAFE對基因相互作用和化學基因組數據的整合揭示了囊泡介導的轉運和對抗癌藥物的抵抗之間的聯(lián)系。這些結果顯示SAFE在檢查生物網絡和理解他們的功能組織上的重要性。
--
INTRODUCTION
了解活細胞的功能組織對預測細胞在正常和疾病狀態(tài)下的行為非常重要,這可以來設計有效的治療策略來控制它們。出芽啤酒酵母對闡明細胞細胞的組織尤其有用,歸因于擴展的分子相互作用網絡的可獲得性,可以匹配到物理,生物化學和表型間聯(lián)系在幾乎genome中的所有基因。然而,這些網絡的功能注釋,也就是說,決定那個生物功能可以代表每個網絡,網絡中的部分和哪些功能聯(lián)系,他們如何和另外一個聯(lián)系,是一個挑戰(zhàn),尤其是因為嚴格的統(tǒng)計學方法和可重復的工作流程的稀少。
生物網絡的系統(tǒng)注釋可以用三步闡明
首先,獲得網絡的綜合map,來顯示所有的nodes和他們之間的彼此聯(lián)系,這個map可以由嵌于網絡中的網絡顯示算法生成(2Dor3D),所有nodes的位置基于他們的連接性定位。
第二,收集可以用來定位所有nodes之間特征的獨立的數據集,這種關系基于多樣化參數(比如,細胞定位,對擾亂刺激的轉錄反應,突變表型等)。這種功能資源對酵母來說很容易獲得,因為技術進步和很多人的貢獻。
最后,應用自動的統(tǒng)計學程序疊加共功能數據到網絡中并且鑒定功能一致的區(qū)域。已經有功能區(qū)域被發(fā)現,但是到現在為止,沒有已有的方法來鑒定他們,相對于彼此定位并產生網絡的功能地圖,可以被生物學界理解,定量并且直觀。
這些算法的主要作用是評估實驗數據集,并確定網絡連接支持的最有希望的候選基因。由于網絡本身不是分析的重點,而只是獨立的支持性證據,這些方法不能直接應用于綜合性的注釋任務。類似地,網絡聚類算法可能被用來識別與已知的以及新穎的功能模塊相對應的密集連接的節(jié)點組(Newman,2006)。然而,聚類忽視松散連接的節(jié)點,導致許多稀疏但功能一致的網絡區(qū)域不被注意。另外,聚類將網絡劃分為離散的,并且在一些情況下是重疊的子網絡,這些子網絡必須被分別注釋和整合,重新融合在一起,以提供網絡的全局功能視圖。由于功能注釋的快速且可重現的整合尚未系統(tǒng)地實現,因此使用用于注釋生物網絡的聚類算法是不切實際的。
SAFE總概
SAFE通過計算和展示一系列功能屬性來注釋生物網絡。SAFE首先產生網絡2Dmap,用的是force-directed network layout算法或者從第三方軟件輸入比如cytoscape。在網絡map中,nodes的定位基于反應網絡拓撲異構性的forces 的平衡性進行定位,比如鏈接的nodes吸引彼此,而沒鏈接的nodes排斥。
對于網絡map中的每一個node來說,SAFE定義一個本地鄰居,比如一系列nodes定位在一個特定的范圍之內,但是不必直接鏈接。下圖B。對于每一個鄰居,SAFE計算一系列定量得分,每一個都相應于鄰居的數值綜合。

Benchmarking SAFE on the 酵母遺傳相互作用相似性網絡
為了檢驗SAFE方法,我應用它來注釋酵母遺傳相互作用相似性網絡(GIS,genetic interaction similarity),使用的GO生物過程terms作為屬性,并把這個結果與之前手工注釋的進行比較。一個遺傳相互作用是兩個基因之間的表型聯(lián)系,遺傳相互作用是當雙突變體的表型偏離兩個單突變體的表型的預期組合時表型關系的兩個基因。享有相似的基因相互作用的genes通常享有以共同的生物學功能并形成一個功能網絡,并在在酵母基因組中更能有可能鏈接大多數的genes。一個高度保守的網絡版本,包含2838個nodes,10016條邊,通過一個徹底的,手工的程序基于原始研究進行注釋,因此它對SAFE提供了一個很好的test。(這就是benchmarking)
在cytoscape中,使用spring-embedded network layout 生成GIS(genetic interaction similarit)map。SAFE度量4373個GO生物過程條目的本地富集,每一個都至少和一個酵母gene相關,揭示在size,shape和GO term富集landscape的變化,fig2B,C,D。GO term的大多數84%只在是個或更少個genes鄰居內富集,顯示了這些term在網絡中太小或太稀疏分布以至于沒有功能組織的信息。Fig2b。保留的GO TERMS富集在多于十個的鄰居,但是在他們的富集中變化有空間分布變化:12%的GO terms(506 of 4373),有區(qū)域特異性就像它們在網絡的單個區(qū)域有富集單個peak。Fig2c。,4%的GO terms在不同的網絡區(qū)域有兩個或多個peaks多區(qū)域分布。多個peack的出現顯示了每一個多區(qū)域條目包含了幾個genes的亞類,分別定位在網絡中,這樣可以功能區(qū)分。值得注意的是,每個亞類顯示被至少一個區(qū)域特異地圖覆蓋,這顯示了區(qū)域特異GO terms足夠注釋整個網絡,作為結果,稀少的和多區(qū)域的條目不會在下一步進行分析。


因為506個區(qū)域特異性GO條目中的很多都匹配到同樣的網絡區(qū)域,他們對于網絡注釋的貢獻,會部分冗余。為了把這種冗余最小化并簡化注釋過程,基于他們在富集地圖中的相似性,SAFE把這些terms歸到一個組。產生的19個區(qū)域,用不同的顏色來代表,并且用tag lists來標注,形成一個綜合性的,系統(tǒng)的和定量的基于GO的功能富集地圖,也就是GIS網絡。
由SAFE產生的功能地圖,和手工注釋的網絡高度一致。尤其,SAFE鑒定了所有的手工注釋的區(qū)域,并且和GO條目聯(lián)系在一起,匹配手工指定的標簽。值得注意的是,SAFE也識別了三個之前沒有注釋的網絡區(qū)域,這種丟失或許因為他們的size小和特異性定位。
Analysis of Robustness
為了證實第一個假設,我驗證了假如node距離被定義為map-independent 度量,比如,相關系數權重的最短路徑長度correlation-weighted shortest path length(CSPL).在CSPL中,每一個邊的權重是1-R, R是兩個鏈接的genes的遺傳相互作用profiles,并且這個value沒有參與網絡的構建。由MSPL和CSPL生成的富集全景圖之間的median相似性為密度=0.7(斯皮爾曼rank相關系數)2f。這顯示,無論這個距離度量是什么,大多數的鄰居保持富集于同一個GOterms到一個相似的degree,并且MSPL依賴于估算node距離。
默認情況下,所有網絡距離中在最低的5%的在彼此的鄰居里。我驗證了這個假設影響鄰居富集的程度,通過測驗設定一個更大的距離閾值。我發(fā)現,增加的或減少的默認閾值,多到2倍的產生高度相似的富集landscapes(median 密度=0.78和0.81,相應的fig2g),這對富集的GOterms有以一個有限的影響。這顯示了,鄰居富集對鄰居的size不敏感,并且距離閾值的選擇在2倍范圍內變化不重要。
最后我評估了網絡富集對spring-embedded layout algorithm的非決定性本質的穩(wěn)健性,這種算法移除了所有的nodes(這些nodes在每一次run中都有一個平衡的位置)。通過重復的應用這個layout并比較產生的網絡地圖的富集全景,我發(fā)現,平均而言,任何兩個獨立的maps的富集全景都高度相似(median across all GO 條目密度=0.82,),這顯示,不管跨越layout runs的絕對的節(jié)點位置的不同,鄰居保持大部分不變。為了消除殘余的可變性,以確保完整的可重復性,SAFE可以被設置來控制layout算法的隨機step,并且在每次run中產生同樣的node位置。
網絡注釋的精確性或許也依賴于功能注釋標準的質量。為了驗證SAFE對注釋噪音的穩(wěn)健性,我系統(tǒng)的通過隨機引入不同數目的假陽性或假陰性注釋來改變了所有的GO bp terms,并且比較產生的富集全景圖fig2I。沒啥問題
SAFE促進功能基因集的整合
因為所有富集標準的內在的偏見和局限,用單一類型的生物信息比如GO對一個網絡進行注釋,不可能產生網絡功能組織的全景地圖。一個更有效的策略是使用多個功能數據的獨立資源,并且迭代的應用他們來注釋同一個網絡。這樣的方法不進可以產生關于網絡的更真實的描述也可以揭示data 類型之間的始料未及的聯(lián)系。
在酵母中,化學基因組學產生了功能信息的豐富的資源。在一個化學基因組screen中,基因組范圍的酵母突變體的數據在增長,(在多種化學復合物),并且,每一種突變都有未處理的哦。鑒定對給定的化學物敏感或不敏感的突變體對mapping 通路非常重要,而這個通路介導這個復合物的毒性或對保護細胞免于致死效應是必須的。我假說推斷SAFE通過用化學基因組data注釋GIS網絡可以協(xié)助鑒定這些通路,并且可以鑒定對化學物敏感或不敏感的功能網絡區(qū)域。
為了驗證這個假設,我使用最近的一個化學基因組數據,它測量了大量的fittness分數,對大概5000個酵母同源刪除突變體,暴露于132個化學復合物,這些化合物有已知的作用模式。使用這些數據,SAFE產生了132個復合物特異的fitness富集全景圖,并且mapped相應的敏感和抵抗的突變體,通過GIS網絡,fig3ABC.
通過對fitness富集全景圖的分析(GO biological process),顯示,全景圖與我們當前的知識高度一致。例如,對doxorubicin這個DNA嵌入劑敏感的突變體,通過阻斷拓撲異構酶II來阻斷DNA復制,這種突變體主要在以下生理活動相關的網絡region中富集,DNA復制和修復,相似的,一個靶向線粒體的蛋白質合成抑制劑在核糖體和線粒體相關的GO條目也富集重疊。
Case study:SAFE揭示抗Bortezomib(蛋白酶體抑制劑硼替佐米)的機制
除了已知的復合物作用模式,SAFE也可以揭示新的反應模式。
一個例子是關于bortezomib的fitness富集全景圖,這是一種蛋白酶體抑制劑,已經證實可以用了治療多發(fā)性骨髓病,多發(fā)性淋巴瘤和其它幾種正在接收臨床實驗的類型的癌癥。SAFE分析顯示,在酵母中,對bortezomib敏感的突變體主要在和蛋白酶體介導的蛋白降解,細胞周期控制和轉錄調控相關網絡區(qū)域富集fig3c。這些結果與人類細胞中的發(fā)現一致,bortezomib不直接通過保護促死亡因子來促進程序化細胞死亡,是協(xié)同的組蛋白去甲基化抑制劑,來調控轉錄。
值得注意的是,SAFE也顯示,抗bortezomib和網絡中的分泌和囊泡介導的轉運go term強烈相關fig3c。雖然幾個報道已經顯示,蛋白酶體的失活可以通過內質網中的錯誤折疊蛋白的聚集引起內質網stress,但是沒有預料失去功能的突變體在ER或其他囊泡相關的功能可以減弱這個或其他蛋白媒體相關的壓力。有一個直接的關于bortezomib的實驗可以證實SAFE的富集分析:對藥物最強抵抗的四個突變株,執(zhí)行了完全或部分的敲除在YTP6,RIC1,RGP1基因,調控形成,移動或囊泡融合,從高爾基體區(qū)域。另外,幾個卷入高爾基相關的其他價格i額蛋白也在抗突變的前15之內。
這個發(fā)現的統(tǒng)計學重要性也被網絡獨立基因集GSEA支持。GSEA決定功能組的成員是否傾向于在ranked基因列表的top或底部出現,然后來檢測這種分布的可能性。通過對ranked list of bortezomib fitness得分應用GSEA,所有4373個GO BP,我確認了想高爾基體內囊泡介導的轉運和細胞質到囊泡靶向途徑顯著富集。和SAFE的結果相比,然而,這些pathways的首要的在GSEA中卻更少的出現:
GSEA檢測到的48個顯著的GO條目的大多數(58%)涉及離子穩(wěn)態(tài),細胞內pH調節(jié),還有其他距離相關的功能相關的。這種不一致顯示了,通過影響網絡拓撲性,SAFE可以檢測功能信號,這些信號在網絡非依賴型分析中不容易出現。
更復雜網絡的注釋:包括蛋白蛋白相互作用網絡
和其他生物網絡相比,GIS網絡相對稀少和模塊化fig2a,并且也可能順從于注釋。為了評估是否SAFE也可以用來注釋更復雜的網絡,我首先驗證了它是否可以在一個GIS網絡更稠密的版本中檢測到功能富集信息,這個版本通過降低GIS閾值的最小值來獲取,這個最小值是連接性所需要的。對GIS網絡的注釋with40%-240%更多的邊比原始產生的相似性GO條目富集全景圖(median 密度=0.61-0.75),顯示不管網絡的密度,SAFE對內在的功能結構比較敏感。
也可能,更復雜的生物網絡沒有一個像GIS一樣重要的結構,這樣注釋更加困難。因此,我廣泛的PPI 網絡,在5699個酵母蛋白質中產生了多至78406個物理綁定。PPI優(yōu)先鏈接相同的蛋白復合體成員和其他功能相關的蛋白,這個網絡地圖,在全局范圍內沒有顯示出可見的拓撲結構fig4a。然而,SAFE揭示了網絡中的21個大的功能域,每個domain和一個明確的GO term富集,還有一個唯一的富集的go terms列表fie4B。這個富集地圖結果強烈顯示了物理結合,就像GIS,可以把蛋白質聚成一個大的功能單位,這個大的功能單位超越了蛋白復合體和分子通路。這些復合體的相對網絡定位,連同他們的GIS部分,對酵母細胞的功能組織或許可以提供一個新的視野。
DISCUSSION
這里,我描述了SAFE的發(fā)展,驗證和應用,這是一種注釋生物網絡,檢測其功能組織的自動化方法。考慮到網絡和可視化map的連接性,SAFE定位所有的網絡區(qū)域,在一個或更多功能屬性富集的,比如GOterm,或定量表型。這個過程中,SAFE回答三個基本的問題,
第一,網絡中的任何區(qū)域是不是特異性的和一個給定的功能或表型相關?
第二,這些區(qū)域定位在網絡的什么位置
第三,他們的定位如何與其他功能或表型進行比較
通過回答這些問題,SAFE建立了一個網絡功能地圖,并探索細胞內的過程關系。
通過可視化的力量,SAFE也可以用來提高我們對功能標準的理解。例如,SAFE 用GO生物過程進行的GIS網絡的注釋顯示,一些GO term富集在單一的網絡區(qū)域,而其他的是多區(qū)域。雖然多區(qū)域GO terms比特定區(qū)域的數目要大,但是他們的size分布會產生更多的重疊。這顯示了term size不僅僅貢獻于全景差異。一個有趣的可能是,區(qū)域特異的GO term共享一個功能特異的相似性水平,這是有GIS網絡的拓撲型定義的。如果事實如此,這些terms可以用來delineate描繪一個GO等級聚類的剖面(cross-section)并且產生GO 注釋的扁平subset,和GO slim相似。在基因組中扁平化注釋很重要,這歸于它們的小size和低的冗余。SAFE或許可以提供產生數據驅動的網絡特異性注釋標準的生成,這可以使得更多的靶向的功能分析成為可能并簡化他們的解釋。
SAFE功能maps的解釋會從一個更好的網絡layout算法中受益。數據驅動的網絡輸出,比如spring embedded, 是一種非監(jiān)督方法可以基于nodes的連接度來組織nodes,并且事實上是多維度還原程序。在這個默認setup中,SAFE依賴layouts鑒定本地鄰居并且匹配他們的功能富集。然而,一個特別的layout如何被選擇,我們仍然知道的太少。不管他們在揭示數據內部的隱含模式的巨大潛能,layouts可以典型用來產生esthetically pleasing(賞心悅目的) network visualizations(賞心悅目的網絡可視化)全景圖并且很少是任何系統(tǒng)網絡分析的基礎。結果而言,我們在評估網絡輸出方面有有限的經驗,并且在不同的網絡中相對的表現有很少的理解。SAFE或許對同一個網絡使用普通的功能屬性進行可變的layouts有一些評估作用。理想狀態(tài)是,這樣的分析能夠為每一個網絡類型鑒定最佳的layouts并且為比較網絡建立共同的ground。
生物網絡的定量比較是系統(tǒng)生物學的大目標。對不同網絡類型中的genes,通路和過程是如何連接的深入理解有助于對開發(fā)成功的策略(對一個細胞中,整合多個網絡成一個single綜合的模型)。通過把相同的功能屬性map到不同的網絡富集中,SAFE可以對這個目標有重要的貢獻。然而,謹慎的統(tǒng)計學方法一定被內置來比較SAFE的跨網絡maps并且得出有意義的結論,關于他們的不同和相似。
總之,SAFE對網絡中的功能組織提供了一個總體的視角,通過在功能groups和網絡區(qū)域之間map統(tǒng)計學聯(lián)系。和其他網絡分析的方法相比(其他方法抽取網絡區(qū)域并獨立比較他們)。SAFE顯示,網絡輸出合并它們的穩(wěn)健富集分析,是一個有效的分析完整分子網絡的策略,可以對他們代表的生物系統(tǒng)獲得視角。
Natrue biotechnology文章
Dosage suppression genetic interaction networks enhance functional wiring diagrams of the cell
DOI: 10.1038/nbt.1855 · Source: PubMed
Results
A global dosage suppression genetic interaction network
我們收集了424個必須基因的一系列dosage suppression genetic interactions ,我們稱之為query基因,他們在SGD中被注釋。這些相互作用形成一個網絡包含768個genes和1293條邊。大部分query genes只有少數dosage suppressors,雖然少數基因有大的interactions。我們在cytoscape中使用force-directed layout展示,這樣的,擁有共同的dosage suppression 相互作用的genes會形成清晰的明顯的clusters。Markov聚類分析鑒定出9個clusters,每個包含大于等于30個genens,都對應特定的生物學過程。和綜合的基因網絡相似,這些clusters之間的相對距離看起來反應了共享的或共有的功能。(大概意思是說,網絡中離的近,說明功能有相似性,基因有重疊)例如,下圖中vesicle-mediated transport,exocytosis和細胞生長和形態(tài)生成三個cluster的genes在網絡的相對接近揭示了他們之間的功能聯(lián)系,這揭示了,這種相互作用可以獨立的用來cluster基因,基于功能相互關系。