三月week1文獻閱讀:
Pathway enrichment analysis and visualzation of omics data using g:Profiler,GSEA,Cytoscape and EnrichmentMap
通路富集分析和可視化組學的軟件數(shù)據(jù)使用:Profiler,GSEA,Cytoscape and EnrichmentMap
摘要
通路富集分析幫助研究人員在從基因組規(guī)模(組學)實驗中產生的基因列表獲得力學洞察力。這種方法超出了隨機情況下的預期,它可以識別出富集在基因列表中生物通路。作者們解釋了通路富集分析的步驟,并提出了一個實用的逐步指南,以幫助解釋RNA-seq和基因組測序實驗產生的基因列表。該方案包括三個主要步驟:
- 從組學數(shù)據(jù)定義基因列表,
- 富集通路的統(tǒng)計確定,
- 可視化和解釋結果。
描述了如何使用這個方案與已發(fā)表的差異表達基因和突變的癌癥基因例子結合;進而,這些方案可以應用于不同類型的組學數(shù)據(jù)。該方案描述了可視化技術的創(chuàng)新,提供全面的背景和故障排除指南,并使用免費和經常更新的軟件,包括g:Profiler, Gene Set Enrichment Analysis (GSEA), Cytoscape和EnrichmentMap。完整的方案可以在大約4.5小時內完成,并且是為沒有經過生物信息學培訓的生物學家設計的。
介紹 Indroduction
生物樣品中DNA、RNA和蛋白質的全面的綜合的定量現(xiàn)已成為常規(guī)。結果數(shù)據(jù)呈指數(shù)增長,他們的分析幫助研究人員發(fā)現(xiàn)新的生物功能、基因型-表型關系和疾病機制。然而,對這些數(shù)據(jù)的分析和解釋對許多研究人員來說是一個重大挑戰(zhàn)。分析常常導致一長串的基因,需要不切實際的大量手工文獻搜索來解釋。解決這個問題的標準方法是通路富集分析,它將大的基因列表總結為更容易解釋的通路的小列表。使用幾種常見的統(tǒng)計檢驗方法,考慮實驗中檢測到的基因數(shù)量、它們的相對排名以及注釋到感興趣的通路的基因數(shù)量,對實驗基因列表中相對于預期的過度表達進行統(tǒng)計檢驗。例如,含有40%細胞周期基因的實驗數(shù)據(jù)驚人地豐富,因為只有8%的人類蛋白編碼基因參與了這一過程。
? 在最近的一個例子中,我們使用通路富集分析來幫助確定polycomb repressive complex (PRC2)的組蛋白和DNA甲基化作為室管膜瘤(最常見的兒童期腦癌之一)的第一個合理治療靶點。現(xiàn)有的藥物如5-氮雜替丁(5-azacytidine)可以靶向這一通路。5-氮雜替丁曾在一位晚期病人身上出于同情心使用,并阻止了快速轉移性腫瘤的生長。在另一個例子中,我們分析了自閉癥中罕見的拷貝數(shù)變異(CNVs),并確定了幾個受基因缺失影響的重要通路,而通過對單個基因或loci的病例對照關聯(lián)測試,幾乎沒有發(fā)現(xiàn)顯著的命中。這些例子說明了利用通路富集分析可以獲得的對生物機制的有用見解。

方案發(fā)展Development of the protocol
該方案是為那些對解釋組學數(shù)據(jù)感興趣的實驗生物學家設計的。它只需要學習和使用“點擊”計算機軟件的能力,但是高級用戶可以從我們作為補充方案1-4提供的自動分析腳本中受益。我們以之前發(fā)表的人類基因表達和體細胞突變數(shù)據(jù)為例進行分析;然而,我們的概念框架適用于分析來自大規(guī)模數(shù)據(jù)的任何生物體的基因或生物分子列表,包括蛋白質組學、基因組學、表觀基因組學和基因調控研究。我們在許多項目中廣泛使用通路富集分析,并評估了許多可用的工具。我們在這里介紹的軟件包是根據(jù)它們的易用性、免費訪問、高級功能、廣泛的文檔和最新的數(shù)據(jù)庫而選擇的,它們是我們在研究中每天使用的軟件包,并向合作者和學生推薦。此外,我們還向這些工具的開發(fā)人員提供了反饋,允許他們實現(xiàn)我們在發(fā)布的分析中需要的特性。這些工具是g:Profiler, GSEA, Cytoscape和EnrichmentMap,都可以在網上免費獲得:
●g:分析器(https://biit.cs.ut.ee/gprofiler/)
●GSEA(http://software.broadinstitute.org/gsea/)
●Cytoscape (http://www.cytoscape.org/)
●EnrichmentMap(http://www.baderlab.org/Software/EnrichmentMap)
流程概述 Overview of the procedure
本節(jié)概述了通路富集分析的主要階段。下面的過程提供了詳細的分步協(xié)議。通路富集分析包括三個主要階段(fig1;基本定義見Box1)
- 使用組學數(shù)據(jù)定義感興趣的基因列表。組學實驗在實驗環(huán)境中全面測量基因的活性??紤]到實驗設計,得到的原始數(shù)據(jù)集通常需要計算處理,如標準化和評分,以識別感興趣的基因。例如,可以從RNA-seq數(shù)據(jù)得到兩組樣本間差異表達的基因列表。其他類型的組學實驗,如基因表達微陣列、定量蛋白組學、種系和體細胞基因組測序、全球DNA甲基化分析等,均可用于本方案;然而,每種類型的數(shù)據(jù)可能需要特定的預處理步驟(參見“與其他方法的比較”一節(jié))。
| Box 1 | Definitons |
|---|
| Pathway: 共同起作用以進行生物過程的基因 |
| Gene Set:包括通路中的所有基因?;蚣梢曰诨蛑g的各種關系,如細胞定位(如核基因)或酶功能(如蛋白激酶)。不包括蛋白質相互作用等細節(jié)。 |
| Gene list of interest:感興趣的基因列表。從組學實驗中獲得的基因列表,用于通路富集分析 |
| Ranked gene list:在許多組學數(shù)據(jù)(如RNA-seq基因表達數(shù)據(jù))中,可以根據(jù)一定的評分(如差異表達水平)對基因進行排序,為通路富集分析提供更多信息。與在排序列表中隨機分布的路徑基因相比,在排序列表頂部聚集的基因富集的路徑得分更高 |
| Pathway enrichment analysis:一種統(tǒng)計技術,用于識別在基因列表或感興趣的排序基因列表中顯著表示的通路 |
| Multiple testing correction:成千上萬的通路可以單獨進行富集試驗,這可能導致顯著富集P值,單獨出現(xiàn)。多次測試校正是一種統(tǒng)計技術糾正個別富集試驗的P值,以解決這個問題,并減少假陽性富集的機會(Box 3)。 |
| Leading-edge gene:在GSEA分析中,在最大值或最大值之前的排序中發(fā)現(xiàn)的基因子集。這部分基因通常被定義為富集通路。 |
2.通路富集分析:統(tǒng)計方法用于識別從第1階段開始,相對于隨機預期的基因列表中富集的通路。對給定數(shù)據(jù)庫中的所有通路進行富集基因列表測試(參見Box2中的通路數(shù)據(jù)庫列表)。幾種已建立的通路富集分析方法是可用的,使用哪一種方法取決于基因列表的類型(參見“與其他方法的比較”一節(jié))。
3.通路富集分析結果的可視化和解釋。許多富集的通路可以在階段中被識別,通常包括同一通路的相關版本。可視化可以幫助識別主要的生物學主題及其相互關系,以便進行深入的研究和實驗評價。
| Box 2 | Pathway enrichment analysis resources |
|---|
| Pathway data bases:(通路數(shù)據(jù)庫)我們列出了一些大型的、開放的和方便訪問的通路數(shù)據(jù)庫,它們?yōu)橥犯患治鎏峁┝俗畲蟮膬r值。有數(shù)百個pathway數(shù)據(jù)庫可供多種用途。 |
| Gene set databases:(Gene set databases) |
| ●Gene Ontology(GO):GO提供了一套分層次組織成千上萬的生物過程,標準化的術語分子功能和細胞組件,以及根據(jù)這些術語為多個物種策劃和預測基因注釋。生物過程GO注釋是通路富集分析中最常用的資源。 ●分子標記數(shù)據(jù)庫(MSigDB): MSigDB是一個基于GO、通路、管理、個體組學研究、序列基序、染色體位置、致癌和免疫表達標記以及GSEA團隊維護的各種計算分析的基因集數(shù)據(jù)庫(http://www.msigdb.org)。一個相對不冗余的“hallmark”基因集集合是可用的。該數(shù)據(jù)可用于多種通路富集方法 |
| Detailed biochemical pathway databases:(詳細生化通路數(shù)據(jù)庫)這些數(shù)據(jù)庫由一組管理員維護,他們手工收集詳細的通路信息,包括生化反應、基因調控事件和其他基因相互作用。信息可以導出或轉換為基因集格式。 |
| ●Reactome:人類最積極更新通用公共數(shù)據(jù)庫路徑(http://www.reactome.org)。 |
| ●Panther:人類信號通路(http://pantherdb.org/pathway)。 |
| ●NetPath:人類與關注癌癥信號通路和免疫學(http://www.netpath.org/)。 |
| ●HumanCyc:人類代謝通路(http://humancyc.org/)。 |
| Pathway meta-databases:這些數(shù)據(jù)庫從多個原始路徑數(shù)據(jù)庫中收集詳細的路徑描述。 |
| ●Pathway Commons:從其他通路收集信息數(shù)據(jù)庫,并提供標準化的格式(http://www.pathwaycommons.org)。 |
| ●WikiPathways:社區(qū)驅動的通路,還包括與其他數(shù)據(jù)庫通路(http://www.wikipathways.org/) |
| Pathway meta-databases:(元數(shù)據(jù)庫通路)這些數(shù)據(jù)庫從多個原始路徑數(shù)據(jù)庫中收集詳細的路徑描述。 |
| ●通路Commons45:從其他途徑收集信息數(shù)據(jù)庫,并提供標準化通路(http://www.pathwaycommons.org)。 |
| ●WikiPathways48:社區(qū)驅動的通路,還包括與其他數(shù)據(jù)庫路徑(http://www.wikipathways.org/) |
| Box 3 | Mutiple testing correction |
|---|
| 在典型的通路富集分析中,重復的統(tǒng)計檢驗僅憑偶然的機會就會得到一些顯著的P值。為了糾正這一點,Mutiple testing correction (多測試校正方法)系統(tǒng)地降低了從一系列測試中得出的每個P值的顯著性。在本方案中,g:Profiler和GSEA自動對P值進行多次測試校正。最常用的方法是hh -FDR(或簡稱FDR)34。它是基于一種降序程序,使用未校正的p值閾值和測試次數(shù)來估計錯誤富集的通路比總的富集的通路的比例。例如,假設100條通路P值<0.05富集,且FDR在P值<0.05時為5%,則認為其中5條通路可能富集錯誤。另外,經典的Bonferroni多重測試校正通過將顯著性閾值除以測試次數(shù)來調整顯著性閾值。在實際應用中,該方法將每個未校正的P值乘以所進行的試驗次數(shù),并應用顯著性截止(例如,如果測試了100條通路,P值0.001將成為不顯著的Q值0.1)。該技術確保選擇至少一個錯誤富集通路的概率低于校正后的P值閾值。Bonferroni校正通常被認為對差異基因表達和通路富集分析過于保守,因為部分假陽性結果是可以容忍的。重要的是,Bonferroni和BHFDR都假設測試是獨立的,而由于基因重疊和串擾,通路通常是不獨立的。因此,雖然hh - fdr對通路分析的估計是不準確的,但在實際應用中,它們仍然可以用于篩選和假設生成,因此經常使用。 |
Stage1:使用組學數(shù)據(jù)定義感興趣的基因列表 Stage1:defintion of a gene list of interest using omics data
? 公司實驗生成的原始數(shù)據(jù),必須獲得能夠處理信息適合通路富集分析(補充1和2)。具體處理步驟是特定的組學實驗類型和可能的標準,因此通常直接面向實現(xiàn),否則,在這種情況下,先進的計算技能可能被需要用來進行數(shù)據(jù)處理。已經建立的組學技術可以使用標準的處理方法,并且由生成數(shù)據(jù)的核心設備最方便地執(zhí)行。從組學數(shù)據(jù)中定義基因列表有兩種主要方法:列表或排序列表。某些組學數(shù)據(jù)自然會產生一個基因列表,例如通過外顯子組測序確定的腫瘤中所有體細胞突變的基因,或者蛋白質組學實驗中所有與誘餌相互作用的蛋白質。這樣的列表適合使用g:Profiler直接輸入通路富集分析(步驟6A)。其他組學數(shù)據(jù)自然會產生排序列表。例如,一個基因列表可以根據(jù)不同的基因進行排序在全基因組CRISPR屏幕上的表達評分或敏感性。一些通路富集分析方法是通過一個特定閾值(如fdr調整的P值<0.05和折疊改變的>2)來篩選一個排序的基因列表。其他方法,如GSEA,旨在分析所有可用基因的排序列表,不需要閾值。全基因組排序表適用于使用GSEA進行通路富集分析的輸入(步驟6B)。應該使用g:Profiler分析部分(非全基因組)排序的基因列表。
? 作為一個例子,我們描述了對卵巢癌樣本的原始RNA-seq數(shù)據(jù)的分析,以定義一個排序的基因列表。DNA序列讀取是經過質量過濾的(例如,通過修剪去除低質量的堿基),并映射到基因組范圍內的一組參考轉錄本,以支持對每個轉錄本的讀取計數(shù)。讀取計數(shù)在基因級別上進行聚合(每個基因的計數(shù))。通常,RNA-seq數(shù)據(jù)可用于多個生物復制(三個或更多)的多個實驗條件(兩個或更多,例如,治療與控制)。對所有樣本的每個基因讀計數(shù)進行標準化,以消除樣本之間不需要的技術差異,例如,由于測序車道或每次測序運行的總讀數(shù)的差異。
? 接下來,檢測每個基因的讀計數(shù),以確定樣本組之間的差異表達(例如,治療組與對照組)(補充協(xié)議1和2分別用于RNA-seq和微陣列數(shù)據(jù))。edgeR、DESeq、limma/voom和Cufflinks等軟件包實現(xiàn)了RNA-seq數(shù)據(jù)規(guī)范化和差異表達分析的過程。差異基因表達分析結果包括:
? (1)差異表達顯著性的P值;
? (2)通過使用Benjamini Hochberg假發(fā)現(xiàn)率(hh - fdr)程序(Box 3)對所有基因進行多次檢測校正后的相關Q值(即調整后的P值);
? (3)效應大小和表達方向的改變,使上調的基因為陽性,位于列表的頂部,下調的基因為陰性,位于列表的底部,常表達為log-transform fold-change。
? 然后基因列表根據(jù)一個或多個這些值排名(例如,?log10乘以P值的符號對數(shù)轉換疊化)并使用通路富集分析研究
Stage2A階段:利用g:Profiler對基因列表進行通路富集分析(步驟6A)Stage 2A:pathway enrichment analysis of a gene list using g:Profiler(Step 6A)
? 默認分析實現(xiàn)g:Profiler和類似的基于web的工具搜索途徑的基因明顯富集(即占大多數(shù))感興趣的基因的固定列表,與基因組中所有基因(步驟6)(Box 4)。富集的P值的通路計算使用Fisher正確概率法和多個測試校正應用(Box3)。
| Box 4 | Statistical tests in pathway enrichment analysis |
|---|
| 用于基因通路富集分析的常用統(tǒng)計檢驗是基于超幾何分布的Fisher精確檢驗。它決定了通路中相關基因的比例是否高于通路外基因的比例(即、即背景基因集)。自該測試首次引入以來,許多改進的測試都利用了連續(xù)的實驗分數(shù),避免了應用任意閾值。我們將統(tǒng)計富集檢測的類型分類如下: |
| 1.排序與非排序檢測。排序與非排序檢測。排序測試將排序基因列表作為輸入,而非排序檢測(如Fisher 's precision test)將感興趣的基因列表作為輸入。排序測試對于產生有意義的排序(如差異基因表達)的實驗更可取,因為可以避免任意閾值。對于自然生成感興趣的基因列表的實驗(例如,癌癥中的體細胞突變,與誘餌蛋白相互作用的蛋白質),非排名測試是更可取的。排名測試的例子包括在g:Profiler ' ordered查詢'選項中實現(xiàn)的修改過的Fisher精確測試,以及在GSEA中實現(xiàn)的修改過的Kolmogorov-Smirnov測試。 |
| 2.精確與基于排列的測試。精確測試使用數(shù)學模型(如分布)直接計算精確的P值?;谂帕械臏y試利用數(shù)據(jù)重采樣來估計經驗P值,通常表示為結果與實際數(shù)據(jù)相同或更好的排列數(shù)量,除以排列數(shù)量。例如,在病例對照研究中,我們可以將病例隨機化,并將對照標記1000次,每次重復通路富集分析,以了解我們觀察到相同或更強的通路富集信號的頻率。排列測試可以定制以考慮特定的數(shù)據(jù)屬性和偏差。如果適用的話,最好進行準確的測試,因為這些測試可以快速計算出準確的P值。然而,為特定的應用程序設計正確的精確測試可能具有挑戰(zhàn)性,在這種情況下,自定義排列測試通常是首選的選項。 |
| 3.競爭性和獨立的測試。競爭測試確定感興趣的基因列表是否豐富通路相對于背景中所有基因集。因此,每個通路基因列表中的“競爭”富集的基因背景。相比之下,獨立的測試計算統(tǒng)計獨特通路水平,忽視基因的背景。例如,一個獨立的測試可以評估在一個給定的通路內的基因表達是否在病例樣本中不同于對照樣本。競爭通路富集分析是目前最流行的方法,通常適用于基因表達數(shù)據(jù)。然而,如果單個基因差異不顯著,需要在通路基因集水平匯集以識別信號,例如在分析罕見基因時,則必須使用自包含測試突變或其他低單基因計數(shù)的數(shù)據(jù)。在特定環(huán)境下,混合方法可能比獨立測試更可取。例如,對于罕見的CNV數(shù)據(jù),糾正對全球CNV負擔的自包含檢測可導致更具體的生物學結果。最后,競爭性富集測試(如Fisher’s precision test)忽略了基因之間的相關性,而修改后的競爭性測試(如Camera71)考慮到了這些因素,因此通常會產生更嚴格的結果(例如,參見補充方案3)。獨立測試不存在這個問題。 |
| 總之,如果數(shù)據(jù)中的基因可以進行排序,那么應該使用排序測試。Fisher’s precision檢驗通常用于未排序的基因列表,該檢驗的修正版本可用于排序列表。在大多數(shù)情況下,競爭性測試是足夠的,除非基因水平的信號很弱。 |
? g:Profiler還包括一個有序富集測試,它適用于按分數(shù)排序的多達幾千個基因的列表,而基因組中的其他基因缺乏有意義的排序信號。例如,顯著突變的基因可以根據(jù)癌癥驅動預測方法的得分進行排序。該分析在輸入基因的更大的子列表上重復了修正的Fisher精確測試,并報告了每個通路P值最大的子列表。g:Profiler搜索一組表示基因本體論(GO)術語、通路、網絡、調控元件和疾病表型的基因集??梢赃x擇主要的基因集類別自定義搜索。
? 使用Fisher精確試驗或相關試驗的途徑富集方法需要對背景基因進行定義以便進行比較。所有帶注釋的蛋白質編碼基因通常被用作默認值。如果實驗只能直接測量所有基因的一個子集,這將導致P值的不適當膨脹和假陽性結果。例如,在分析來自目標測序或磷蛋白組學實驗的數(shù)據(jù)時,設置自定義背景非常重要。適當?shù)淖远x背景將分別包括測序面板中的所有基因或所有已知的磷蛋白。
Stage2B階段:利用GSEA對序列基因列表進行通路富集分析(步驟6B) Stage 2B:pathway enrichment analysis of a ranked gene list using GSEA(Step 6B)
? 在GSEA軟件(Step 6B) (Box 4)中對一個排序的基因列表進行路徑富集分析,GSEA是一種無閾值的方法,它根據(jù)所有基因的差異表達等級或其他得分進行分析,不需要事先進行基因篩選。GSEA特別適合,當基因組中的所有或大部分基因(例如RNA-seq數(shù)據(jù))都可以使用rank時,推薦使用GSEA。然而,不合適當只有一小部分基因有等級可用時,例如,在一個識別顯著突變的癌癥基因的實驗中(2A階段;步驟6)。
? GSEA搜索的是基因富集在排名基因列表的頂端或底部的路徑,其富集程度超出了單憑偶然因素的預期。例如,如果細胞周期中涉及到最高差異表達的基因,這表明細胞周期通路在實驗中受到調控。相比之下,如果細胞周期基因在整個排列列表中隨機分布,則細胞周期通路可能不會受到顯著調控。為了計算一個通路的富集分數(shù)(ES), GSEA逐步檢查從排名列表的頂部到底部的基因,如果一個基因是通路的一部分,則增加ES,否則降低分數(shù)。這些運行和的值被加權,因此在最頂端(和最底部)的序列基因中的富集被放大,而在更中等的序列基因中的富集則沒有被放大。ES分數(shù)計算為運行和的最大值,并相對于通路大小進行歸一化,得到反映列表中通路富集程度的歸一化富集分數(shù)(NES)。正的和負的NES值分別表示列表頂部和底部的富集。最后,基于排列的P值計算和修正為多個測試基于排列產生錯誤發(fā)現(xiàn)率(FDR)Q值,范圍從0(非常重要)到1(不重要)(Box3)。同樣的執(zhí)行分析排名從底部的基因列表來確定富集在底部的列表中的通路。使用FDR Q值閾值(如Q < 0.05)選擇得到的通路,使用NES進行排序。此外,GSEA分析的“前沿”方面確定了對檢測到的通路富集信號貢獻最大的特定基因。
? GSEA測定ES統(tǒng)計顯著性(P值)的方法有兩種:基因組排列和表型排列。
? 基因集排列檢測需要一個排序列表,GSEA將觀察到的通路ES與隨機取樣的匹配大小的基因集(例如,1000次)重復分析得到的分數(shù)分布進行比較。
? 表型排列檢測需要所有樣本的表達數(shù)據(jù)(例如,生物復制),以及被稱為“表型”的樣本組的定義,這些樣本組彼此進行比較(例如,病例與對照;腫瘤與正常樣本對照)。將觀察到的pathway ES與將樣本隨機打亂表型類別,并重復分析(如1000次)得到的分數(shù)分布進行比較,包括對排名基因列表和結果通路ES的計算。
? 基因組排列推薦用于有限變異性和生物復制的研究。(如:每種情況2到5個)。在這種情況下,差異基因表達值應該在GSEA之外計算,使用的方法包括方差穩(wěn)定(如edgeR, DESeq和Limma/voom并在通路分析前導入GSEA軟件。表型排列應該與更多的復制一起使用(例如,每個條件至少10個)。表型排列方法的主要優(yōu)點是,相對于基因組排列方法,它在排列過程中保持了具有重要生物學基因相關性的基因組結構。
? 本方案只涵蓋基因組排列,因為它適用于最常見的通路富集分析用例。表現(xiàn)型置換在計算上是昂貴的,而且,對于當前版本的GSEA,需要定制編程來分別計算ESs和差分表達式統(tǒng)計量,以實現(xiàn)數(shù)千種表現(xiàn)型隨機化。對于高級用戶,我們?yōu)檫@個過程提供了一個補充方案(補充方案4)
Stage3:通路富集分析結果可視化與解釋(步驟7-13) Stage 3:visualization and interpretation of pathway enrichment analysis results(Steps 7-13)
? 通路信息本質上是冗余的,因為基因經常參與多個通路,數(shù)據(jù)庫可能通過包含具有許多共享基因的一般和特定通路(如“細胞周期”和“細胞周期的m期”)來分層組織通路。因此,通路富集分析常常強調同一通路的多個版本。將冗通路徑折疊成一個單一的生物學主題可以簡化解釋。我們建議使用EnrichmentMap、ClueGO和其他等可視化方法來解決這種冗余?!癊nrichment”是表示富集通路之間重疊的網絡可視化(fig 1),而“富集圖”是指用Cytoscape創(chuàng)建可視化的應用程序。如果路徑共享許多基因,則路徑顯示為與線(邊)相連的圓圈(節(jié)點)。節(jié)點由ES著色,邊緣的大小取決于連接通路共享的基因數(shù)量。網絡布局和聚類算法自動將相似的路徑分組成主要的生物主題。mentmap軟件將包含pathway富集分析結果的文本文件和包含原始富集分析中使用的pathway基因集的文本文件作為輸入。交互探索通路ES(過濾節(jié)點)和通路之間的連接(過濾邊緣)是可能的(步驟9A(xii和xiii)和9B(xiii和xiv))。多個富集分析結果可以同時顯示在一個富集圖中,在這種情況下,每個富集點使用不同的顏色。如果選擇加載基因表達數(shù)據(jù),點擊通路節(jié)點,將顯示通路中所有基因的基因表達熱圖。
? 富集圖有助于識別有趣的路徑和主題。首先,應確定預期的主題,以幫助驗證通路富集分析結果(陽性對照)。例如,生長相關通路和癌癥的其他特征有望在癌癥基因組數(shù)據(jù)集的分析中被識別出來。第二,以前與實驗環(huán)境無關的通路作為潛在的發(fā)現(xiàn)被更仔細地評估。首先應該研究ESs最強的通路和主題,然后逐步減弱信號(步驟12)。第三,更詳細地檢查有趣的通路,檢查通路內的基因(例如,表達熱圖和GSEA前沿基因)。此外,如果可以的話,可以使用PathVisio等工具,在pathway Commons、Reactome、KEGG或WikiPathways等數(shù)據(jù)庫的通路圖上覆蓋基因表達值。如果沒有可用的圖表,可以使用STRING或GeneMANIA等工具與Cytoscape一起定義用于表達覆蓋的通路基因之間的相互作用網絡。這有助于在視覺上識別實驗中變化最大的通路成分(如單基因或整個信號級聯(lián))(如差異表達)。此外,可以通過整合基因組使用富集圖后分析工具對miRNA或轉錄因子進行目標檢測來尋找富集途徑的主調控因子.最后,可以發(fā)表通路富集分析結果來支持科學結論(例如,兩種癌癥亞型的功能差異),或者用于假設生成或實驗計劃,以支持新通路的識別。此網站(http://www.pathwa ycommons.org/guide/)提供了更多的途徑富集分析示例和對核心概念的更深入解釋。
優(yōu)勢和局限 Advantages and limitations
? 與單基因、轉錄本或蛋白質分析相比,組學數(shù)據(jù)的通路富集分析有幾個優(yōu)點。
首先,它以兩種方式提高了統(tǒng)計能力:(i)它匯集了與給定細胞機制相關的所有基因和基因組區(qū)域的突變計數(shù),提供了更多的計數(shù),這使得統(tǒng)計分析更加可靠;(ii)它將維度從數(shù)以萬計的基因或數(shù)以百萬計的基因組區(qū)域(如SNPs)減少到數(shù)量少得多的“系統(tǒng)”或“通路”,從而降低了多重假設檢驗的成本。其次,結果往往更容易解釋,因為分析是在“細胞周期”等熟悉概念的層次上進行的。第三,該方法可以幫助確定潛在的致病機制和藥物靶點。第四,從相關但不同的數(shù)據(jù)中獲得的結果可能更具可比性,因為結果被投影到更小的共享特征空間(如,有限數(shù)量的通路);第五,該方法有助于整合不同的數(shù)據(jù)類型,如基因組學、轉錄組學和蛋白質組學,這些數(shù)據(jù)類型都可以映射到相同的路徑。因此,將疾病數(shù)據(jù)投射到已知的機制上增加了統(tǒng)計和解釋能力。
? 在解釋通路富集分析結果時,通常包括本方案所涵蓋的結果時,需要考慮以下限制。根據(jù)組學數(shù)據(jù)類型(參見“應用于不同組學數(shù)據(jù)”一節(jié)),還存在其他限制。具體和可選的通路富集分析方法的優(yōu)缺點在“與替代方法的比較”一節(jié)中介紹。
●富集分析對于多個基因具有強生物信號(如差異表達)的通路更有效。例如,在轉錄組學實驗中,我們假設進化已經優(yōu)化了一個細胞,只有在需要的時候才表達一個通路,而這個通路的激活或失活可以被識別為一個通路中許多基因的協(xié)調活動?;钚詢H受少數(shù)基因控制或不受基因表達(如翻譯后調控)控制的通路將永遠不會被視為豐富的。一些通路分析方法通過激活和抑制基因相互作用來構建通路活性的定量模型,其中包括未差異表達但仍是重要調控因子的基因。然而,這些方法需要具有詳細生化和調控基因的通路模型。
●通路邊界往往是任意的,不同的數(shù)據(jù)庫會對特定通路涉及哪些基因存在分歧。通過使用多個數(shù)據(jù)庫,可以分析多個路徑定義,其中一些可能比另一些更能解釋實驗數(shù)據(jù)。
●一些途徑富集方法,如基于Fisher 's精確檢驗的方法,在統(tǒng)計上更有可能識別出更大的途徑。用戶可以通過選擇分析中考慮的基因集大小的上限來解決這個限制。
●在基因列表中排名較高的多功能基因可能導致許多不同途徑的富集,其中一些途徑與實驗無關。排除這些基因后重復分析,可能會發(fā)現(xiàn)富集過度依賴于其存在的通路,或證實通路富集的穩(wěn)健性。
●通路數(shù)據(jù)庫,因此富集結果偏向于已知的通路。事實上,通路富集分析忽略了沒有通路注釋的基因,有時被稱為“基因組的暗物質”,這些基因應該單獨研究。例如,非編碼RNA基因目前缺乏系統(tǒng)的注釋,不能直接用于通路富集分析
●大多數(shù)富集分析方法對基因之間以及通路之間的統(tǒng)計獨立性做出不切實際的假設。有些基因可能總是共同表達的(例如,蛋白質復合體中的基因),而有些通路有共同的基因。因此,標準的FDRs(假定測試之間具有統(tǒng)計獨立性)往往比理想情況更保守或更不保守。盡管如此,它們仍然應該被用于調整多個測試,并為探索性分析和假設生排序富集通路。自定義排列測試可能導致對錯誤發(fā)現(xiàn)的更好估計(參見“與其他方法的比較”一節(jié))。
實驗設計 Experimental design
? 仔細的實驗設計使通路富集分析受益匪淺。否則,分析可能會揭示由實驗偏差或其他混雜因素造成的明顯有意義的結果。本節(jié)介紹了在執(zhí)行此方案之前必須考慮的一系列實驗因素。
實驗條件 Experimental conditions
? 實驗條件必須明確,以便觀察到的主要變化是實驗者想要監(jiān)測的反應,并且與感興趣的生物學問題相關(例如,腫瘤與正常、治療與未治療、四種疾病亞型的比較、時間序列)。
數(shù)量的復制 Number of replicates
? 生物復制是從不同的生物體或細胞系中獲得的獨立處理過的樣本,用于測量樣本之間的變異性并計算統(tǒng)計顯著性(P值)。缺乏復制(即每組一個樣本)將不允許魯棒估計信號的重要性。復制不足可能導致數(shù)據(jù)中缺乏信號(如無顯著差異表達的基因)。在一組樣本中,變異越大,就需要更多的生物復制來精確地測量信號。對于變異性較低的系統(tǒng)(即在受控實驗室條件下具有相同遺傳背景的模型生物,或來自同一克隆的穩(wěn)定細胞系),每個條件至少推薦三到四個生物復制,用于方差穩(wěn)定歸一化的差異分析。方差穩(wěn)定使用一個全局統(tǒng)計模型來“穩(wěn)定”基因方面的方差估計,以減少由少數(shù)重復造成的誤差。對于變異性較高的實驗(如腫瘤樣本),需要更多的復制;理想情況下,應使用正式的統(tǒng)計力計算(有時稱為敏感性測試)后的先導實驗來確定識別差異表達基因或富集途徑信號所需的最小重復數(shù)。由相同樣品的重復實驗組成的技術復制通常不需要成熟的實驗技術,如RNA-seq,它具有較低的技術變異性,但對新技術有幫助。
混雜因素 Confounding factors
? 應該避免與實驗問題無關的因素之間的差異,或者至少在不同的條件下保持平衡,以便統(tǒng)計技術(如廣義線性模型)能夠糾正每個因素。常見因素包括測序批次、核酸提取方案、受試者年齡等。否則,可能無法準確地將實驗信號從實驗響應和混淆因素中分離出來。提前了解重要因素有助于正確的實驗設計。統(tǒng)計探索性分析,如聚類分析或主成分分析(PCA),可以幫助識別未知因素。例如,案例和控件應該單獨集群,而不是通過處理批處理。
離群值 Outliers
? 由于主要的實驗或技術問題,如污染或樣品混淆,離群樣本可能與其他樣本有很大的不同?;蛘?,它們可能呈現(xiàn)極端的生物學特征,例如具有異常侵略性表型的腫瘤樣本。使用PCA或聚類等統(tǒng)計技術可以無偏倚地識別離群樣本。通路富集分析應該有或沒有異常值,以確保穩(wěn)健的結果。系統(tǒng)地去除異常值可能有助于減少實驗中的變異性。
實驗靈敏度 Experimental sensitivity
? 一些實驗方法可以調到更敏感或更不敏感。例如,RNA-seq實驗中的讀取數(shù)影響下游分析。為了量化具有適度變異性的生物系統(tǒng)中的基因表達,并測試具有方差穩(wěn)定的差異表達,至少需要3到5次重復和1000萬個圖譜解讀。為了研究剪接異構體、檢測表達不良的基因或具有復雜細胞混合物(如手術切除標本)的樣本,需要更大的測序深度,如5000 - 1億個映射讀圖。
通路基因集數(shù)據(jù)庫的選擇Choice of pathway gene se database
? 我們建議在開始時只搜索富集通路基因集,因為這些基因集捕獲了熟悉的、容易解釋的正常細胞過程。來自Reactome、Panther、HumanCyc和NetPath的GO生物過程術語和人工調控的分子通路是很好的人類路徑資源(Box2)
篩選GO通路基因集 Filtering GO pathways gene sets
? GO中大量的基因注釋來自于自動數(shù)據(jù)分析,并沒有經過人類管理員的驗證。這些有證據(jù)代碼“從電子注釋推斷”(IEA)。早期的文獻告誡人們不要分析和解釋IEA標記的注釋,而最近的研究表明,這些注釋通常和人類管理員所作的注釋一樣可靠.對于來自人類和常見模型生物體的數(shù)據(jù)的高可信度分析(這些數(shù)據(jù)有許多手動管理的注釋),我們通常建議比較分析版本(有和沒有過濾IEA注釋),以驗證健壯性。然而,IEA的注釋在研究較少的物種中占據(jù)了大部分信息,在這些情況下應該默認使用。刪除IEA編碼的注釋可能會使分析偏向于深入研究的生物學過程。
使用非通路基因集 Use of non-pathway gene sets
? 不同類型的基因組有助于回答各種各樣的問題。例如,與microRNA和轉錄因子靶標相對應的非通路基因集可以用來發(fā)現(xiàn)重要的調控因子。然而,同時分析所有可用的基因集類型會降低數(shù)據(jù)的可解釋性。這也可能導致假陰性,因為所進行的試驗次數(shù)的增加增加了多次試驗校正的效果,降低了單個通路的多次試驗校正的顯著性。因此,我們建議對非途徑和途徑基因集分別進行分析
基因集大小的考慮 Gene set size considerations
? 排除大量的小路徑往往是有益的,因為它們與較大的路徑是冗余的,解釋也比較復雜,而且它們的豐富性使得多重測試校正更加嚴格。大通路也應該被排除,因為這些通路過于普遍(如“新陳代謝”),它們對結果的可解釋性沒有貢獻,當使用某些統(tǒng)計富集方法(如Fisher’s exact test)時,它們的統(tǒng)計意義可能會被夸大。對于分析人類基因表達數(shù)據(jù),我們通常建議排除小于 10-15個基因和(雖然在文獻中可以找到200 - 2000個基因的上限)大于 200-500個基因。然而,對于非人類生物和其他類型的基因集,可能有不同的基因集大小分布,可能需要包括更大的集。通路的篩選依賴于實驗環(huán)境,因為不同的生物學領域在通路數(shù)據(jù)庫中有不同的覆蓋范圍。我們可以通過檢測與實驗相關的幾個感興趣的通路的大小來確定通路大小的上下界。
使用最新的通路基因集的重要性 Importance of using updated pathway gene sets
? 通路富集分析依賴于分析中使用的基因集和數(shù)據(jù)庫,近年來許多利用途徑富集分析的研究受到過時資源的強烈影響。為了提高研究的重現(xiàn)性和透明度,研究人員應在出版物中報告使用的通路富集分析軟件和基因集數(shù)據(jù)庫的分析日期和版本,以及所有分析參數(shù)。除了富集圖譜,作者還應該考慮添加他們所研究的基因列表和完整的富集通路表作為補充信息。
基因標識符的選擇 Choice of gene identifier
? 基因與許多不同的數(shù)據(jù)庫標識符(id)相關聯(lián)。們建議使用明確、惟一和穩(wěn)定的id,因為有些id會隨著時間的推移而過時。對于人類基因,我們建議使用Entrez基因數(shù)據(jù)庫id(例如,4193對應MDM2)或基因符號(MDM2是HUGO基因命名委員會推薦的官方符號)。隨著基因符號的變化,我們建議同時維護基因符號和Entrez基因id。Profiler和相關的g:Convert工具支持將多個ID類型自動轉換為標準ID。
意想不到的通路結果和實驗設計 Unexpected pathway results and experimental design
? 通路分析中所揭示的意想不到的生物學主題可能表明實驗設計、數(shù)據(jù)生成或分析存在問題。例如,細胞凋亡通路的富集可能表明實驗方案存在問題,導致在樣品制備過程中細胞死亡增加。在這些情況下,在進一步解釋數(shù)據(jù)之前,應仔細審查實驗設計和數(shù)據(jù)生成。
應用于不同的組學數(shù)據(jù)Applicatin to diverse omics data
? 該協(xié)議使用RNA-seq data7和體細胞突變data6作為示例,因為這些數(shù)據(jù)類型經常遇到。然而,我們提出的通路富集分析的一般概念適用于許多可以生成基因列表的實驗類型,如單細胞轉錄組學、CNVs、proteomics、phosphphoproteomics、DNA甲基化和metabolomics66。大多數(shù)數(shù)據(jù)類型都需要修改方案,這里只簡要討論一下。對于某些數(shù)據(jù)類型,需要專門的計算方法來生成適合于通路富集分析的基因列表,而對于其他數(shù)據(jù)類型,則需要專門的通路富集分析技術。必須考慮特定于數(shù)據(jù)類型和實驗方法的問題,包括:
●對于某些數(shù)據(jù)類型,建議使用不同的基因標識符。我們推薦蛋白質的UniProt加入數(shù)(例如,MDM2的Q00987)和代謝物的人類代謝組數(shù)據(jù)庫id(例如,MDM2的Q00987)。, ATP記為HMDB00538)。
●某些類型的組學實驗通過設計只捕獲基因或蛋白質的一個子集。為了解決這種有限的覆蓋,途徑富集分析必須定義一個自定義的背景基因集,該基因集可以在實驗中測量。例如,磷酸化蛋白組學實驗只測量具有一個或多個磷酸化位點的蛋白,因此必須使用編碼磷酸化蛋白的一組基因作為自定義背景基因集。否則,通路富集分析將顯示激酶信號傳導和蛋白磷酸化等一般過程的P值過高。
●ChIP-seq實驗中轉錄因子結合位點等短非編碼基因組區(qū)域的通路富集分析需要進一步考慮?;蚪M區(qū)域必須映射到蛋白質編碼基因,并糾正偏差,如在較長的基因中增加信號。GREAT67等工具會自動執(zhí)行這兩項任務。
●跨越多個基因的大基因組間隔(例如,來自全基因組關聯(lián)、CNV和差異甲基化區(qū)域)需要專門的富集檢測,如PLINK CNV基因集負載測試或INRICH。標準的富集測試常常揭示基因組中聚集的基因,由于每個基因被錯誤地當作獨立信號計算,這些基因的信號在統(tǒng)計上被嚴重夸大。與基因組位置相關的基因類型包括嗅覺受體、組蛋白、主要組織相容性復合體(MHC)成員和同源框轉錄因子。一個簡單的解決方法是在富集分析之前,從每個功能相同的基因組簇中只選擇一個有代表性的基因
●對于罕見的遺傳變異,病例對照途徑“burden”檢測是最合適的途徑富集分析方法(參見“與其他方法的比較”一節(jié))。
與其他方法的比較 Comparison to alternative methods
通路富集分析方法
? 本方案推薦使用g:Profiler和GSEA軟件進行通路富集分析。g: profiler使用Fisher精確檢驗分析基因列表,使用修正的Fisher檢驗對基因列表進行排序。它通過R和Python編程語言提供圖形化web界面和訪問。該軟件經常更新,基因集數(shù)據(jù)庫可以作為GMT文件下載(http://biit.cs.ut.ee/gprofiler)。GSEA使用基于排列的測試分析排序的基因列表。該軟件通常作為桌面應用程序運行(http://software.broadinstitute.org/gsea)。目前存在數(shù)百種通路富集分析工具,由于許多工具依賴于outof-date通路數(shù)據(jù)庫,或者與最常用的工具相比缺乏獨特的特征;因此,我們不在這里討論它們。以下是可供選擇的自由通路富集分析軟件工具。盡管我們的協(xié)議中沒有涉及這些工具,但我們建議使用以下工具,基于它們的易用性、獨特的特性或高級編程特性。
●Enrichr:這是一個基于web的富集分析工具non-ranked基因列表基于確切概率法。它使用方便,具有豐富的交互式報告功能,包括>100個基因集數(shù)據(jù)庫(稱為文庫),其中>18萬個基因集在多個類別。功能類似于本協(xié)議中描述的g:Profiler web服務器。
●Camera:這個R Bioconductor包分析基因列表和糾正等inter-gene相關性明顯的基因co-expression數(shù)據(jù)。該軟件可作為Bioconductor中的limma包的一部分使用(https://bioconductor.org/packages/release/bioc/html/limma.html;這是一個高級工具,需要編程專家;補充方案3)。
●GOseq:這個R Bioconductor包分析從RNA-seq實驗,用戶修正如基因長度等協(xié)變量選擇來基因列表(https://bioconductor.org/packages/release/bioc/html/goseq.html;這是一個高級工具,需要專門的編程知識)
● Genomic Regions Enrichment of Annotations Tool (GREAT):與分析基因列表的常用方法不同,GREAT分析基因組區(qū)域,如DNA結合位點,并將其與鄰近基因連接,進行通路富集分析(http://bejerano.stanford.edu/great/public/html/)。
可視化工具:
? 本方案建議使用富集圖進行通路富集分析可視化,以幫助解釋。EnrichmentMap是一個Cytoscape應用程序,它可以將通路富集分析的結果可視化,并將途徑顯示為一個網絡,其中重疊的途徑聚集在一起,以識別結果中的主要生物主題,從而簡化解釋(http://www.baderlab.org/software/mentmap)。兩個有用的可視化工具是:
●ClueGO:這個Cytoscape應用程序在概念上類似于EnrichmentMap,提供了一個基于網絡的可視化,以減少路徑富集分析結果的冗余。它還包括一個用于使用Fisher 's精確測試分析GO注釋的通路富集分析特性。然而,目前它只支持GO基因集。
●PathVisio:這個桌面應用程序提供了一個互補EnrichmentMap和ClueGO可視化方法。PathVisio使用戶能夠在感興趣的基因和蛋白質相互作用的背景下直觀地解釋組學數(shù)據(jù)。根據(jù)用戶提供的組學數(shù)據(jù)(https://www.pathvisio.org), PathVisio顏色通路基因。這是PathVisio相對于mentmap和ClueGO的主要優(yōu)勢。
拓撲感知通路分析方法Topology-aware pathway analysis methods
? 大多數(shù)通路富集分析方法對同一通路中的所有基因都進行統(tǒng)一處理,忽略了基因間的相互作用。相比之下,拓撲感知方法顯式地模擬基因間的相互作用。CePa、GANPA和THINK-Back使用物理基因相互作用或共表達網絡為每個通路中的每個基因分配權重。權重可以通過測量網絡中基因的重要程度,如度、基因連接數(shù)、中介中心度等來確定,可以集成到傳統(tǒng)的途徑富集分析方法中,如GSEA。盡管調控和生化基因相互作用有用且可能更準確,但與物理相互作用網絡和共表達相比,調控和生化基因相互作用可用于更少的基因和通路。我們預期這些方法將變得更有用,因為更多的基因相互作用的途徑是在詳細的分子實驗的特點。然而,目前從文獻中收集和整理高質量和生物化學詳細的通路數(shù)據(jù)是復雜和昂貴的。因此,在可預見的未來,本方案中描述的通路富集分析方法可能仍將是最廣泛使用的方法
未來的角度 Future perspective
? 目前的通路富集分析方法為基因組學實驗中活躍的途徑提供了一個有用的高層次概述。然而,這些方法考慮了一個只涉及基因集的簡化通路視圖。下一代通路分析方法將整合更多的生物通路細節(jié),建立基于多種類型基因組數(shù)據(jù)的多樣本檢測的通路模型,并考慮數(shù)據(jù)中的正調控關系和負調控關系。例如,用單細胞RNA-seq數(shù)據(jù)參數(shù)化的定性數(shù)學模型可能有一天能夠準確預測能夠治療正在研究的特定疾病的藥物組合
方案概述Overview of the protocol
? 這個循序漸進的方案解釋了如何使用g:Profiler(過濾基因列表)和GSEA(未過濾的、全基因組的、排序的基因列表)完成通路富集分析,然后使用富集圖進行可視化和解釋。為g:Profiler分析提供的示例數(shù)據(jù)是癌癥基因組圖譜(TCGA)外顯子測序數(shù)據(jù)中發(fā)現(xiàn)的12個類型的3200個腫瘤的頻繁體細胞單核苷酸變異(SNVs)基因列表。GSEA分析提供的示例數(shù)據(jù)是TCGA定義的兩種卵巢癌亞型的差異表達基因列表。
材料 Materials
設備Equipment
硬件Hardware
●可上網且內存≥8gb的個人電腦。1gb內存足夠運行GSEA分析;然而,Cytoscape(需要運行mentmap軟件)需要≥8gb 內存。
軟件Software
●使用g:Profiler進行通路富集分析的當代web瀏覽器(如Chrome)(步驟6)。
●g:Profiler(https://biit.cs.ut.ee/gprofiler/)
●運行GSEA和Cytoscape需要Java標準版(http://www.oracle.com/technetwork/java/javase/downloads/index.html)
●GSEA桌面應用程序(http://software.broadinstitute.org/gsea/downloads.jsp)用于通路富集分析(步驟6B)。
●富集圖可視化需要Cytoscape桌面應用程序(http://www.cytoscape.org/download.php)和以下Cytoscape應用程序:mentmap, v.3.1或更高;clusterMaker, v.0.9.5或更高;WordCloud, v.3.1.0或更高;AutoAnnotate,v,1.2.0或更高。通過從Cytoscape應用程序商店安裝“EnrichmentMap Pipeline Collection”(http://apps.cytoscape.org/apps/mentmappipelinecollection),可以方便地下載并一起安裝這些軟件程序。
輸入數(shù)據(jù)Input data
CRITICAL(重點:):
? 我們提供了可下載的示例文件,這些文件在整個方案中都被引用(補充表1-13)。我們建議在啟動之前將所有這些文件保存在個人項目數(shù)據(jù)文件夾中。我們還建議創(chuàng)建一個額外的結果數(shù)據(jù)文件夾來保存在執(zhí)行協(xié)議時生成的文件。
●感興趣的基因列表或排序基因列表
? 步驟6A的示例數(shù)據(jù)。g:Profiler需要一個文本文件或電子表格中的每行一個基因列表,準備復制并粘貼到web頁面:為此,我們使用TCGA外顯子組測序數(shù)據(jù)中發(fā)現(xiàn)的3200個12種類型腫瘤的頻繁體細胞SNVs基因。MuSiC癌癥驅動突變檢測軟件被用于查找127癌癥驅動基因顯示高于預期的基因突變頻率在癌癥樣本(補充表1,來自參考文獻6補充表4 的列B。)?;蛞罁?jù)極影的重要性(FDR Q值)和突變頻率(沒有顯示)降序排名。
步驟6B的示例數(shù)據(jù)。GSEA需要一個帶有基因評分的RNK文件。RNK文件是一個兩列文本文件,第一列是基因id,第二列是基因得分?;蚪M中的所有(或大部分)基因都需要有一個分數(shù),而基因id需要匹配GMT文件中使用的那些。我們提供了TCGA中卵巢癌差異表達基因的排序列表(補充表2)。本隊列先前根據(jù)基因表達數(shù)據(jù)分為四種分子亞型,分別為分化型、免疫反應型、間質型和增殖型。我們比較了免疫反應性和間充質亞型,以證明該方案。補充方案1的步驟5顯示了如何創(chuàng)建該文件。
●通路基因數(shù)據(jù)庫
- 步驟6A, g:Profiler維護來自多個來源的最新的通路基因集集,不需要用戶進一步輸入,但步驟6B (GSEA)需要通路基因集數(shù)據(jù)庫。補充表3包含一個用于標準GMT格式的通路富集分析的通路基因集數(shù)據(jù)庫,可從http://baderlab.org/GeneSets下載。該文件在2017年7月1日下載包含從8個數(shù)據(jù)來源的通路:GO、Reactome、Panther、NetPath、NCI79、MSigDB curated gene sets (C2 collection,不包括Reactome和KEGG)、MSigDB Hallmark (H collection)和HumanCyc??梢詮?a target="_blank" rel="nofollow">http://baderlab.org/GeneSets獲得每月更新一次的基因集。GMT文件是一個文本文件,其中每一行代表一個單一通路的基因集。每一行都包含一個通路ID、一個名稱和以制表符分隔的格式列出的相關基因。
過程Procedure
軟件安裝 Software installation 時間5分鐘
1.從方案補充資料中下載所需的輸入輸出文件。
●創(chuàng)建兩個目錄,項目數(shù)據(jù)文件夾和結果數(shù)據(jù)文件夾。
●將下載的所有輸入和示例輸出文件放入項目數(shù)據(jù)文件夾。
●在完成方案的過程中,將新生成的文件放入結果數(shù)據(jù)文件夾。
2 .安裝Java 8或更高。請遵循http://www.oracle.com/technetwork/java/javase/downloads/index.html上的Java JRE下載和安裝說明
3.下載最新版本的GSEA。我們建議使用javaGSEA桌面應用程序在http://www.broadinstitute.org/gsea/downloads.jsp上。需要免費注冊。
4.從http://www.cytoscape.org下載最新版本的Cytoscape。Cytoscape v.3.6.0或更高的要求。
5.所需的Cytoscape應用程序。
●啟動Cytoscape。
●進入Apps→App Manager(即,打開Apps菜單,選擇item App Manager)。
●在Install Apps選項卡搜索欄中,搜索EnrichmentMap。
●點擊中心面板上的EnrichmentMap Pipline Colletion。驗證它是v.1.0.0或更高。
●點擊Install按鈕。
●轉到當前已安裝選項卡,驗證應用程序(EnrichmentMap、clusterMaker2、WordCloud和AutoAnnotate)是否已安裝。
通路富集分析 Pathway enrichment analysis 3-20分鐘
6.可以使用g:Profiler(選項A)分析數(shù)十到數(shù)千個基因的平面(未排序的)基因列表。從組學數(shù)據(jù)編譯一個基因列表需要一個統(tǒng)計閾值。相比之下,全基因組基因列表適合使用GSEA進行途徑富集分析(選項B)。使用GSEA進行分析的基因列表不需要使用統(tǒng)計閾值進行預先篩選。部分、過濾排序的基因列表也可以用g:Profiler進行分析。選擇步驟6A或6B,這取決于您擁有的基因列表的類型。
(A)利用g:Profiler對基因列表進行通路富集分析
?(i)打開g:Profiler網站http://biit.cs.ut.ee/gprofiler/ (Fig. 2) 。

(ii) 將基因列表(補充表1)粘貼到屏幕左上角的查詢字段中?;蛄斜砜梢允强崭穹指舻模部梢允敲啃幸粋€。默認情況下,用于分析的生物體是Homo sapiens。輸入列表可以包含基因和蛋白質id、符號和登錄號的混合。重復的和無法識別的id將自動刪除,并且在提交查詢后,可以在交互式對話中細化模糊的符號
(iii)勾選“Ordered query”旁邊的方格。該選項將輸入視為有序的基因列表,并在列表的開頭優(yōu)先排列突變ESs較高的基因。
(iv)(可選)勾選No electronic GO annotations旁邊的復選框。此選項將丟棄不太可靠的GO注釋(IEAs),這些注釋不需要手動檢查。
(v)使用右側菜單設置基因注釋數(shù)據(jù)過濾器。我們建議初始途徑富集分析只包括GO生物過程(BPs)和Reactome分子途徑。選中這兩個復選框并取消選中菜單中的所有其他復選框。
(vi)點擊“Show Advanced Options”可設置附加參數(shù).
(vii)將下拉菜單中的功能類別大小設置為5 (' min ')和350 (' max ')。大路徑的解釋價值有限,而眾多的小路徑由于過多的多重檢驗而降低了統(tǒng)計能力
(viii)在下拉菜單中將查詢/術語交集的大小設置為3。分析將只考慮在輸入基因列表中包含三個或更多基因的更可靠的通路。
(ix)點擊 g:Profile!來運行分析。將顯示一個圖形化的熱圖圖像,沿著y軸(左側)顯示檢測到的路徑,沿著x軸(頂部)顯示輸入列表的相關基因。結果的路徑被分層組織成相關的組。Pfofiler默認使用圖形輸出,當發(fā)現(xiàn)大量路徑時,切換到文本輸出。g:Profiler只返回具有統(tǒng)計意義的路徑,P值經過多次測試校正(稱為Q值)。默認情況下,報告Q值<0.05的結果。g:Profiler報告無法識別和模糊的基因id,可以手動解析.
(x)使用下拉菜單輸出類型并選擇選項Generic Enrichment Map(選項卡)。該文件是需要可視化的路徑結果用Cytoscape 和 EnrichmenMap
(xi) 再次使用Profile 更新的參數(shù)運行分析。所需的鏈接下載數(shù)據(jù)(GEM)格式將出現(xiàn)在g:Profiler接口下。從鏈接下載文件并將其保存在步驟1中創(chuàng)建的結果數(shù)據(jù)文件夾中。示例結果見補充表4.
(xii)點擊選項表格底部的Advanced Opations鏈接名稱,下載所需的GMT文件。GMT文件是一個壓縮的ZIP歸檔文件,包含g:Profiler(例如,gprofiler_hsapiens. name .gm . ZIP)使用的所有基因集?;蚣募磾?shù)據(jù)源劃分。下載并解壓ZIP存檔到項目文件夾。該分析所需的所有基因集都在hsapiens.path . Name.gmt(Supplementary_Table5_hsapiens.pathways.NAME.gmt)。將保存的文件放在步驟1中創(chuàng)建的結果數(shù)據(jù)文件夾中。
(B)利用GSEA對序列基因表進行通路富集分析 時間~ 20分鐘
(i)打開下載的GSEA文件(GSEA .jnlp),啟動GSEA(fig3)。
(ii)點擊GSEA分析部分步驟左上角的Load Data
(iii)在Load Data選項卡中,單擊Browse for files…
(iv)找到項目數(shù)據(jù)文件夾,并選擇supplementary_table2_mesenvsimmuno_rnaseq_rank.rnk文件。還可以使用shift-click(補充表3)等多重選擇方法選擇pathway gene set definition (GMT)文件,點擊Choose按鈕繼續(xù)。消息框指示文件已成功加載。單擊OK按鈕繼續(xù)。
CRITICAL STEP (重要一步)GSEA還提供了自己的基因集文件,這些文件可以通過GSEA接口從MSigDB resource直接訪問。這些文件不需要導入GSEA。要定義GMT文件,請在Select one或more genesets對話框的第一個選項卡gene Matrix(來自網站)中找到MSigDB基因集文件。MSigDB基因集文件的最新版本以粗體顯示,但是也可以訪問早期版本。要選擇多個基因集文件,在Windows中按住control鍵或在macOS中按住command鍵時單擊所需的文件。
(v)點擊工具欄下的Run gseapreanked。一個預先排序的基因列表選項卡上的Run GSEA將出現(xiàn)。

下列參數(shù)的說明:
(vi)基因集數(shù)據(jù)庫。點擊右邊的“(…)”按鈕,等待幾秒鐘,基因集選擇窗口就會出現(xiàn)。使用右上角的箭頭進入Gene matrix (local gmx/gmt)選項卡。單擊下載的本地GMT文件“Supplementary_Table3_Human_GOBP_AllPathways_no_GO_iea_July_01_2017_symbol”。,然后單擊窗口底部的OK。
(vii)排列數(shù)。這指定了隨機化基因集以創(chuàng)建空分布以計算P值和FDR Q值的次數(shù)。使用1,000個排列的默認值。
CRITICAL STEP:排列次數(shù)越多,計算時間越長。為了計算每個基因集的FDR Q值,通過遍歷每個基因集中的基因并重新計算隨機集的P值來隨機化數(shù)據(jù)集。這個參數(shù)指定了隨機化操作的次數(shù)。執(zhí)行的隨機化越多,F(xiàn)DR Q值估計就越精確(到一定程度,因為最終FDR Q值將穩(wěn)定在實際值)。在具有16 G 內存和i7 3.4 ghz處理器的Windows機器上,使用上述定義的參數(shù)對我們的示例集進行10、100、500或1000個隨機化分析,分別需要155秒、224秒、544秒和1012秒。
(vii)排序列表。通過單擊最右邊的箭頭并選擇排序基因,顯示已排序的文件(補充表2)
(ix)點擊基本字段旁邊的“Show”按鈕,以顯示其他選項.
(x)分析的名字。將默認的“my_analysis”更改為一個特定的名稱,例如,“Mesen_vs_Immuno”
(xi)最大尺寸:排除較大的集。默認情況下,GSEA將上限設置為500。將這個設置為200從分析中刪除較大的集合。
(xii)將結果保存在此文件夾中。導航到GSEA應該保存結果的文件夾。我們建議您選擇步驟1中創(chuàng)建的結果數(shù)據(jù)文件夾。否則,GSEA將使用主目錄中的默認位置' gsea_home/output/[date] '。
Running GSEA
(xiii)點擊窗口底部的Run按鈕運行GSEA。如果按鈕不可見,則展開窗口。窗口左下角的GSEA reports窗格將顯示“正在運行”狀態(tài)。完成后將更新為“Success”。這將是一個長時間運行的過程,具體取決于計算機的速度.
Examination of GSEA results GSEA結果檢查
(xiv) GSEA分析完成后,屏幕左下角會出現(xiàn)一個綠色通知“成功”。所有GSEA輸出文件將自動保存,并可在GseaPreranked接口(步驟6B(xii))中指定的文件夾中使用。單擊Success在web瀏覽器中打開結果。這些通路富含top-ranking基因(如,上調)即在第一個集合中顯示(' na_pos ';本方案中“皮質間的”)和富含bottome-ranked基因的通路。(如,下調)顯示在第二組(' na_neg ';免疫反應性的)(fi'g4)

(xv)在“網頁瀏覽器結果摘要”內,按一下“結果”下的“快照”連結,可瀏覽前20項結果。第一個表型(' na_pos ')最重要的通路應該在最頂端(即(圖左側)。相反,對于第二種表型(' na_neg '),最重要的通路應該清楚地顯示富集在底端(即,基因下調(圖右側)(fig4)
CRITICAL STEP:使用表達式數(shù)據(jù)作為輸入(而不是預先計算的秩文件)、表現(xiàn)型標簽(即提供生物條件或樣本類)作為每個樣本的輸入,并在GSEA ' cls '文件中指定。運行GSEA時,指定了兩種表型進行比較以進行差異基因表達分析,這些表型用于通路富集結果文件。相比之下,在GSEA預先排序的分析中(即排名,當一個基因列表由用戶提供),GSEA自動標簽一個表型na_pos”(對應于濃縮在基因排名列表的頂部,在那里“na”意味著表型標簽是“不可用”)和其他“na_neg”(對應于富集基因底部的排名列表)。EnrichmentMap軟件也使用這個約定,指定第一個表現(xiàn)型為“陽性”,第二個表現(xiàn)型為“陰性”。
(xvi)在web瀏覽器結果摘要中,單擊HTML格式的詳細富集結果,并使用行號檢查FDR Q值<0.05的路徑數(shù)量,以確定協(xié)議下一步富集map的適當閾值。如果在Q < 0.05沒有通路的報道,可以使用更寬松的閾值,如Q < 0.1或Q < 0.25(fig5)。閾值Q < 0.25提供了非常寬松的過濾,在這個水平上發(fā)現(xiàn)數(shù)千個富集的通路并不罕見。穩(wěn)健分析應該使用Q < 0.05或更低的截止值。僅使用未糾正的P值進行過濾是不合適的,也不推薦使用.
