基因富集分析(Gene Set Enrichment Analysis,GSEA)是一種針對全基因組表達譜芯片數(shù)據(jù)的分析方法,將基因與預(yù)定義的基因集進行比較。即綜合現(xiàn)有的對基因的定位、性質(zhì)、功能、生物學(xué)意義等信息基礎(chǔ),構(gòu)建一個分子標(biāo)簽數(shù)據(jù)庫,在此數(shù)據(jù)庫中將已知基因按照染色體位置、已建立基因集、模序、腫瘤相關(guān)基因集和GO基因集等多個功能基因集進行分組與歸類。通過分析基因表達譜數(shù)據(jù),了解它們在特定的功能基因集中的表達狀況,以及這種表達狀況是否存在某種統(tǒng)計學(xué)顯著性。
統(tǒng)計過程:1.計算富集分數(shù)。2.估計富集分數(shù)的顯著程度。3.校正多重假設(shè)檢驗。

流程圖
工具:
GSEA軟件下載:http://software.broadinstitute.org/gsea/downloads.jsp?要下載到Java,這個是在Java基礎(chǔ)上運行的軟件,根據(jù)你的數(shù)據(jù)大小,選擇不同內(nèi)存的版本,2G內(nèi)存開始的GSEA版本需要的是64位的Java 1.8版。
(操作教程:GSEA | Desktop Tutorial)


軟件界面
數(shù)據(jù)準(zhǔn)備:主要準(zhǔn)備一個表達矩陣和一個分組說明的cls文件,軟件界面如上圖,操作簡單,按照步驟Load data and run就行了,比較需要注意的是準(zhǔn)備表達矩陣,如果選取的是GEO的公共數(shù)據(jù)集,就要將數(shù)據(jù)集進行預(yù)處理(采用R/bioconductor Affy和affyPLM程序包對數(shù)據(jù)集原始CEL文件進行質(zhì)量控制后,使用Affy程序包中rma算法對該數(shù)據(jù)集進行進行預(yù)處理。),因為GSEA只支持特定的格式,所以要剔除不必要的信息,將癌組織和對應(yīng)的癌旁組織的數(shù)據(jù)分別提取出來分別作為兩組的表達矩陣(gct文件)以及分組文件(cls文件)(此步驟可以手動excel整理也可以找個代碼模板用R來操作)
data preparing:
1.如果是自己已經(jīng)排序好了的基因,可以直接拿來做GSEA分析的見: GSEAPreranked Page in the GSEA User Guide.
2.如果是affymetrix的表達矩陣,不需要提前進行Present/Marginal/Absent Calls. 來過濾掉一些表達探針,GSEA需要各種情況的表達數(shù)據(jù)。
3.如果是gct and pcl 的表達矩陣,缺失值空著就好了。但是如果缺失值太多了,這樣在計算signal-to-noise的時候,不同group的樣本數(shù)就不一致了,mean和SD都會變好,最好是避免這樣的情況,可以考慮進行插值,或者過濾掉這樣的探針。


我是表達矩陣

我是分組文件
txt文檔格式會不一樣,GSEA有給出模板,照著修改就OK,如果格式有誤或數(shù)據(jù)有問題GSEA會報錯的。(格式參考說明書:Data formats - GeneSetEnrichmentAnalysisWiki)

load data

設(shè)置參數(shù)
成功導(dǎo)入數(shù)據(jù)后,點擊RUN GSEA,這時候要指定幾個參數(shù)的選擇,就是你要用哪些標(biāo)簽數(shù)據(jù)庫來進行分析,以及如何分組等。
1. Expression dataset:輸入的表達矩陣
2. Gene sets database:分析的數(shù)據(jù)庫
3. Number of permutations:置換檢驗的次數(shù)
4. Phenotype labels:選擇比較組,如果你輸入的文件就只有2個組別的話,這個就很方便選一個就行了;如果你輸入的有三個組別及以上的話,則這里就要跟你的需要選擇兩個組別的比較組,而且GSEA也會根據(jù)你的組別信息去表達矩陣中提取相對應(yīng)的數(shù)據(jù)。
5. Collapse dataset to gene symbols:?如果你已經(jīng)ID轉(zhuǎn)化為HUGO gene symbol,那么這里選FALSE,否則選擇TRUE。
6. Permutation type:選擇置換的類型,是random phenotype還是random gene sets,一般每組樣本數(shù)目大于7個時,建議選擇phenotype,否則選擇gene sets。
Chip platform:選擇芯片類型,是對ID進行注釋,即ID轉(zhuǎn)化,選擇ID對應(yīng)的chip文件即可,如果已自行轉(zhuǎn)化了ID的話,則空著就行(那么Collapse dataset to gene symbols應(yīng)選擇否)
提交之后,如果運行失敗會出error提示,成功的話直接進入success的界面。
結(jié)果的解讀:

431/899表示在WT這一分組中,一共有899個功能基因集,其中421個上升
99個基因集的FDE小于25%
118個基因的名義P值小于1%
118個基因的名義P值小于5%
點擊snapshot可以看富集結(jié)果,就是下圖Enrichment plot
點擊enrichment result in html 可以查看所有的富集分析結(jié)果,進去之后可以點開查看每個Enrichment plot的參數(shù)。
點擊enrichment result in excel就可以直接下載附帶結(jié)果的excel。

SIZE:表示基因集里的基因數(shù)量
ES(enrichment score):富集分數(shù)
NES(normalized enrichment score):表示校正后的富集分數(shù)
NOM p-val (nominal p value ): 名義P值
FDR q-val(false discovery rate):錯誤發(fā)現(xiàn)率
FWER p-val:用bonferonni校正后的P值
RANK AT AMX:ES值對應(yīng)的通路基因排名
Leading-edge subset:對富集貢獻最大的基因成員,即領(lǐng)頭亞集,用于定義Leading-edge subset的參數(shù)有:Tags,List,Signal。

Enrichment plot
當(dāng)Enrichment plot過多的時候,可以整理成如下的表格形式展現(xiàn)在文章中。


在這些enrichment plot中,我們最關(guān)注的四個指標(biāo)為ES值、NES、NOM p-val、FDR。
綠色曲線就是gene set里面對應(yīng)的每個基因的enrichment score值(ES),開始時為零,從左到右每遇到一個基因就計算出一個ES值,連成一條綠線。當(dāng)ES值大于0時,表示某一功能基因富集在排序序列的前端,若為小于0時,則某一功能基因富集在排序序列的后端,ES值越高說明這些基因在通路中有富集,非散在分布。中間條形碼似的黑線是gene set里面的基因在背景基因里的位置,每條豎線代表該通路下的基因,從左到右按照表達水平排序。Leading-edge subset(對富集貢獻最大的基因成員,即領(lǐng)頭亞集);在ES圖中出現(xiàn)領(lǐng)頭亞集的形狀,表明這個功能基因集在某處理條件下具有更顯著的生物學(xué)意義;對于結(jié)果的分析,通常認為|NES|>1,NOM p-val<0.05,F(xiàn)DR q-val<0.25的通路下的基因集合是有意義的;NES的絕對值越大,F(xiàn)DR值就越小,說明分析的結(jié)果可信度越高。NOM p-val是針對某一功能基因集得到的ES值的統(tǒng)計顯著性,P值越小,說明基因的富集性越好,但P值很小時,F(xiàn)DR值也可能很大,這說明和其他功能基因子相比較,它的富集并不是很顯著,原因可能是數(shù)據(jù)樣本量較少、雜交信號微弱或者是選擇的功能基因子集并未很好得反映樣本的物理學(xué)意義。

ES score的算法

基因富集的熱圖
熱圖用5種顏色來表示基因表達水平的高低水平

蝴蝶圖顯示的是基因順序和排序度量得分之間的正相關(guān)和負相關(guān)的關(guān)系。
參考文獻:
2.GSEA?(GSEA小組官網(wǎng))
3.http://software.broadinstitute.org/gsea/doc/GSEAUserGuideFrame.html?(說明書)
6. 基因探針富集分析(GSEA)翻譯+心得 (作者為為)
7.3.GSEA-基因富集分析
轉(zhuǎn)自:如何實現(xiàn)GSEA-基因富集分析? - 知乎 (zhihu.com)