青青久青青久,日韩婷婷五月天

1.為什么寫？

網(wǎng)上教程一抓一大把，有的能重復(fù)，有的不能重復(fù)不了，很多原因。別人能做的不代表你能復(fù)制，實(shí)踐出真知。

不做搬運(yùn)工，只寫有用的，防止以后忘記。每個(gè)人理解不同，記錄下來，供自己今后參考，順便分享他人。

2.GSEA基本概念

Gene Set Enrichment Analysis

思路：

使用預(yù)定義的基因集（通常來自功能注釋或先前實(shí)驗(yàn)的結(jié)果），將基因按照在兩類樣本中的差異表達(dá)程度排序，然后檢驗(yàn)預(yù)先設(shè)定的基因集合是否在這個(gè)排序表的頂端或者底端富集。

基因集富集分析檢測基因集合而不是單個(gè)基因的表達(dá)變化，因此可以包含這些細(xì)微的表達(dá)變化，預(yù)期得到更為理想的結(jié)果。

比較GO/KEGG等富集分析：

GO/KEGG差異基因的一刀切法——僅關(guān)注少數(shù)幾個(gè)顯著上調(diào)或下調(diào)的基因，容易遺漏部分差異表達(dá)不顯著卻有重要生物學(xué)意義的基因，忽略一些基因的生物特性、基因調(diào)控網(wǎng)絡(luò)之間的關(guān)系及基因功能和意義等有價(jià)值的信息。

GSEA不需要指定明確的差異基因閾值，算法根據(jù)實(shí)際整體趨勢分析。

3.MSigDB數(shù)據(jù)庫

http://software.broadinstitute.org/gsea/msigdb

定義了已知基因集，包括H和C1-C7八個(gè)系列（Collection/cluster），每個(gè)系列內(nèi)容為：

H: hallmark gene sets （效應(yīng)）特征基因集合，共50組；

C1: positional gene sets 位置基因集合，根據(jù)染色體位置，共326個(gè)；

C2: curated gene sets：（專家）共識基因集合，基于通路、文獻(xiàn)等（包括KEGG）；

C3: motif gene sets：模式基因集合，主要包括microRNA和轉(zhuǎn)錄因子靶基因兩部分；

C4: computational gene sets：計(jì)算基因集合，通過挖掘癌癥相關(guān)芯片數(shù)據(jù)定義的基因集合；

C5: GO gene sets：Gene Ontology 基因本體論（包括BP/CC/MF）；

C6: oncogenic signatures：癌癥特征基因集合，大部分來源于NCBI GEO 未發(fā)表芯片數(shù)據(jù)；

C7: immunologic signatures: 免疫相關(guān)基因集合。

后續(xù)做分析時(shí)需要從中選擇感興趣的基因集。

4.分析過程

1）軟件下載（需java環(huán)境）

http://software.broadinstitute.org/gsea/downloads.jsp

2）設(shè)置

a. 準(zhǔn)備基因表達(dá)量矩陣文件：txt或gct（最好將基因名轉(zhuǎn)換為symbol，后續(xù)參數(shù)不用chip來轉(zhuǎn)化ID）

image

數(shù)據(jù)格式可參考：

http://www.broadinstitute.org/cancer/software/gsea/wiki/index.php/Data_formats

測試數(shù)據(jù)：

http://software.broadinstitute.org/gsea/datasets.jsp

b. 準(zhǔn)備說明文件：cls

image

第一行：樣本數(shù)/分組數(shù)/always1

第二行：分組名

第三行：分組信息（我這里28個(gè)上部位，21個(gè)下部位）

load data，成功會顯示

c. 選擇已知基因集（即以上8個(gè)cluster）

run GSEA，設(shè)置參數(shù)

Gene sets database：8個(gè)cluster及其分支，可多選

image

我這里選擇kegg和all GO，若是想研究更多，可8個(gè)cluster全部選擇all。

d. 設(shè)置參數(shù)：

Required fields

expression dataset：選擇表達(dá)量文件

number of permutations：置換次數(shù)，越大越好，但對計(jì)算有要求，我選擇500

phenotype labels：選擇表型說明文件cls

collapse dataset to gene symbols：若是gene symbols編號，選擇false（我這里已經(jīng)提前轉(zhuǎn)換）,否則選擇true，即用chip來對ID轉(zhuǎn)換

permutation type：置換類型，#一般每組樣本數(shù)目大于7個(gè)時(shí)，建議選擇phenotype，否則選擇gene sets，官方文檔有說明#，我這里還是選擇gene_set

chip platform：和上面gene symbols參數(shù)對應(yīng)，不需轉(zhuǎn)換不用選擇，否則選擇對應(yīng)的芯片

Basic fields

analysis name：項(xiàng)目名

save results in this folder：結(jié)果保存路徑

image

其他我都設(shè)置為默認(rèn)，沒有深加探索，可看官網(wǎng)，最后點(diǎn)run

GSEA運(yùn)行的原理可分為三步：1）計(jì)算富集分?jǐn)?shù)（Enrichment Score，ES）；2）估計(jì)富集分?jǐn)?shù)的顯著性水平；3）矯正多重假設(shè)檢驗(yàn)。

完成后顯示：

image

5.結(jié)果解讀

保存文件路徑中生成一堆文件：

image

最?？吹氖沁@種圖：

image

** 原理：**

根據(jù)所有基因在兩組樣本（case-control，我這里是upper-lower)的差異度量不同（共有六種差異度量，默認(rèn)是signal 2 noise，GSEA官網(wǎng)有提供公式，也可以選擇大家熟悉的foldchange)，根據(jù)差異度量大小排序，并且Z-score標(biāo)準(zhǔn)化。圖中間的豎杠，就是每個(gè)gene set里的基因在所有排序好基因的位置，如果gene set里的基因集中在所有基因的前部分，就是在case里面富集，如果集中在后面部分，就是在control里面富集著（結(jié)果中的熱圖就是豎杠的具象）。

我們一般關(guān)注ES值，峰出現(xiàn)在前端還是后端（ES值大于0在前端，小于0在后端）以及Leading-edge subset（即對富集貢獻(xiàn)最大的部分，領(lǐng)頭亞集）；在ES圖中出現(xiàn)領(lǐng)頭亞集的形狀，表明這個(gè)功能基因集在某處理?xiàng)l件下具有更顯著的生物學(xué)意義。

ES算法：

image

每個(gè)基因在gene set里的ES score取決于這個(gè)基因是否屬于該gene set及其差異度量，上圖的差異度量就是FC（foldchange）,將每個(gè)gene set里的所有基因的ES score一個(gè)個(gè)加起來，叫running ES score，直到ES score達(dá)到最大值，就是這個(gè)gene set最終的ES score。

可以一一查看每個(gè)圖，也可點(diǎn)擊上面的GSEA reports查看success的網(wǎng)頁報(bào)告：