GSEA-基因集富集分析

1.為什么寫?

網(wǎng)上教程一抓一大把,有的能重復(fù),有的不能重復(fù)不了,很多原因。別人能做的不代表你能復(fù)制,實(shí)踐出真知。

不做搬運(yùn)工,只寫有用的,防止以后忘記。每個(gè)人理解不同,記錄下來,供自己今后參考,順便分享他人。

2.GSEA基本概念

Gene Set Enrichment Analysis

思路:

使用預(yù)定義的基因集(通常來自功能注釋或先前實(shí)驗(yàn)的結(jié)果),將基因按照在兩類樣本中的差異表達(dá)程度排序,然后檢驗(yàn)預(yù)先設(shè)定的基因集合是否在這個(gè)排序表的頂端或者底端富集。

基因集富集分析檢測基因集合而不是單個(gè)基因的表達(dá)變化,因此可以包含這些細(xì)微的表達(dá)變化,預(yù)期得到更為理想的結(jié)果。

比較GO/KEGG等富集分析:

GO/KEGG差異基因的一刀切法——僅關(guān)注少數(shù)幾個(gè)顯著上調(diào)或下調(diào)的基因,容易遺漏部分差異表達(dá)不顯著卻有重要生物學(xué)意義的基因,忽略一些基因的生物特性、基因調(diào)控網(wǎng)絡(luò)之間的關(guān)系及基因功能和意義等有價(jià)值的信息。

GSEA不需要指定明確的差異基因閾值,算法根據(jù)實(shí)際整體趨勢分析。

3.MSigDB數(shù)據(jù)庫

http://software.broadinstitute.org/gsea/msigdb

定義了已知基因集,包括H和C1-C7八個(gè)系列(Collection/cluster),每個(gè)系列內(nèi)容為:

H: hallmark gene sets (效應(yīng))特征基因集合,共50組;

C1: positional gene sets 位置基因集合,根據(jù)染色體位置,共326個(gè);

C2: curated gene sets:(專家)共識基因集合,基于通路、文獻(xiàn)等(包括KEGG);

C3: motif gene sets:模式基因集合,主要包括microRNA和轉(zhuǎn)錄因子靶基因兩部分;

C4: computational gene sets:計(jì)算基因集合,通過挖掘癌癥相關(guān)芯片數(shù)據(jù)定義的基因集合;

C5: GO gene sets:Gene Ontology 基因本體論(包括BP/CC/MF);

C6: oncogenic signatures:癌癥特征基因集合,大部分來源于NCBI GEO 未發(fā)表芯片數(shù)據(jù);

C7: immunologic signatures: 免疫相關(guān)基因集合。

后續(xù)做分析時(shí)需要從中選擇感興趣的基因集。

4.分析過程

1)軟件下載(需java環(huán)境)

http://software.broadinstitute.org/gsea/downloads.jsp

2)設(shè)置

a. 準(zhǔn)備基因表達(dá)量矩陣文件:txt或gct(最好將基因名轉(zhuǎn)換為symbol,后續(xù)參數(shù)不用chip來轉(zhuǎn)化ID)

image

數(shù)據(jù)格式可參考:

http://www.broadinstitute.org/cancer/software/gsea/wiki/index.php/Data_formats

測試數(shù)據(jù):

http://software.broadinstitute.org/gsea/datasets.jsp

b. 準(zhǔn)備說明文件:cls

image

第一行:樣本數(shù)/分組數(shù)/always1

第二行:分組名

第三行:分組信息(我這里28個(gè)上部位,21個(gè)下部位)

load data,成功會顯示

c. 選擇已知基因集(即以上8個(gè)cluster)

run GSEA,設(shè)置參數(shù)

Gene sets database:8個(gè)cluster及其分支,可多選

image

我這里選擇kegg和all GO,若是想研究更多,可8個(gè)cluster全部選擇all。

d. 設(shè)置參數(shù)

Required fields

expression dataset:選擇表達(dá)量文件

number of permutations:置換次數(shù),越大越好,但對計(jì)算有要求,我選擇500

phenotype labels:選擇表型說明文件cls

collapse dataset to gene symbols:若是gene symbols編號,選擇false(我這里已經(jīng)提前轉(zhuǎn)換),否則選擇true,即用chip來對ID轉(zhuǎn)換

permutation type:置換類型,#一般每組樣本數(shù)目大于7個(gè)時(shí),建議選擇phenotype,否則選擇gene sets,官方文檔有說明#,我這里還是選擇gene_set

chip platform:和上面gene symbols參數(shù)對應(yīng),不需轉(zhuǎn)換不用選擇,否則選擇對應(yīng)的芯片

Basic fields

analysis name:項(xiàng)目名

save results in this folder:結(jié)果保存路徑

image

其他我都設(shè)置為默認(rèn),沒有深加探索,可看官網(wǎng),最后點(diǎn)run

GSEA運(yùn)行的原理可分為三步:1) 計(jì)算富集分?jǐn)?shù)(Enrichment Score,ES);2) 估計(jì)富集分?jǐn)?shù)的顯著性水平;3) 矯正多重假設(shè)檢驗(yàn)。

完成后顯示:

image

5.結(jié)果解讀

保存文件路徑中生成一堆文件:

image

最??吹氖沁@種圖:

image
image

** 原理:**

根據(jù)所有基因在兩組樣本(case-control,我這里是upper-lower)的差異度量不同(共有六種差異度量,默認(rèn)是signal 2 noise,GSEA官網(wǎng)有提供公式,也可以選擇大家熟悉的foldchange),根據(jù)差異度量大小排序,并且Z-score標(biāo)準(zhǔn)化。圖中間的豎杠,就是每個(gè)gene set里的基因在所有排序好基因的位置,如果gene set里的基因集中在所有基因的前部分,就是在case里面富集,如果集中在后面部分,就是在control里面富集著(結(jié)果中的熱圖就是豎杠的具象)。

我們一般關(guān)注ES值,峰出現(xiàn)在前端還是后端(ES值大于0在前端,小于0在后端)以及Leading-edge subset(即對富集貢獻(xiàn)最大的部分,領(lǐng)頭亞集);在ES圖中出現(xiàn)領(lǐng)頭亞集的形狀,表明這個(gè)功能基因集在某處理?xiàng)l件下具有更顯著的生物學(xué)意義。

ES算法:

image

每個(gè)基因在gene set里的ES score取決于這個(gè)基因是否屬于該gene set及其差異度量,上圖的差異度量就是FC(foldchange),將每個(gè)gene set里的所有基因的ES score一個(gè)個(gè)加起來,叫running ES score,直到ES score達(dá)到最大值,就是這個(gè)gene set最終的ES score。

可以一一查看每個(gè)圖,也可點(diǎn)擊上面的GSEA reports查看success的網(wǎng)頁報(bào)告:

image

gsea_report報(bào)告結(jié)果中會有一個(gè)類似下圖的表格,主要關(guān)注這三個(gè)部分:

  1. 標(biāo)準(zhǔn)化富集分?jǐn)?shù)(NES);

  2. 標(biāo)準(zhǔn)化顯著性水平(NOM p-val);

  3. 矯正多重假設(shè)檢驗(yàn)(FDR q-val);

一般認(rèn)為NES絕對值≧ 1.0,NOM p-val ≦ 0.05,F(xiàn)DR q-val ≦ 0.25是有意義的基因集合,當(dāng)然也要結(jié)合具體情況具體分析。

image

如果英語好,直接看官方文檔,很詳細(xì):http://www.gsea-msigdb.org/gsea/doc/GSEAUserGuideFrame.html?_Interpreting_GSEA_Results

References:

https://mp.weixin.qq.com/s/NnRfeTLDb-42a8CV3kymZQ

http://www.bio-info-trainee.com/1282.html

http://www.bioinfo-scrounger.com/archives/557

https://mp.weixin.qq.com/s?src=11&timestamp=1535510844&ver=1089&signature=2333yjeN-l1IB5KVYybBbDKOujytHQe8id7ztWsR0aSthe-uW2tNRlCloBh4TGFffss0ky9UrcuqEkmLBug2PC*LQN79FaHzZEe-c5eGtBQ-8UacB1NqZHTQcw0BuZIX&new=1

https://mp.weixin.qq.com/s?__biz=MzAwMzY4MTYxNw==&mid=2655754973&idx=1&sn=3b87d5cb8ddd2d5d77e413e9a87342da&chksm=808846e3b7ffcff5a6b41985b707f52170f20eabe15fc43264b3d14a3ccf4100263789eab856&mpshare=1&scene=21&srcid=1209nycSnM84dUY4eRL3cWBP#wechat_redirect

https://mp.weixin.qq.com/s?__biz=MzAwMzY4MTYxNw==&mid=2655753566&idx=2&sn=5b5b2c93a7618a69da2cbc6638f03da0&chksm=80884960b7ffc076af53ae74caadb5dbb25d240c31660792e8727964d0177d6a17af7ca5fc5c&mpshare=1&scene=21&srcid=1209df2mYAyd4WSClBsfwGwb#wechat_redirect

ES算法:http://www.baderlab.org/CancerStemCellProject/VeroniqueVoisin/AdditionalResources/GSEA

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容