GSEA結(jié)果解讀

上一篇GSEA可以做什么之后,繼續(xù)進行結(jié)果解讀

1 Enrichment score(ES)

ES是GSEA最初的結(jié)果,反應(yīng)全部雜交data排序后,在此序列top或bottom富集的程度。
ES原理:掃描排序序列,當出現(xiàn)一個功能集中的gene時,增加ES值,反之減少ES值,所以ES是個動態(tài)值。最終ES的確定是講雜交數(shù)據(jù)排序序列所在位置定義為0,ES值定義為距離排序序列的最大偏差.
ES為正,表示某一功能gene集富集在排序序列前方
ES為負,表示某一功能gene集富集在排序序列后方。
圖中的最高點為此通路的ES值,中間表示雜交數(shù)據(jù)的排序序列。豎線表示此通路中出現(xiàn)的芯片數(shù)據(jù)集中的gene。

2 NES

由于ES是根據(jù)分析的數(shù)據(jù)集中的gene是否在一個功能gene set中出現(xiàn)來計算的,但各個功能gene set中包含的gene數(shù)目不同,且不同功能gene set與data之間的相關(guān)性也不同,因此,比較data set在不同功能gene set中的富集程度要對ES進行標準化處理,,也就是NES
NES=某一功能gene set的ES/數(shù)據(jù)集所有隨機組合得到的ES平均值
NES是主要的統(tǒng)計量。

3 FDR

NES確定后,判斷其中可能包含的錯誤陽性發(fā)現(xiàn)率。FDR=25%意味著對此NES的確定,4次可能錯 1次。GSEA結(jié)果中,高亮顯示FDR<25%的富集set。因為從這些功能gene中最可能產(chǎn)生有意義的假設(shè),促進進一步研究。大多數(shù)情況下,選FDR<25%是合適的,但是,假如分析的芯片data set較少,選擇的是探針隨機組合而不是表型組合,若p不嚴格,那么應(yīng)該選FDR<5%。
一般而言,NES絕對值越大,F(xiàn)DR值就越小,說明富集程度高,結(jié)果可靠。

4 名義p值 nominal p-value

描述的是針對某一功能gene子集得到的富集得分的統(tǒng)計顯著性,顯然,p越小,富集性越好。

以上4個參數(shù)中,只有FDR進行了功能gene子集大小和多重假設(shè)檢驗矯正,而p值沒有,因此,如果結(jié)果中有一個高度富集的功能gene子集,而其有很小的名義p-value和大的FDR意味著富集并不顯著。

我的一個具體結(jié)果解讀:

92/681 gene sets are upregulated in PH
0 gene sets are significantly enriched at FDR<25%
1 gene sets are significantly enriched at n p-value <1%
1 gene sets are significantly enriched at n p-value <5%

在選擇的BP中,有681個gene sets,92個PH中上調(diào),其中75%的正確率支持0條子集上調(diào),1個BP的gene表達上調(diào)名義p值<0.01??傮w結(jié)果并不理想。

備注

GSEA富集結(jié)果太少說明:

無gene set被富集。
可能是因為分析的樣本太少,關(guān)注的生物信息太微弱,或正在分析的功能集不能很好代表你所關(guān)心的生物過程,但仍然可以看下top ranked gene sets,這些信息可能會為你的假說提供微弱的證據(jù)。當然也可以嘗試考慮分析其他gene sets,或增加samples

GSEA富集結(jié)果太多說明:

太多的功能子集被富集了。
可能是因為很多的gene sets代表同一生物信號,這可以在gene sets中查看leading edge sbusets來查看?;蛘咭部梢圆榭淳唧w區(qū)別進行加工,比如samples來自不同labs,操作者不一樣等。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容