富集分析,看完這篇就夠

在我們做完組學(xué)項目看報告時經(jīng)常遇到的詞兒就有“富集分析”,那到底什么是富集分析,它又是用來做什么的,以及富集分析的結(jié)果要怎么查看。今天小編就通過自問自答的方式給大家一起科普一下。

1

為什么要做功能富集分析?

組學(xué)數(shù)據(jù)得到的差異基因或者物質(zhì)非常多,面對海量數(shù)據(jù)我們無法做到挨個研究、逐一驗證來把待研究現(xiàn)象的機制解析清楚。通過富集分析我們可以把差異基因或者物質(zhì)根據(jù)其功能進行歸類,這樣具有相似功能的基因或者物質(zhì)就被放在一起,從而減少工作量,并可以實現(xiàn)功能和表型相關(guān)聯(lián)。

2

什么是富集?

富集表示差異基因或者差異物質(zhì)中注釋到某個代謝通路的基因或者物質(zhì)數(shù)目在所有差異基因或者物質(zhì)中的比例顯著大于背景基因或物質(zhì)中注釋到某個代謝通路的基因或物質(zhì)數(shù)目在所有背景基因或者物質(zhì)中的比例。

3

常用的富集分析有哪些?

常用的富集分析包括GO富集分析、KEGG富集分析以及GSEA富集分析。其中前兩者均基于統(tǒng)計學(xué)的超幾何分布,計算出一個p值來確定是否真的富集。而GSEA的原理是判斷功能基因集中的成員在差異表達基因排序列表中的位置,如果都位于差異表達基因排序列表的頂端或者底部,則該基因集也是我們需要關(guān)注的。

4

什么是GO富集分析?

我們都知道GO主要是用來看基因的三個方面,分別是分子功能(比如有催化活性功能)、細胞組分(如定位在細胞膜上)、參與的生物過程(如參與物質(zhì)運輸?shù)龋K砸粋€基因可能可以同時被定義到GO的這三個層面。GO富集就是看我們得到的差異基因或者物質(zhì)是否富集在這三個層面的基因集中。舉例說,鐵離子結(jié)合的GO term是GO:0005506,如果我們對所得到的差異基因進行GO富集分析后得到該term富集,則我們可以認為我們所研究的現(xiàn)象可能與鐵離子結(jié)合有關(guān)系。由上述信息也可以看出,我們得到的差異基因個數(shù)與富集的GO term的個數(shù)不是一一對應(yīng)的關(guān)系,一個GO term里會有好多個基因,而一個基因也可以富集在多個term中。

5

什么是KEGG富集?

KEGG是代謝通路圖,所以我們得到的是一張展示各個基因或物質(zhì)關(guān)系的網(wǎng)狀圖。例如通過KEGG分析后我們得到其中一條富集通路的編號是map00010(糖酵解/糖異生),則我們可以認為我們所研究的現(xiàn)象的機制與糖酵解/糖異生有關(guān)。同樣,可能很多個基因會被富集在同一條通路中,而也有可能很多個基因沒有被富集到,所以差異基因的個數(shù)與KEGG富集結(jié)果也不是一一對應(yīng)的關(guān)系。

6

什么是GSEA富集分析?

是先把差異表達基因按照表達差異倍數(shù)從大到小進行排序,然后看某一個基因集下的所有基因主要位于這個排列順序的前面還是后面部分,如果在前面則表示該基因是上調(diào);如果在后面則表示基因是下調(diào),所以,GSEA富集主要關(guān)注兩端的基因。

7

GO、KEGG和GSEA富集分析

的區(qū)別是什么?

GO是用來找差異基因引起的功能改變,KEGG是用于尋找通路上的影響。GO/KEGG對差異基因的富集需要明確的閾值,這樣容易漏掉部分有重要生物學(xué)意義的基因。GSEA不需要指定明確的差異基因閾值,算法根據(jù)實際整體趨勢分析,所以結(jié)果可以補充GO和KEGG的富集分析。

8

是否可以在線富集分析?

可以,常用的在線富集分析網(wǎng)站有DAVID(https://david.ncifcrf.gov/)和KOBAS(http://kobas.cbi.pku.edu.cn/),兩者都可以在線進行GO或者KEGG富集分析。

9

GO富集分析文件結(jié)果如何看?

一般GO富集分析后會看到這樣的表格,第一列表示GO的三個levels,ID表示 GO數(shù)據(jù)庫ID,Decription:表示該GO term的功能描述,GeneRAatio:富集到該term里的差異基因數(shù)/全部差異基因數(shù),BgRatio:該term的全部基因數(shù)/該物種全部有GO注釋信息的基因數(shù),pvalue是p值,p.adjust表示矯校正過的p值,qvalue是q值,geneID表示富集到該term里的基因的名稱,Count表示富集到該term中的差異基因的數(shù)目。

10

GO富集分析結(jié)果圖怎么看?

GO注釋的結(jié)果一般有三種展示形式,第一種是有向無環(huán)圖(DAG,directed-acyclic-graph),第二種是柱狀圖,第三種是氣泡圖。下面依次來做介紹。

(1)有向無環(huán)圖:

箭頭表示上下層級關(guān)系;橢圓形表示富集程度沒有在前10的GO terms;方框表示富集程度在前10的GO terms。顏色表示差異基因在GO term里的富集程度,顏色越深則表示富集越顯著,紅色代表富集最顯著的,黃色是富集次之的,無色表示富集不顯著。框內(nèi)的第一行表示GO的term編號,第二行表示該term的功能描述,第三行表示p值,最后一行數(shù)字表示該研究中富集到該term中的差異基因數(shù)/該term中全部差異基因數(shù)。

(2)柱狀圖

富集的柱狀圖或者氣泡圖一般會選擇前10或者前20個進行作圖。x軸一般有幾種情況,如count/Gene Ratio/-Log10(padj)。柱子越長說明該條目下基因數(shù)越多、富集后越顯著。y軸表示富集條目,GO富集下面有三個level,不同level可以使用不同顏色區(qū)分,也可以像下圖這樣做成不同的框圖。

(3)氣泡圖

x軸是一個比值(Rich Factor/GeneRatio/ (GeneRatio / BgRatio ))或者差異表達倍數(shù),值越大,富集到該通路的差異代謝物/蛋白質(zhì)/基因富集程度越高。Y軸表示富集出來的GO或者通路名稱,挑選富集通路前20或30的通路來繪圖;點的大小表示Gene數(shù)目,點越大,表示富集到該通路的基因越多;顏色代表P值的高低,-log10(Pvalue)越大,P值越小,表示該通路越顯著。

11

KEGG富集分析結(jié)果怎么看?

KEGG富集結(jié)果與GO結(jié)果類似,ID表示KEGG的PATHWAY數(shù)據(jù)庫中途徑標(biāo)識,Description是該通路的描述,GeneRAatio:富集到該通路里的差異基因數(shù)/全部可以富集到KEGG里的差異基因數(shù),BgRatio:該通路的全部基因數(shù)/該物種全部有KEGG信息的基因數(shù),pvalue是p值,p.adjust表示矯校正過的p值,qvalue是q值,geneID表示富集到該通路里的基因的名稱,Count表示富集到該通路中的差異基因的數(shù)目。

12

GSEA富集結(jié)果如何查看?

GSEA全稱是Gene Set Enrichment Analysis ,GSEA的富集結(jié)果也分為對GO的富集以及KEGG富集,兩者結(jié)果差不多,這里以對KEGG的富集結(jié)果為例做介紹。ID表示KEGG的PATHWAY數(shù)據(jù)庫中途徑標(biāo)識,Description是該通路的描述,setSize:富集到該通路下的基因數(shù),enrichmentScore是富集分數(shù),NES表示歸一化后的富集分數(shù), pvalue是p值,p.adjust表示矯校正過的p值,qvalue是q值,rank是在基因集中對ES分數(shù)貢獻最大的核心基因在基因表排序中的位置(按照log2FC從大到小的排序),leading_edge中tags表示核心基因在該基因集基因總數(shù)的占比,list表示核心基因占所有基因總數(shù)的比例,signal利用這兩個指標(biāo)計算得到,core_enrichment表示富集到該通路的基因列表。其中ES或者NES>0,則說明該通路高表達,反之,則認為該通路被抑制。

13

GSEA富集結(jié)果圖如何查看?

GSEA富集圖主要有三部分組成,最上面一部分是縱坐標(biāo)為Enrichment score的這一塊,這是把該通路里所有基因的富集分數(shù)連成一條線得到的,最高峰就是富集得分(ES),一般在最左側(cè)或者最右側(cè)有個明顯峰的通路是我們可以深入研究的通路。第二部分是類似條形碼的中間部分,每一條黑線表示一個基因,這些基因是按照極陰極里的排序位置進行定位的。條形碼下面的紅色部分表示在目的樣本中高表達,后面紫色部分表示在對照組中高表達。第三部分為所有基因的rank值分布圖,縱坐標(biāo)為ranked list metric,即該基因排序量的值,可理解為公式化處理后的FC值。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容