富集分析

新知識(shí)

關(guān)于對(duì)于生信學(xué)習(xí)的反思,最近一直接觸大量的新知識(shí),說(shuō)實(shí)話,很難,因?yàn)檫@些新知識(shí)沒(méi)有辦法和我現(xiàn)有的知識(shí)形成聯(lián)系,所有的概念都是新的,如果我要記筆記,參考的文章為十,那我?guī)缀跻咽空硐聛?lái),這讓我的心態(tài)很不好。

原理及目的

基因富集分析(GeneSet Enrichment Analysis,GSEA)一種對(duì)基因進(jìn)行富集分析的方法,檢驗(yàn)已知功能的基因集(即gene set,可以是從GO/KEGG/hallmark/MsigDB中拎出的某一特定類(lèi)別的基因集合,也可以是自定義的功能基因集合),在一個(gè)依據(jù)與表型的相關(guān)度進(jìn)行排序的基因列表(即兩組樣品的表達(dá)譜數(shù)據(jù),依據(jù)基因在兩種表型中的表達(dá)量的高低進(jìn)行排序,因未對(duì)基因進(jìn)行顯著差異的篩選,因而可以將全部基因與不同表型的相關(guān)性均考慮進(jìn)去)中是隨機(jī)排列還是主要集中在列表的頂部或底部。若研究的已知功能基因集是非隨機(jī)分布的,則說(shuō)明該已知功能基因集與表型相關(guān),根據(jù)其基因的集中情況,則可以推斷出該已知的功能具體和哪種表型更為接近。

分類(lèi)

GO富集分析

Gene Ontology: 描述基因的層級(jí)關(guān)系【基于ORA算法】可以算得上是高通量數(shù)據(jù)分析的標(biāo)配,轉(zhuǎn)錄組、甲基化、ChIP-seq、重測(cè)序等,都會(huì)用到對(duì)一個(gè)或多個(gè)集合的基因進(jìn)行功能富集分析,來(lái)找這個(gè)基因集的功能偏好性
這是一個(gè)基因本體聯(lián)合會(huì)組織(Gene Ontology Consortium)建立的數(shù)據(jù)庫(kù),規(guī)范統(tǒng)一了對(duì)于不同物種的基因和蛋白描述。

條目標(biāo)準(zhǔn)定義

id:也就是GO編號(hào),如:GO:0031985
name:全稱(chēng),Golgi cisterna
ontology:命名分類(lèi)cellular_component
definition:定義,Any of the thin, flattened membrane-bounded compartments that form the central portion of the Golgi complex.Source:GOC:mah

條目之間的關(guān)系

有向無(wú)環(huán)圖

有向無(wú)環(huán)圖

有向指的是term之間的單向指向性關(guān)系,比如termA是內(nèi)質(zhì)網(wǎng),termB是細(xì)胞器,規(guī)定A是B,卻不能說(shuō)B是A;無(wú)環(huán)指的是從任何一點(diǎn)開(kāi)始沿著規(guī)定的指向都不能回到原點(diǎn)
具體作用
基因分門(mén)別類(lèi)放入細(xì)胞組分CC、分子功能MF和生物過(guò)程BP,分別對(duì)應(yīng)基因產(chǎn)物在那里發(fā)揮功能,怎樣發(fā)揮功能,發(fā)揮什么樣的功能
GO分析可以幫我們找到提交的基因集中各個(gè)基因是否有共同的GO條目,或者有沒(méi)有共同的上級(jí)GO條目,可以發(fā)現(xiàn)某些具有共同特點(diǎn)的基因(比如在某條共同的通路中起作用)
表現(xiàn)形式
氣泡圖表示顯著性不同的GO條目對(duì)應(yīng)的基因數(shù)量

富集氣泡圖

X軸:RichFactor,富集因子,是指前景基因集中屬于這個(gè)term的基因的數(shù)量/背景基因集中富集在這個(gè)term中所有基因的數(shù)量;
Y軸:GO term名稱(chēng);
氣泡顏色:Q值(也可以用P值繪圖),代表富集顯著程度,在這個(gè)圖形當(dāng)中,顏色越紅代表Q值越小,富集程度越高;
氣泡大?。簲?shù)量,前景基因集中屬于這個(gè)term的基因數(shù)量。
氣泡越紅越大,富集的基因數(shù)目越多,富集越顯著

條形圖表示三個(gè)分類(lèi)的前多少條目對(duì)應(yīng)基因的數(shù)量
網(wǎng)絡(luò)圖可以表示顯著性較強(qiáng)的條目之間的相互關(guān)系
map圖表示顯著性較強(qiáng)的GO條目的層級(jí)關(guān)系,以樹(shù)狀圖的形式展現(xiàn)

KEGG

Kyoto Encyclopedia of Genes and Genomes: 系統(tǒng)分析基因產(chǎn)物和化合物在細(xì)胞中的代謝途徑以及這些基因產(chǎn)物的功能的數(shù)據(jù)庫(kù)【基于ORA算法】

包括

代謝通路(KEGG PATHWAY)、藥物(KEGG DRUG)、疾?。↘EGG DISEASE)、功能模型(KEGG MODULE)、基因序列(KEGG GENES)及基因組(KEGG GENOME)等等
有一套完整的KO注釋系統(tǒng)(KO是蛋白質(zhì)或酶的一個(gè)分類(lèi)體系,將同一條通路上功能相似、序列相似的蛋白質(zhì)歸為一類(lèi)),可完成新測(cè)序物種的基因組或轉(zhuǎn)錄組的功能注釋
因此可以將基因一個(gè)個(gè)歸置到代謝網(wǎng)絡(luò)指定位置

命名規(guī)則

K(大寫(xiě)) +num基因ID號(hào),表示所有同源物種中具有相似結(jié)構(gòu)或功能的一類(lèi)同源蛋白,如:K04456表示絲氨酸蛋白激酶;
ko+num代謝通路,表示特定的生物路徑,如:ko04151表示PI3K-Akt信號(hào)通路【也是我們常用的代謝通路】;
M+num表示模塊,如:M00676表示PI3K-Akt信號(hào)模塊
C+num表示化合物,如:C00533表示一氧化碳
ECx.x.x.x表示酶,如:EC2.7.11.1表示絲氨酸
R+num表示反應(yīng)名稱(chēng)
舉個(gè)例子:三個(gè)字母表示物種,hsa表示Homo sapiens;具體的KO號(hào),如K12407表示和葡糖激酶glucokinase序列和功能相近的蛋白質(zhì)/酶類(lèi),當(dāng)然一個(gè)KO號(hào)有可能會(huì)對(duì)應(yīng)好幾個(gè)數(shù)字(基因登錄號(hào)),表示細(xì)胞中存在幾種不同的葡糖激酶,分別由以上幾種數(shù)字表示的基因編碼


KEGGpathview

主要看顏色:紅色表示上調(diào)的差異基因,綠色表示下調(diào),白色的表示沒(méi)有差異基因成功注釋


KEGG條形圖

挑選顯著分析的前20左右的pathway進(jìn)行展示
X軸:Gene Percent(%),柱子長(zhǎng)短代表前景基因富集在該pathway上數(shù)目占所有前景基因的百分比。柱子上的數(shù)字為基因數(shù)量,和對(duì)應(yīng)的q值;
Y軸:Pathway名稱(chēng);
柱狀圖顏色:Q值(也可以用P值繪圖),代表富集顯著程度,顏色越深代表Q值越小,富集程度越高。

GSEA

Gene Set Enrichment Analysis 基因集富集分析,用于評(píng)估一個(gè)基因集的基因在表型相關(guān)度排序中的分布趨勢(shì),進(jìn)而判斷它們對(duì)表型的貢獻(xiàn)
FCS算法
區(qū)別

  1. GO是先篩選基因(需要人為設(shè)定閾值),再判斷差異基因在哪些通路有富集
  2. GSEA可以考慮那些表達(dá)差異不大卻功能重要的基因?qū)ν酚绊?,相比GO和KEGG能保留更多信息

首先將我們要研究的基因集里的基因按照差異倍數(shù)或者差異顯著性P值等進(jìn)行排序,再和已知功能的基因集進(jìn)行對(duì)比,看后者在前者的分布情況,然后根據(jù)富集得分(ES值)去判斷我們要研究的基因集是不是和我們關(guān)注的通路相關(guān)。

GSEA富集圖像

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容