一文讀懂:基因的功能富集分析

富集分析

基因富集分析(gene set enrichment analysis)是在一組基因或蛋白中找到一類過(guò)表達(dá)的基因或蛋白。研究方法可分為三種:Over-Repressentation Analysis(ORA),F(xiàn)unctional Class Scoring(FCS)和Pathway Topology。ORA是目前應(yīng)用最多的方法,GO富集分析和KEGG富集分析就是使用的這種方法;FCS這種方法應(yīng)用于GSEA分析。

功能分析(functional analysis)/ 通路分析(pathway analysis)是將一堆基因按照基因的功能/通路來(lái)進(jìn)行分類。換句話說(shuō),就是把一個(gè)基因列表中,具有相似功能的基因放到一起,并和生物學(xué)表型關(guān)聯(lián)起來(lái)。GO分析是將基因分門別類放入一個(gè)個(gè)功能類群,而pathway則是將基因一個(gè)個(gè)具體放到代謝網(wǎng)絡(luò)中的指定位置。

為了解決將基因按照功能進(jìn)行分類的問(wèn)題,科學(xué)家們開發(fā)了很多基因功能注釋數(shù)據(jù)庫(kù)。這其中比較有名的就是Gene Ontology(基因本體論,GO)和Kyoto Encyclopedia of Genes and Genomes(京都基因與基因組百科全書,KEGG)

GO

GO數(shù)據(jù)庫(kù)是基因本體論聯(lián)合會(huì)(Gene Ontology Consortium)建立的一個(gè)數(shù)據(jù)庫(kù)(官網(wǎng)http://geneontology.org/),旨在建立一個(gè)適用于各種物種的、對(duì)基因和蛋白功能進(jìn)行限定和描述的,并能隨著研究不斷深入而更新的語(yǔ)義詞匯標(biāo)準(zhǔn)。分別從分子功能、參與的生物途徑及細(xì)胞中的定位對(duì)基因產(chǎn)物進(jìn)行了標(biāo)準(zhǔn)化描述,一個(gè)基因?qū)?yīng)有一個(gè)或多個(gè)GO term(GO功能),一個(gè)term對(duì)應(yīng)多個(gè)gene。

GO注釋分為三大類,分別是:分子生物學(xué)功能(Molecular Function,MF)、生物學(xué)過(guò)程(Biological Process,BP)和細(xì)胞學(xué)組分(Cellular Components,CC),通過(guò)這三個(gè)功能大類,對(duì)一個(gè)基因的功能進(jìn)行多方面的限定和描述。

Cellular component解釋的是基因產(chǎn)物在哪里,在細(xì)胞質(zhì)還是在細(xì)胞核,如果存在細(xì)胞質(zhì)那在哪個(gè)細(xì)胞器上,如果是在線粒體中那是存在線粒體膜上還是在線粒體的基質(zhì)中。

Biological process該基因參與了哪些生物學(xué)過(guò)程,比如參與了rRNA的加工或參與了DNA的復(fù)制。

Molecular function該基因在分子層面的功能是什么,它是催化什么反應(yīng)的。

通常在得到差異表達(dá)基因后,可通過(guò)功能富集分析進(jìn)一步篩選對(duì)生物體具有重要意義的基因
將篩選得到的基因分門別類放入細(xì)胞組分CC、分子功能MF和生物過(guò)程BP三個(gè)功能類別中,基因產(chǎn)物被盡可能的富集到最低層的功能term上。尋找各個(gè)基因是否有共同的GO條目,或者有沒(méi)有共同的上級(jí)GO條目,可以發(fā)現(xiàn)具有某些共同特點(diǎn)的基因。根據(jù)超幾何分布關(guān)系,GO分析會(huì)對(duì)涉及的GO返回一個(gè)p-value,小的p值表示差異基因在該GO 中出現(xiàn)了富集。GO 分析對(duì)實(shí)驗(yàn)結(jié)果有提示的作用,通過(guò)差異基因的GO 分析,可以找到富集差異基因的GO分類條目,尋找不同樣品的差異基因可能和哪些基因功能的改變有關(guān)。

GO是Gene Ontology的縮寫。本體論是哲學(xué)概念,它是研究存在的本質(zhì)的哲學(xué)問(wèn)題。后來(lái)這個(gè)詞被應(yīng)用到計(jì)算機(jī)界,定義為概念化的詳細(xì)說(shuō)明。在實(shí)現(xiàn)上,一個(gè)ontology往往就是一個(gè)正式的詞匯表,其核心作用就在于定義某一領(lǐng)域或領(lǐng)域內(nèi)的專業(yè)詞匯以及他們之間的關(guān)系,是領(lǐng)域內(nèi)部不同主體之間進(jìn)行交流的一種語(yǔ)義基礎(chǔ)。

使用GO的時(shí)候一般需要GO定義文件和GO關(guān)聯(lián)文件。GO定義文件存放GO詞條的定義,而GO關(guān)聯(lián)文件則是不同命名體系與GO詞條的映射關(guān)系。條目標(biāo)準(zhǔn)定義:

id:GO編號(hào),如:GO:0031985

name:全稱,Golgi cisterna

ontology:命名空間namespace,cellular_component

definition:定義,Any of the thin, flattened membrane-bounded compartments that form the central portion of the Golgi complex. Source: GOC:mah

條目之間的關(guān)系,采用有向無(wú)環(huán)圖(Directed Acyclic Graphs,DAG)的形式。注釋系統(tǒng)中每一個(gè)節(jié)點(diǎn)就代表了一個(gè)基本描述單元(term),有向指的是term之間的單向指向性關(guān)系,比如termA是內(nèi)質(zhì)網(wǎng),termB是細(xì)胞器,規(guī)定A是B,卻不能說(shuō)B是A;無(wú)環(huán)指的是從任何一點(diǎn)開始沿著規(guī)定的指向都不能回到原點(diǎn)。

KEGG

KEGG是一個(gè)整合了基因組、化學(xué)和系統(tǒng)功能信息的綜合數(shù)據(jù)庫(kù)。KEGG下屬4個(gè)大類和17個(gè)子數(shù)據(jù)庫(kù),而其中有一個(gè)數(shù)據(jù)庫(kù)叫做KEGG Pathway,專門存儲(chǔ)不同物種中基因通路的信息,也是用的最多的一個(gè),所以,久而久之,KEGG就被大家當(dāng)做是一個(gè)通路數(shù)據(jù)庫(kù)了。

GO分析好比是將基因分門別類放入一個(gè)個(gè)功能類群,而pathway則是將基因一個(gè)個(gè)具體放到代謝網(wǎng)絡(luò)中的指定位置根據(jù)挑選出的差異基因,計(jì)算這些差異基因同Pathway 的超幾何分布關(guān)系,Pathway 分析會(huì)對(duì)每個(gè)有差異基因存在的pathway 返回一個(gè)p-value,小的p 值表示差異基因在該pathway 中出現(xiàn)了富集。pathway 分析對(duì)實(shí)驗(yàn)結(jié)果有提示的作用,通過(guò)差異基因的Pathway 分析,可以找到富集差異基因的Pathway 條目,尋找不同樣品的差異基因可能和哪些細(xì)胞通路的改變有關(guān)。pathway 是蛋白質(zhì)之間的相互作用,pathway 的變化可以由參與這條pathway 途徑的蛋白的表達(dá)量或者蛋白的活性改變而引起,因此pathway 分析的結(jié)果更顯得間接。

Over-Repressentation Analysis(ORA)

過(guò)表征分析,其實(shí)就是想看看某類功能或分類和隨機(jī)事件相比是否有更明顯的趨勢(shì)。統(tǒng)計(jì)方法包括Fisher精確檢驗(yàn)、卡方檢驗(yàn)等。Fisher精確檢驗(yàn)是基于超幾何分布計(jì)算的,它分為兩種,分別是單邊檢驗(yàn)(等同于超幾何檢驗(yàn))和雙邊檢驗(yàn)。超幾何分布檢驗(yàn)常用來(lái)對(duì)venn圖兩個(gè)圈overlap的顯著性進(jìn)行檢驗(yàn),F(xiàn)isher精確檢驗(yàn)常用來(lái)對(duì)2×2的列聯(lián)表進(jìn)行檢驗(yàn)。

分析列聯(lián)表中兩個(gè)變量的關(guān)聯(lián),可以采取卡方檢驗(yàn)(Chi-square test)。先假設(shè)兩個(gè)變量之間沒(méi)有關(guān)系(是否在這個(gè)GO term和是否在目標(biāo)基因集沒(méi)有關(guān)系,即目標(biāo)基因集在特定GO term沒(méi)有富集),計(jì)算統(tǒng)計(jì)量:Σ(實(shí)際值-理論值)^2/理論值,然后根據(jù)自由度(等于1)查表得到p值。如果p值小于0.05,說(shuō)明原假設(shè)不成立,即目標(biāo)基因集在特定GO term出現(xiàn)了富集。

卡方檢驗(yàn)最大的優(yōu)勢(shì)在于計(jì)算比較簡(jiǎn)便,可以徒手計(jì)算,Fisher精確檢驗(yàn)的計(jì)算要相對(duì)復(fù)雜些,但是現(xiàn)在實(shí)現(xiàn)起來(lái)也很容易了。對(duì)于2×2列聯(lián)表來(lái)說(shuō),卡方檢驗(yàn)通常只能做為近似估計(jì)值,特別是當(dāng)總樣本量或理論頻數(shù)比較小的時(shí)候,計(jì)算并不準(zhǔn)確。一般情況下,如果總樣本量大于40,最小理論頻數(shù)大于5,可以使用卡方檢驗(yàn)。但是,如果采用卡方檢驗(yàn)得到的P值在0.05附近時(shí),應(yīng)該用Fisher確切概率法。如果差異很大,采用卡方檢驗(yàn)和Fisher確切概率法得到的結(jié)果相差不大。現(xiàn)在GO富集分析一般都是使用超幾何分布進(jìn)行計(jì)算的。

富集分析的超幾何分布檢驗(yàn)的p值計(jì)算如下。N為所有基因中具有pathway/GO term注釋的基因數(shù)目;n為N中差異表達(dá)基因的數(shù)目;M為所有基因中注釋為某特定pathway/GO term的基因數(shù)目;m為注釋為某特定pathway/GO term的差異表達(dá)基因數(shù)目。通過(guò)計(jì)算得到的P value會(huì)進(jìn)一步經(jīng)過(guò)多重檢驗(yàn)校正,通常應(yīng)用的是BH方法,得到FDR值。然后以FDR≤0.05為閾值,滿足此條件的pathway/GO term定義為在差異表達(dá)基因中顯著富集的pathway/GO term。此外還有很多其他的算法來(lái)試圖解決一個(gè)基因?qū)?yīng)多個(gè)GO term、一個(gè)term對(duì)應(yīng)多個(gè)gene的問(wèn)題,但是本質(zhì)上也是基于Fisher's exact test。

常見的富集結(jié)果描述包括:

RichFactor,富集因子,是指感興趣基因列表中屬于這個(gè)term的基因的數(shù)量/背景基因集中富集在這個(gè)term中所有基因的數(shù)量。

p值或q值:代表富集顯著程度,可以映射到圖形顏色。

GeneNumber:感興趣基因列表中屬于這個(gè)term的基因數(shù)量。

Gene Percent(%):感興趣基因列表屬于這個(gè)term的基因的數(shù)量占感興趣基因列表所有基因數(shù)量的百分比

富集分析工具

clusterProfiler

clusterProfiler,它支持ORA和FCS兩類算法。函數(shù)為:enrichGO, gseGO: GO富集分析;enrichKEGG, gseKEGG: KEGG富集分析;enrichDAVID: DAVID富集分析。

DAVIDhttps://david.ncifcrf.gov/)是由美國(guó)Leidos 生物醫(yī)學(xué)研究公司的LHRI團(tuán)隊(duì)開發(fā)的一個(gè)在線基因注釋及功能富集網(wǎng)站,最為常用且權(quán)威,引用超高(>21000)。但是它的數(shù)據(jù)庫(kù)版本比較老,目前最新版的DAVID 6.8還是在2016年更新的,而且基本只更新了GO和ID轉(zhuǎn)換的數(shù)據(jù),KEGG也沒(méi)有更新。聽說(shuō)2016年Nature Methods 專門寫了Impact of outdated gene annotations on pathway enrichment analysis 吐槽大家還在用老舊的DAVID。

GSEA

Gene Set Enrichment Analysis(基因集富集分析)用來(lái)評(píng)估一個(gè)預(yù)先定義的基因集S(已知功能的基因集)的基因在與表型相關(guān)度排序的基因列表L(按照l(shuí)ogFC、Signal to Noise Ratio等排序的基因列表)中的分布趨勢(shì)(是隨機(jī)分布,還是主要分布在頂部或底部),從而判斷其對(duì)表型的貢獻(xiàn)。GSEA確定一個(gè)預(yù)先定義的基因集是否能在兩個(gè)生物學(xué)狀態(tài)中顯示出顯著的一致性的差異,通俗一點(diǎn)就是某個(gè)通路/GO條目中的基因集在實(shí)驗(yàn)組和對(duì)照組中呈現(xiàn)出一 致的上調(diào)或者下調(diào)趨勢(shì)。

富集分?jǐn)?shù)enrichment score(ES)代表集合S在排序列表L的頂部或底部被過(guò)表達(dá)的程度。這個(gè)分?jǐn)?shù)是通過(guò)遍歷列表L來(lái)計(jì)算的,當(dāng)我們遇到一個(gè)在S中的基因時(shí)增加一個(gè)running-sum statistic(類Kolmogorov-Smirnovlike統(tǒng)計(jì)量),當(dāng)遇到的基因不在S中時(shí)減少統(tǒng)計(jì)量。增量的大小取決于基因統(tǒng)計(jì)(例如基因與表型的相關(guān)性)。ES為random walk中遇到的與零的最大偏差(maximum deviation from zero)。GSEA的那條曲曲折折的線就是通過(guò)不斷的加分減分做出來(lái)的,圖中的每一條垂直線表示基因集S中一個(gè)基因。

利用置換檢驗(yàn)(permutation test)計(jì)算ES的p值。具體地說(shuō),我們對(duì)基因列表L的gene labels進(jìn)行重新排列(permute),并為排列后的數(shù)據(jù)重新計(jì)算基因集的ES(重復(fù)1000次),從而為ES生成一個(gè)null distribution。然后相對(duì)于這個(gè)零分布計(jì)算觀察到的ES的p值。并使用FDR調(diào)整計(jì)算q值。

各種方法的特點(diǎn)

ORA方法存在一些問(wèn)題:僅使用了基因數(shù)目信息,而沒(méi)有利用基因表達(dá)水平或表達(dá)差異值,為了獲得感興趣或者差異表達(dá)基因,需要人為的設(shè)置閾值。ORA法通常僅使用最顯著的基因,而忽略差異不顯著的基因。在獲得感興趣的基因時(shí), 往往需要選取合適的閾值, 有可能會(huì)丟失顯著性較低但比較關(guān)鍵的基因, 導(dǎo)致檢測(cè)靈敏性的降低;假設(shè)每個(gè)基因都是獨(dú)立的,忽視了基因在通路內(nèi)部生物學(xué)意義的不同(如調(diào)控和被調(diào)控基因的不同)及基因間復(fù)雜的相互作用;ORA假設(shè)通路與通路間是獨(dú)立的,但這個(gè)前提假設(shè)是錯(cuò)誤的。

FCS方法相較于ORA 法在理論上有明顯突破,考慮到了基因表達(dá)值的屬性信息, 以待測(cè)基因功能集為對(duì)象來(lái)進(jìn)行檢驗(yàn), 也使得檢驗(yàn)結(jié)果更加靈敏。認(rèn)為雖然個(gè)體基因表達(dá)改變之后會(huì)更多在通路中體現(xiàn),但是一些功能相關(guān)基因中較弱但協(xié)調(diào)的變化(small but consistent changes)也有明顯的影響。仍獨(dú)立分析每一條通路,同一個(gè)基因可能涉及多條通路,所以不同通路間的基因出現(xiàn)重疊,別的通路可能由于重疊的基因,也出現(xiàn)顯著富集;仍然把待測(cè)基因功能集中的每個(gè)基因作為獨(dú)立的個(gè)體, 忽略了基因的生物學(xué)屬性和基因間的復(fù)雜相互作用關(guān)系。

------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------I'm a line ! Thanks !---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

參考鏈接:http://www.itdecent.cn/p/66eb3a16b296

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容