零代碼學(xué)生信第十天-差異基因的富集分析

在上一節(jié)我們介紹了如何做差異法分析,通過差異分析可以了解在不同處理組存在哪些差異基因,接下來,我們需要對(duì)了解這些差異基因參與哪些生物學(xué)過程,有哪些生物功能,這時(shí)候需要對(duì)差異基因進(jìn)行富集分析。富集分析作為高通量組學(xué)數(shù)據(jù)分析的常規(guī)手段,對(duì)于解釋生物醫(yī)學(xué)分子機(jī)制具有哪些重要的意義呢?

一、為什么做富集分析?

? ? ? ? 隨著高通量測(cè)序技術(shù)的高速發(fā)展,生物醫(yī)學(xué)等相關(guān)領(lǐng)域已經(jīng)進(jìn)行組學(xué)時(shí)代,單基因的研究早已不能滿足人們對(duì)于生命奧秘的探索,然而如此龐大的數(shù)據(jù)為信息的有效提取和分析帶來新的挑戰(zhàn)。不管是高通量測(cè)序數(shù)據(jù)還是芯片數(shù)據(jù),分析的結(jié)果往往會(huì)得到差異表達(dá)的基因的列表。但對(duì)許多研究人員來說,將這一長串基因與某個(gè)待研究的生物學(xué)現(xiàn)象及其潛在機(jī)制聯(lián)系起來是很困難的。應(yīng)對(duì)這一挑戰(zhàn)的一種方法就是將一個(gè)基因列表分成多個(gè)部分,從而減少分析的復(fù)雜度。研究人員為了解決分成哪些類,開發(fā)了多個(gè)注釋數(shù)據(jù)庫。為了解決怎么分成不同類,研究者通常會(huì)對(duì)基因功能進(jìn)行富集分析, 期望發(fā)現(xiàn)在生物學(xué)過程中起關(guān)鍵作用的生物通路, 從而揭示和理解生物學(xué)過程的基本分子機(jī)制,在這過程中開發(fā)了多種軟件。

? ? ? 其中,功能富集分析可以將成百上千個(gè)基因、蛋白或者其他分子分到不同的通路中,以減少分析的復(fù)雜度。另外,在兩種不同實(shí)驗(yàn)條件下,激活的通路顯然比簡(jiǎn)單的基因或蛋白列表更有說服力。

二、富集分析的數(shù)據(jù)庫及軟件

常見的注釋數(shù)據(jù)庫:GO、KEGG、Reactome、msigdb等等



三、富集分析的方法

ORA: over-representation analysis 過表達(dá)分析

FCS:functional class scoring 功能集打分

PT:pathway topology 通路拓?fù)浣Y(jié)構(gòu)

NT:network topology 網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)

1. ORA法

又稱為"2X2法";

首先,獲得一組感興趣的基因(一般是差異表達(dá)基因),然后給定的基因列表與某個(gè)通路中的基因集做交集,找出其中共同的基因并進(jìn)行計(jì)數(shù)(統(tǒng)計(jì)值),最后利用統(tǒng)計(jì)檢驗(yàn)的方式來評(píng)估觀察的計(jì)數(shù)值是否顯著高于隨機(jī),即待測(cè)功能 集在基因列表中是否顯著富集。最常用的統(tǒng)計(jì)檢驗(yàn)包括:超幾何分布、卡方檢驗(yàn)、二項(xiàng)分布。

這里常用的軟件或者網(wǎng)站有DAVID等;

優(yōu)點(diǎn):基于完備的統(tǒng)計(jì)學(xué)理論,具有結(jié)果穩(wěn)健、可靠的優(yōu)點(diǎn)

缺點(diǎn):

(1)僅使用了基因數(shù)目信息,而沒有利用基因表達(dá)水平或表達(dá)差異值,而為了獲得感興趣或者差異表達(dá)基因,需要人為的設(shè)置閾值;

(2)ORA法通常僅使用最顯著的基因,而忽略差異不顯著的基因。在獲得感興趣的基因時(shí), 往往需要選取合適的閾值, 而這樣有可能會(huì)丟失顯著性較低但比較關(guān)鍵的基因, 導(dǎo)致檢測(cè)靈敏性的降低;

(3)將基因同等對(duì)待,ORA法假設(shè)每個(gè)基因都是獨(dú)立的,忽視了基因在通路內(nèi)部生物學(xué)意義的不同(如調(diào)控和被調(diào)控基因的不同)及基因間復(fù)雜的相互作用;

(4)ORA假設(shè)通路與通路間是獨(dú)立的,但這個(gè)前提假設(shè)是錯(cuò)誤的。

2. FCS法

首先根據(jù)案例和對(duì)照狀態(tài)下的基 因表達(dá)譜對(duì)基因組中所有基因表達(dá)水平的差異值進(jìn)行打分或排序,或直接輸入排序好的基因表達(dá)譜;其次是把待測(cè)基因功能集中的每個(gè)基因的分?jǐn)?shù)通過特定的統(tǒng)計(jì)模型轉(zhuǎn)換為待測(cè)基因功能集的分?jǐn)?shù)或統(tǒng)計(jì)值;最后利用隨機(jī)抽樣獲得的待測(cè)基因功能集統(tǒng)計(jì)值的背景分布來檢驗(yàn)實(shí)際觀測(cè)的統(tǒng)計(jì)值的顯著水平,并判斷待測(cè)基因功能集在案例和對(duì)照實(shí)驗(yàn)狀態(tài)下是否發(fā)生了統(tǒng)計(jì)上的顯著變化。

除了上述處理和對(duì)照組比較的方法外,F(xiàn)CS還有一類基于單樣本的分析方法,如PLAGE/ZSCORE/SSGSEA,這些方法的一大優(yōu)點(diǎn)是可以通過調(diào)整相關(guān)協(xié)變量,相對(duì)簡(jiǎn)單地分析一些非常復(fù)雜的,如包含時(shí)間進(jìn)度的多樣本設(shè)計(jì)。

優(yōu)點(diǎn):總體而言,F(xiàn)CS相較于ORA的方法,在理論上有明顯的突破,考慮到了基因表達(dá)值的屬性信息,而且以待測(cè)基因功能集為對(duì)象來進(jìn)行檢驗(yàn),也使得檢驗(yàn)結(jié)果更加靈敏。

缺點(diǎn):

(1)與ORA類似,F(xiàn)CS仍獨(dú)立分析每一條通路,但同一個(gè)基因可能涉及多條通路,所以不同通路間的基因出現(xiàn)重疊,所以別的通路可能由于重疊的基因,也出現(xiàn)顯著富集;

(2)FCS 方法仍然把待測(cè)基因功能集中的每個(gè)基因作為獨(dú)立的個(gè)體, 忽略了基因的生物學(xué)屬性和基因間的復(fù)雜相互作用關(guān)系。

3. PT法

ORA和FCS方法在進(jìn)行通路的富集分析時(shí), 都將通路中的每個(gè)基因視作獨(dú)立個(gè)體,而實(shí)際上通路內(nèi)的基因需要通過調(diào)控、被調(diào)控、相互作用等復(fù)雜的關(guān)系一起來影響細(xì)胞的發(fā)育、分化或疾病等生物學(xué)過程。因而,在進(jìn)行通路的富集分析時(shí),尤其是基因表達(dá)的通路富集分析時(shí),有必要考慮到通路中基因的生物學(xué)屬性。例如,在一個(gè)調(diào)控通路中,上游基因的表達(dá)水平改變顯然要遠(yuǎn)大于下游基因的表達(dá)水平改變對(duì)整個(gè)通路的影響。基于通路拓?fù)浣Y(jié)構(gòu)的PT富集分析方法就是把基因在通路中的位置(上下游關(guān)系),與其他基因的連接度和調(diào)控作用類型等信息綜合在一起來評(píng)估每個(gè)基因?qū)ν返呢暙I(xiàn)并給予相應(yīng)的權(quán)重,然后再把基因的權(quán)重整合入功能富集分析。不同的PT方法在具體的權(quán)重打分時(shí),采用了不同的方式。

GO 等注釋數(shù)據(jù)庫中基因功能集中不包含任何拓?fù)浣Y(jié)構(gòu)信息,僅提供了可能屬于同一通路的所有基因列表。

所以,PT方法不能被用于GO通路的富集分析。

優(yōu)點(diǎn):對(duì)于研究較完善、拓?fù)浣Y(jié)構(gòu)完整的通路,基于PT的基因功能富集算法會(huì)有更強(qiáng)大顯著性

缺點(diǎn):對(duì)于通路拓?fù)浣Y(jié)構(gòu)存在依賴性,該類方法對(duì)于研究較少,信息不完善的通路穩(wěn)健性較差,因此目前通路注釋不完善也是限制基于PT的基因功能富集分析方法進(jìn)一步發(fā)展的重要因素。

4. NT法

目前NT法有一些不同的思路:

(1)有一些基于生物網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的富集分析方法,它們利用數(shù)據(jù)庫中的基因相互作用關(guān)系來間接地把基因的生物學(xué)屬性整合入功能的富集分析。這些方法的主要思路是利用現(xiàn)有的全基因組范圍的生物網(wǎng)絡(luò),如HPRD、FunCoup、STRING等,來提取基因間的相互作用關(guān)系,包括基因的連接度及基因在網(wǎng)絡(luò)中的距離等,來計(jì)算一給定的基因列表與一待測(cè)的基因功能數(shù)據(jù)集在網(wǎng)絡(luò)中的連接關(guān)系,從而來推測(cè)待測(cè)基因功能集是否與給定基因列表緊密相關(guān);如『NEA/EnrichNet等軟件』

(2)另一些方法是利用網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)來計(jì)算基因?qū)μ囟ㄉ锿返闹匾圆⒔o予相應(yīng)的權(quán)重, 然后再利用傳統(tǒng)的ORA 或 FCS 方法來評(píng)估特定生物通路的富集程度,如 GANPA 和 LEGO 等;

(3)有些方法是直接把基因列表中的功能富集問題利用網(wǎng)絡(luò)轉(zhuǎn)化為基因?qū)Φ墓δ芨患瘑栴},如 NOA 等。

優(yōu)點(diǎn):與傳統(tǒng)方法相比,基于網(wǎng)絡(luò)的功能富集分析方法加入了系統(tǒng)層面的基因重要性程度及關(guān)聯(lián)信息,使得預(yù)測(cè)結(jié)果更加準(zhǔn)確可靠。

缺點(diǎn):更多信息的加入也容易導(dǎo)致算法過于復(fù)雜,計(jì)算速度較慢。

https://www.cnblogs.com/wangshicheng/p/11131086.html

四、如何做富集分析

介紹完了富集分析的原理,那目前做富集分析比較多的是哪些方法,或者說目前主流做富集分析的方式有哪些?

1、R包---clusterProfiler----ORA

2、在線工具:DAVID---ORA

3、GSEA----FCS

GSEA基于基因的表達(dá)譜矩陣來做富集分析,使用的是FCS的方法?;贠RA的方式進(jìn)行的富集分析對(duì)于背景的依賴性較大。DAVID對(duì)于不會(huì)代碼的人來說,操作是非常簡(jiǎn)單的,但是由于DAVID數(shù)據(jù)庫更新較慢,導(dǎo)致富集分析的結(jié)果不準(zhǔn)確,目前做富集分析使用較多的是Y叔的clusterProfiler包。

但是大家都知道是使用clusterProfiler包就不可避免要學(xué)習(xí)R語言,如果要學(xué)習(xí)R語言的,網(wǎng)上資料很多,可以去找找。這里為大家介紹的一個(gè)基于clusterProfiler包做富集分析的在線工具



http://www.sxdyc.com/singleCollectionTool

第一個(gè)和第二個(gè)的區(qū)別在于,一個(gè)是用的在線數(shù)據(jù)庫做的富集分析,一個(gè)用的本地?cái)?shù)據(jù)庫做的富集分析

對(duì)應(yīng)的每一個(gè)工具,都有配套的示例數(shù)據(jù)。


同樣的,該網(wǎng)站對(duì)應(yīng)有一些富集分析的可視化


只要傳入對(duì)應(yīng)的數(shù)據(jù),即可繪圖,不管你是在哪里做的富集分析,都可以用此工具進(jìn)行可視化。


?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容