差異基因中找不到關(guān)注的基因,如何解決?
組學(xué)研究中,有時我們會遇到這樣的情況:GO/KEGG富集分析中出現(xiàn)了我們比較感興趣的通路,但是卻找不到預(yù)期關(guān)注的基因。進(jìn)一步檢查發(fā)現(xiàn)關(guān)注的基因甚至不在差異基因列表里!究其原因,竟然是關(guān)注的基因在組間的表達(dá)差異不顯著。在反復(fù)檢查,排除掉實(shí)驗(yàn)和分析問題后,我們不得不作出抉擇:更換靶標(biāo)基因(意味著前期的分子實(shí)驗(yàn)可能打水漂了)?調(diào)整分析參數(shù)(得衡量可接受度,閾值放寬后也不一定出的來)?重新再做實(shí)驗(yàn)(時間成本高,結(jié)果可能還和這次一樣)?那么,還有其它的可行策略么?有!不妨試一下GSEA富集分析。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?富集分析方法對比

基因集富集分析(Gene Set Enrichment Analysis,GSEA),是一種基于基因表達(dá)數(shù)據(jù)的計(jì)算方法,用于確定先驗(yàn)定義的一組基因是否在兩種生物學(xué)狀態(tài)之間顯示出統(tǒng)計(jì)學(xué)上顯著的一致性差異。這里,需要重點(diǎn)解釋一下:首先,“先驗(yàn)定義的一組基因”指的是進(jìn)行GSEA富集分析需要先提供一個基因集,可以使用GSEA自帶的MSigDB數(shù)據(jù)庫中定義的基因集或者進(jìn)行自定義,基因集中包含關(guān)注的基因。其次,“兩種生物學(xué)狀態(tài)”可以簡單理解為分組信息,比如實(shí)驗(yàn)組和對照組,通常和表型密切聯(lián)系。最后,“一致性差異”指的是基因集中的基因在兩種生物學(xué)狀態(tài)中呈現(xiàn)出的協(xié)同變化趨勢,或者說基因集整體的表達(dá)模式更接近于哪種生物學(xué)狀態(tài)。
總的來說,進(jìn)行GSEA富集分析,我們需要提供基因表達(dá)矩陣、分組信息和定義的基因集。隨后,依據(jù)與生物學(xué)狀態(tài)的關(guān)聯(lián)度(即排序指標(biāo),比如FC、P Value等),生成基因排序列表。接著,從上到下遍歷排序列表中的基因,如果當(dāng)前基因也存在于定義的基因集中,則增加富集分?jǐn)?shù)。如果不存在,則減少富集分?jǐn)?shù)。增加/減少富集分?jǐn)?shù)的多少由排序指標(biāo)決定。生成的富集分?jǐn)?shù)折線圖中最高峰頂或最低峰谷位置的富集分?jǐn)?shù)作為基因集的富集得分,富集得分反映基因集在兩種生物學(xué)狀態(tài)中的協(xié)同趨勢(上調(diào)/下調(diào))。而基因集中包含的基因在排序列表中的位置分布(上端富集/底層富集)展現(xiàn)了基因集與哪種生物學(xué)狀態(tài)更相關(guān)。

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?GSEA
康測科技云工具已超過100種,并可實(shí)現(xiàn)快速查找。云文件中數(shù)據(jù)1次上傳即可反復(fù)使用,并且支持多種工具同時調(diào)用。云任務(wù)中可實(shí)時追蹤任務(wù)狀態(tài)。云工單可隨時提交問題和建議??禍y云分析平臺極大地提高了科研效率,讓客戶省心省力。

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?康測科技云分析平臺
康測科技GSEA富集分析云工具操作十分簡捷,方便客戶快速入手。
最后,我們簡單講解一下GSEA富集分析的結(jié)果。

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? GSEA富集分析結(jié)果
如上圖所示,大體可分為三個部分。第一部分是富集分?jǐn)?shù)折線圖。通過從上到下遍歷排序列表中的基因,計(jì)算每個基因位置的富集分?jǐn)?shù),從而生成折線圖。折線圖中峰頂或峰谷位置的富集分?jǐn)?shù)為該基因集的富集得分(ES)。Leading edge subset指的是對ES貢獻(xiàn)最大的基因群,當(dāng)ES>0時,通常是出現(xiàn)在峰值得分之前的基因集合。而當(dāng)ES<0時,則是出現(xiàn)在峰值得分之后的基因集合(簡單講就是峰頂左側(cè)或峰谷右側(cè))。Leading edge subset是需要重點(diǎn)關(guān)注的,其中的基因在某種生物學(xué)狀態(tài)下具有更顯著的生物學(xué)意義。第二個部分,用黑色的線條標(biāo)記了基因集中的基因出現(xiàn)在排序列表中的位置。也就是說,排序列表和基因集中都有的基因才會有線條標(biāo)記。排序列表中從上往下的基因排列對應(yīng)著第二部分從左往右的線條排列,下方紅藍(lán)相間的colorbar表示的是排序指標(biāo)值的大小。紅色部分的基因在左側(cè)分組中高表達(dá)(圖中是KO組),藍(lán)色部分的基因在另一個分組中高表達(dá)(圖中是WT組)。第三部分,是排序列表中基因的Rank值分布,每個基因?qū)?yīng)的信噪比(基因排序方法,康測科技目前支持Signal2Noise、tTest、Ratio_of_Classes和log2_Ratio_of_Classes四種方法)以灰色面積展示。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 關(guān)于康測
康測致力于先進(jìn)組學(xué)技術(shù)的開發(fā)和在生物醫(yī)學(xué)研究領(lǐng)域的應(yīng)用,建立了涵蓋基因組學(xué)、表觀基因組學(xué)、轉(zhuǎn)錄組學(xué)、表觀轉(zhuǎn)錄組學(xué)、免疫組學(xué)和互作組學(xué)的全面組學(xué)服務(wù)體系。而在醫(yī)學(xué)檢測方面,康測基于自主研發(fā)的SMP(Stranded Multiplex PCR)靶向測序技術(shù),可提供檢測靈敏度和特異性均為100%的MRD一站式自動化解決方案。

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 康測提供全面的基因表達(dá)調(diào)控研究工具

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 康測提供高度自動化MRD一站式解決方案