神圖-多組學(xué)通路富集的聯(lián)合比較

image

使用Perseus軟件進(jìn)行1D和2D annotation enrichment分析

某天,在某篇蛋白組學(xué)文獻(xiàn)中看到這么一個(gè)分析,稱為2D annotation enrichment的方法。作者使用2D annotation enrichment比較了自己的蛋白組數(shù)據(jù)集和先前研究中蛋白組數(shù)據(jù)集的蛋白表達(dá)的差異,并將這種差異關(guān)聯(lián)到富集的通路上進(jìn)行比較,以闡述二者的一致性和區(qū)別。圖B是2D annotation enrichment的結(jié)果,橫軸為自己的蛋白組數(shù)據(jù),縱軸為先前報(bào)道的蛋白組數(shù)據(jù),橫軸和縱軸坐標(biāo)表示了這些通路在兩個(gè)數(shù)據(jù)集中的富集因子,正值代表激活,負(fù)值代表抑制;圖中的點(diǎn)代表了富集的通路,不同顏色的點(diǎn)代表了不用類型的功能通路。這樣,功能通路在兩個(gè)數(shù)據(jù)集中的狀態(tài)清晰可對比,看到相似的功能通路在兩數(shù)據(jù)集中具有相似的激活或抑制特征。

image

來源文獻(xiàn),Phosphoproteomics Reveals the GSK3-PDX1 Axis as a Key Pathogenic Signaling Node in Diabetic Islets

令小編好奇的是,這個(gè)2D annotation enrichment分析是如何根據(jù)兩組數(shù)據(jù)集中蛋白水平的倍數(shù)變化,關(guān)聯(lián)到通路水平進(jìn)行比較,解釋生物學(xué)問題的呢?本篇就讓我們重現(xiàn)這種分析方法。

2D annotation enrichment可以對兩個(gè)不同的組學(xué)數(shù)據(jù)進(jìn)行聯(lián)合分析,以對比它們的一致性與不同。例如,對蛋白組和轉(zhuǎn)錄組數(shù)據(jù)集進(jìn)行聯(lián)合分析,根據(jù)所有蛋白或基因表達(dá)的倍數(shù)變化值,計(jì)算對應(yīng)的通路是否受到激活或抑制。根據(jù)結(jié)果,可以用于描述哪些通路在轉(zhuǎn)錄組水平激活而翻譯水平未體現(xiàn),或者在翻譯水平激活但轉(zhuǎn)錄水平未體現(xiàn),以闡述轉(zhuǎn)錄水平和翻譯水平基因表達(dá)的生物學(xué)現(xiàn)象。或者,根據(jù)一致的通路描述二者的共性,描述功能的一致性。

目前,2D annotation enrichment可以使用Perseus軟件來完成分析,Perseus下載地址:https://www.maxquant.org/perseus/

這應(yīng)該是關(guān)于2D annotation enrichment的第一篇中文教程了。為了方便大家操作,測試數(shù)據(jù),作圖R代碼等,可在微信公眾號閱讀原文獲取。

1 輸入數(shù)據(jù)格式

輸入數(shù)據(jù)文件以制表符分割,包含四列信息,記錄了基因名稱,轉(zhuǎn)錄組和蛋白組中計(jì)算的基因的差異表達(dá)倍數(shù),以及基因所屬的功能類別。

image

以該示例數(shù)據(jù)為例:

gene,基因名稱列,記錄基因的名稱,可以為任意名稱。

logFC_gene和logFC_protein,log2轉(zhuǎn)換后的差異倍數(shù),一列是基因?qū)?yīng)的蛋白的差異表達(dá),一列是基因?qū)?yīng)的轉(zhuǎn)錄組的差異表達(dá)。

GO_term,基因所屬的功能條目,該示例中展示了基因歸類的GO功能類別。

由于一個(gè)基因可以歸屬多條功能,因此基因名稱或者功能條目均可以出現(xiàn)多次。

2 數(shù)據(jù)導(dǎo)入至Perseus

Perseus的安裝過程就不再多說了,很簡單,下載就能用。界面也是圖形化界面,很好操作?,F(xiàn)在我們打開Perseus,將準(zhǔn)備的數(shù)據(jù)讀取到Perseus中用作功能富集分析。

軟件左上方有個(gè)導(dǎo)入按鈕,點(diǎn)擊后在新界面選擇本地的文件讀取,并設(shè)置列的類型后,點(diǎn)擊確定即可成功讀入。

image

3 1D annotation enrichment

接下來就是令人激動(dòng)的分析環(huán)節(jié)了,我們首先來看單組學(xué)數(shù)據(jù)集的功能分析過程吧,也就是1D annotation enrichment。

例如這里以蛋白組數(shù)據(jù)集為例,根據(jù)所有蛋白的倍數(shù)變化值,計(jì)算這些蛋白對應(yīng)的通路是否受到激活或抑制。

備注:就目前而言,1D annotation enrichment很少使用,更多地使用基因集富集分析(GSEA)實(shí)現(xiàn)類似的目的。

image

結(jié)果表格中,重點(diǎn)關(guān)注幾列信息就可以了。

C:Name,為富集的功能條目名稱,本示例中,為基因所屬的GO功能類別的名稱。

N:Size,富集到該功能的蛋白數(shù)量。

N:Score,富集得分,取值范圍-1~1,正值代表了該通路的激活,負(fù)值代表了該通路的抑制。

N:Pvalue和FDR,分別為通路富集的p值和p調(diào)整值,只保留了設(shè)定在閾值范圍內(nèi)的顯著結(jié)果。

對于富集結(jié)果的輸出,點(diǎn)擊右上方的保存按鈕,輸出在本地文件保存。

4 2D annotation enrichment

2D annotation enrichment分析是Perseus的特色,可以對兩個(gè)不同的組學(xué)數(shù)據(jù)進(jìn)行聯(lián)合分析,以對比它們的一致性與不同。

接下來,我們同時(shí)選擇蛋白組和轉(zhuǎn)錄組數(shù)據(jù)集,根據(jù)所有蛋白或基因表達(dá)的倍數(shù)變化值,計(jì)算對應(yīng)的通路是否受到激活或抑制。根據(jù)結(jié)果,可以用于描述哪些通路在轉(zhuǎn)錄組水平激活而翻譯水平未體現(xiàn),或者在翻譯水平激活但轉(zhuǎn)錄水平未體現(xiàn),以闡述轉(zhuǎn)錄水平和翻譯水平基因表達(dá)的生物學(xué)現(xiàn)象?;蛘?,根據(jù)一致的通路描述二者的共性。

image

類似地,結(jié)果表格中,重點(diǎn)關(guān)注幾列信息就可以了。

logFC_protein和logFC_gene,分別為蛋白和轉(zhuǎn)錄水平的富集得分,取值范圍-1~1,正值代表了該通路的激活,負(fù)值代表了該通路的抑制。

T:Names,為富集的功能條目名稱,本示例中,為基因所屬的GO功能類別的名稱。

N:Size,富集到該功能的基因數(shù)量。

N:Pvalue和FDR,分別為通路富集的p值和p調(diào)整值,只保留了設(shè)定在閾值范圍內(nèi)的顯著結(jié)果。

對于富集結(jié)果的輸出,點(diǎn)擊右上方的保存按鈕,輸出在本地文件保存。

5 R語言的可視化

通路的富集分析結(jié)果拿到手了,最后就是作圖展示。

結(jié)果輸出后,稍作處理,例如可以繼續(xù)為功能添加分類。對于分類的添加,可以是進(jìn)一步的功能大類,將通路關(guān)聯(lián)到更大的分類中,這樣更有利于描述功能的一致性?;蛘?,根據(jù)蛋白組和轉(zhuǎn)錄組的通路富集的一致性趨勢劃分分類也可以。這里直接按四象限分布劃分分類了,僅用作示例展示。

image

最后,我們使用R語言ggplot2包繪制二維散點(diǎn)圖表示通路富集,就以2D annotation enrichment 得到的蛋白組和轉(zhuǎn)錄組雙組學(xué)的聯(lián)合分析為例展示。


#2D使用Perseus計(jì)算

#并手動(dòng)添加功能分類后,在R里作圖

?

dat <- read.delim('2D_result.txt')

?

#散點(diǎn)圖

library(ggplot2)

library(ggrepel)

?

ggplot(dat, aes(logFC_protein, logFC_gene)) +

geom_point(aes(color = type), size = 2) +

theme(panel.grid.minor = element_blank(), axis.line = element_line(color = 'black')) +

geom_vline(xintercept = 0, linetype = 2) +

geom_hline(yintercept = 0, linetype = 2) +

labs(x = 'Proteome\nlog2FC', y = 'Transcriptome\nlog2FC', color = '') +

scale_x_continuous(expand = c(0, 0), limit = c(-1, 1)) +

scale_y_continuous(expand = c(0, 0), limit = c(-1, 1)) +

geom_text_repel(aes(label = Names), size = 3,

    box.padding = unit(0.5, 'lines'), show.legend = FALSE)

image

這樣,成品圖就出來了,后續(xù)根據(jù)兩個(gè)組學(xué)數(shù)據(jù)富集通路的一致性或區(qū)別,描述生物學(xué)現(xiàn)象就可以了。

紀(jì)偉點(diǎn)評:我們經(jīng)常聽到多組學(xué)分析,多數(shù)據(jù)集關(guān)聯(lián)分析,這些聯(lián)合分析可以很好的說明分子及功能的變化規(guī)律的普遍性,穩(wěn)定性,但聯(lián)合分析出圖是個(gè)大問題。

分子水平差異變化:如轉(zhuǎn)錄組mRNA, lncRNA, circRNA, miRNA與蛋白,磷酸化蛋白,代謝小分子,基因突變,染色體變異等;及不同來源數(shù)據(jù)集(公共數(shù)據(jù))分子的比較如何出圖。

功能水平上:富集重要信號通路如增殖,粘附,胰島素分泌等關(guān)心的通路如何在多組學(xué)活多數(shù)據(jù)集上展示差異及共性,如何出圖。

信號軸上:某個(gè)具體的信號軸上,多組學(xué)的分子,不同的數(shù)據(jù)集如何展示其差異與共性,揭示處理?xiàng)l件下特有的信號軸變化,如何出圖。

本篇文章中的分析,給我們解決功能富集關(guān)聯(lián)提出了一個(gè)很好的方法,首次看到它時(shí),著實(shí)讓我興奮不已,此刻依然心潮澎湃...

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容