加權(quán)基因共表達(dá)網(wǎng)絡(luò)分析 (WGCNA, Weighted correlation network analysis)

今天介紹基礎(chǔ)概念

該流程圖簡(jiǎn)要概述了加權(quán)基因共表達(dá)網(wǎng)絡(luò)分析的主要步驟。圖片來(lái)源于:https://bmcbioinformatics.biomedcentral.com/articles/10.1186/1471-2105-9-559

基本分析流程

一、學(xué)習(xí)WGCNA,加權(quán)基因共表達(dá)網(wǎng)絡(luò)分析的必備知識(shí)點(diǎn)

注:

鄰近矩陣:是圖的一種存儲(chǔ)形式,用一個(gè)一維數(shù)組存放圖中所有頂點(diǎn)數(shù)據(jù);用一個(gè)二維數(shù)組存放頂點(diǎn)間關(guān)系(邊或?。┑臄?shù)據(jù),這個(gè)二維數(shù)組稱(chēng)為鄰接矩陣;在WGCNA分析里面指的是基因與基因之間的相關(guān)性系數(shù)矩陣。 如果用了閾值來(lái)判斷基因相關(guān)與否,那么這個(gè)鄰近矩陣就是0/1矩陣,只記錄基因相關(guān)與否。但是WGCNA沒(méi)有用閾值來(lái)卡基因的相關(guān)性,而是記錄了所有基因之間的相關(guān)性。

②?WGNA認(rèn)為基因之間的簡(jiǎn)單的相關(guān)性不足以計(jì)算共表達(dá),所以它利用二維數(shù)組的鄰近矩陣,又計(jì)算了一個(gè)新的鄰近矩陣。通常情況下,TOM(拓?fù)渲丿B矩陣)是WGCNA分析的最終結(jié)果,后續(xù)的分析主要是對(duì)TOM的下游注釋。

二、什么是加權(quán)基因共表達(dá)網(wǎng)絡(luò)分析 (WGCNA)?

加權(quán)基因共表達(dá)網(wǎng)絡(luò)分析(Weighted Gene Co-expression Network Analysis,簡(jiǎn)稱(chēng) WGCNA)是一種用于分析基因表達(dá)數(shù)據(jù)中基因之間相互關(guān)系的方法。

它通過(guò)構(gòu)建基因表達(dá)的加權(quán)網(wǎng)絡(luò),利用基因之間的共表達(dá)模式來(lái)識(shí)別與特定表型(如疾病狀態(tài)、性別、環(huán)境條件等)相關(guān)的基因模塊。

WGCNA 通過(guò)計(jì)算基因?qū)χg的相關(guān)性,構(gòu)建加權(quán)基因共表達(dá)網(wǎng)絡(luò),并將表達(dá)模式相似的基因歸為同一模塊,從而揭示基因間的潛在關(guān)聯(lián)。


三、WGCNA的操作意義是什么?

① 基因模塊的識(shí)別:通過(guò)構(gòu)建基因共表達(dá)網(wǎng)絡(luò),識(shí)別出具有相似表達(dá)模式的基因群體,稱(chēng)為基因模塊。這些模塊可能與特定的生物學(xué)功能、疾病或環(huán)境因素相關(guān)。

② 與表型數(shù)據(jù)的關(guān)聯(lián):通過(guò)與臨床或?qū)嶒?yàn)表型數(shù)據(jù)進(jìn)行關(guān)聯(lián),WGCNA 可以幫助發(fā)現(xiàn)與表型相關(guān)的基因模塊,提供生物學(xué)上的理解。

③ 功能富集分析:對(duì)識(shí)別出的模塊進(jìn)行功能富集分析,揭示模塊內(nèi)基因的共同功能或生物學(xué)路徑。

④ 標(biāo)記基因的識(shí)別:通過(guò)網(wǎng)絡(luò)分析,找出與特定模塊或表型強(qiáng)相關(guān)的“關(guān)鍵基因”,即 hub genes,這些基因可能是潛在的生物標(biāo)記或治療靶點(diǎn)。


四、WGCNA的工作原理是什么?

WGCNA 的工作原理可以分為幾個(gè)步驟:

① 數(shù)據(jù)預(yù)處理:收集并整理基因表達(dá)數(shù)據(jù),并對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化或過(guò)濾,以去除噪聲。

② 構(gòu)建基因共表達(dá)網(wǎng)絡(luò):計(jì)算每對(duì)基因之間的相關(guān)性,通常使用皮爾遜相關(guān)系數(shù)(Pearson correlation)。根據(jù)相關(guān)性,使用加權(quán)方式計(jì)算網(wǎng)絡(luò)中的每條邊的權(quán)重。

③ 網(wǎng)絡(luò)構(gòu)建:通過(guò)閾值化或者軟閾值(soft thresholding)方法,確定網(wǎng)絡(luò)中基因?qū)χg的連接強(qiáng)度,進(jìn)而構(gòu)建基因共表達(dá)網(wǎng)絡(luò)。

④ 模塊檢測(cè):利用聚類(lèi)算法(如層次聚類(lèi)),將表達(dá)模式相似的基因歸為一類(lèi),形成基因模塊。

⑤ 模塊與表型關(guān)聯(lián):將模塊的基因表達(dá)模式與外部表型數(shù)據(jù)進(jìn)行相關(guān)性分析,找出與特定表型顯著相關(guān)的模塊。

⑥ 功能注釋與分析:對(duì)識(shí)別出的模塊進(jìn)行功能富集分析,理解這些模塊的生物學(xué)意義。


五、WGCNA能做什么?

① 基因模塊的識(shí)別:通過(guò)聚類(lèi)分析,找出在表達(dá)模式上相似的基因群體,識(shí)別基因模塊。

② 模塊與表型的關(guān)聯(lián)分析:識(shí)別與疾病、治療反應(yīng)、性別、環(huán)境因素等表型相關(guān)的基因模塊。

③ 關(guān)鍵基因的篩選:找出在特定模塊中表現(xiàn)出中心作用的基因,這些基因可能是生物標(biāo)記物或治療靶點(diǎn)。

④ 功能注釋與通路分析:通過(guò)功能富集分析,識(shí)別與某些生物過(guò)程、通路相關(guān)的基因模塊。

⑤ 基因網(wǎng)絡(luò)的構(gòu)建:生成基因共表達(dá)網(wǎng)絡(luò)圖,幫助研究基因之間的相互關(guān)系。


六、WGCNA能與哪些別的分析放在一起?

① 差異表達(dá)分析:先進(jìn)行差異表達(dá)分析,找出表達(dá)水平顯著不同的基因,再使用 WGCNA 進(jìn)行進(jìn)一步的模塊化分析。

② 基因集富集分析(GSEA):在 WGCNA 結(jié)果基礎(chǔ)上,進(jìn)一步對(duì)識(shí)別出的模塊進(jìn)行 GSEA,探索這些模塊是否與已知的基因集或通路顯著相關(guān)。

③ 機(jī)器學(xué)習(xí):可以將 WGCNA 識(shí)別出的模塊作為特征輸入到機(jī)器學(xué)習(xí)模型中,用于分類(lèi)或回歸分析,預(yù)測(cè)疾病風(fēng)險(xiǎn)、治療反應(yīng)等。

④ 基因功能預(yù)測(cè):通過(guò)將模塊與已有的生物學(xué)數(shù)據(jù)庫(kù)(如 GO、KEGG 等)結(jié)合,分析模塊的潛在功能。

⑤ 表觀遺傳學(xué)分析:結(jié)合表觀遺傳學(xué)數(shù)據(jù),如 DNA 甲基化、組蛋白修飾等,分析這些因素如何影響基因共表達(dá)模式。

⑥ 多組學(xué)數(shù)據(jù)整合分析:將 WGCNA 與其他組學(xué)數(shù)據(jù)(如轉(zhuǎn)錄組、蛋白組、代謝組等)結(jié)合,分析不同組學(xué)數(shù)據(jù)對(duì)基因共表達(dá)網(wǎng)絡(luò)的影響。


七、WGCNA可以做哪些可視化,分別有什么意義?

① 基因共表達(dá)網(wǎng)絡(luò)圖:展示基因間的共表達(dá)關(guān)系,可以幫助識(shí)別基因模塊及其互作網(wǎng)絡(luò)。

② 模塊熱圖:展示每個(gè)基因模塊內(nèi)基因的表達(dá)模式,通常通過(guò)熱圖的顏色深淺來(lái)表示基因表達(dá)水平。

③ 模塊-表型相關(guān)性圖:顯示基因模塊的表達(dá)模式與表型(如疾病狀態(tài)、環(huán)境條件等)之間的相關(guān)性,幫助發(fā)現(xiàn)與表型顯著相關(guān)的基因模塊。

④ 基因模塊樹(shù)狀圖:通過(guò)層次聚類(lèi)方法展示基因模塊的聚類(lèi)情況,幫助查看模塊間的相似性。

⑤ 模塊內(nèi) hub gene 可視化:突出展示模塊內(nèi)重要的 hub 基因,幫助識(shí)別可能的生物標(biāo)記或治療靶點(diǎn)。

⑥ PCA 圖(主成分分析):幫助評(píng)估基因模塊的變異情況及其與表型的關(guān)系。


八、WGCNA可以用哪些算法實(shí)現(xiàn)?還是只能用代碼和函數(shù)實(shí)現(xiàn)?

WGCNA 主要通過(guò) R 編程語(yǔ)言中的WGCNA包來(lái)實(shí)現(xiàn)。這個(gè)包提供了一整套用于構(gòu)建基因共表達(dá)網(wǎng)絡(luò)、識(shí)別基因模塊、進(jìn)行模塊與表型關(guān)聯(lián)分析的函數(shù)。它并不依賴(lài)于其他外部算法包,而是通過(guò)標(biāo)準(zhǔn)的統(tǒng)計(jì)方法和網(wǎng)絡(luò)分析技術(shù)實(shí)現(xiàn):

- 相關(guān)性計(jì)算:使用皮爾遜相關(guān)系數(shù)或其他相似性度量方法計(jì)算基因?qū)χg的關(guān)系。

- 網(wǎng)絡(luò)構(gòu)建:使用加權(quán)連接函數(shù)(如軟閾值化)來(lái)構(gòu)建基因共表達(dá)網(wǎng)絡(luò)。

- 模塊識(shí)別:通過(guò)層次聚類(lèi)或動(dòng)態(tài)剪切算法識(shí)別基因模塊。

- 模塊與表型關(guān)聯(lián)分析:使用線性回歸、相關(guān)性分析等方法來(lái)評(píng)估模塊與表型之間的關(guān)系。

所以,WGCNA 的實(shí)現(xiàn)主要依賴(lài)于 R 語(yǔ)言中的包和函數(shù),雖然也可以結(jié)合其他算法,但核心實(shí)現(xiàn)通常是通過(guò)代碼和函數(shù)。


九、WGCNA能出哪些數(shù)據(jù)結(jié)果?

① 基因共表達(dá)網(wǎng)絡(luò):基因間的相關(guān)性矩陣,表示基因?qū)χg的共表達(dá)關(guān)系。

② 基因模塊:基因根據(jù)共表達(dá)模式被分為多個(gè)模塊,每個(gè)模塊包含了一組具有相似表達(dá)模式的基因。

③ 模塊與表型的相關(guān)性:每個(gè)基因模塊與外部表型(如疾病狀態(tài)、環(huán)境條件等)之間的相關(guān)性。

④ 功能富集分析結(jié)果:對(duì)每個(gè)基因模塊進(jìn)行 GO(Gene Ontology)、KEGG 等功能富集分析,揭示模塊的生物學(xué)功能。

⑤ 關(guān)鍵基因:每個(gè)模塊內(nèi)的 hub gene 或關(guān)鍵基因,這些基因在模塊中具有重要的網(wǎng)絡(luò)地位。

⑥ 網(wǎng)絡(luò)圖:基因共表達(dá)網(wǎng)絡(luò)的可視化結(jié)果,包括基因間的連接關(guān)系和模塊結(jié)構(gòu)。


生物信息學(xué)領(lǐng)域非常廣泛,難以一次說(shuō)盡。我們下次繼續(xù)更新,一起深入學(xué)習(xí)生物信息學(xué)的內(nèi)容!

喜歡的寶子們點(diǎn)個(gè)贊吧~碼字不易,且行且珍惜~

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。
禁止轉(zhuǎn)載,如需轉(zhuǎn)載請(qǐng)通過(guò)簡(jiǎn)信或評(píng)論聯(lián)系作者。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容