今天介紹基礎(chǔ)概念
該流程圖簡(jiǎn)要概述了加權(quán)基因共表達(dá)網(wǎng)絡(luò)分析的主要步驟。圖片來(lái)源于:https://bmcbioinformatics.biomedcentral.com/articles/10.1186/1471-2105-9-559

一、學(xué)習(xí)WGCNA,加權(quán)基因共表達(dá)網(wǎng)絡(luò)分析的必備知識(shí)點(diǎn)

注:
① 鄰近矩陣:是圖的一種存儲(chǔ)形式,用一個(gè)一維數(shù)組存放圖中所有頂點(diǎn)數(shù)據(jù);用一個(gè)二維數(shù)組存放頂點(diǎn)間關(guān)系(邊或?。┑臄?shù)據(jù),這個(gè)二維數(shù)組稱(chēng)為鄰接矩陣;在WGCNA分析里面指的是基因與基因之間的相關(guān)性系數(shù)矩陣。 如果用了閾值來(lái)判斷基因相關(guān)與否,那么這個(gè)鄰近矩陣就是0/1矩陣,只記錄基因相關(guān)與否。但是WGCNA沒(méi)有用閾值來(lái)卡基因的相關(guān)性,而是記錄了所有基因之間的相關(guān)性。
②?WGNA認(rèn)為基因之間的簡(jiǎn)單的相關(guān)性不足以計(jì)算共表達(dá),所以它利用二維數(shù)組的鄰近矩陣,又計(jì)算了一個(gè)新的鄰近矩陣。通常情況下,TOM(拓?fù)渲丿B矩陣)是WGCNA分析的最終結(jié)果,后續(xù)的分析主要是對(duì)TOM的下游注釋。
二、什么是加權(quán)基因共表達(dá)網(wǎng)絡(luò)分析 (WGCNA)?
加權(quán)基因共表達(dá)網(wǎng)絡(luò)分析(Weighted Gene Co-expression Network Analysis,簡(jiǎn)稱(chēng) WGCNA)是一種用于分析基因表達(dá)數(shù)據(jù)中基因之間相互關(guān)系的方法。
它通過(guò)構(gòu)建基因表達(dá)的加權(quán)網(wǎng)絡(luò),利用基因之間的共表達(dá)模式來(lái)識(shí)別與特定表型(如疾病狀態(tài)、性別、環(huán)境條件等)相關(guān)的基因模塊。
WGCNA 通過(guò)計(jì)算基因?qū)χg的相關(guān)性,構(gòu)建加權(quán)基因共表達(dá)網(wǎng)絡(luò),并將表達(dá)模式相似的基因歸為同一模塊,從而揭示基因間的潛在關(guān)聯(lián)。
三、WGCNA的操作意義是什么?
① 基因模塊的識(shí)別:通過(guò)構(gòu)建基因共表達(dá)網(wǎng)絡(luò),識(shí)別出具有相似表達(dá)模式的基因群體,稱(chēng)為基因模塊。這些模塊可能與特定的生物學(xué)功能、疾病或環(huán)境因素相關(guān)。
② 與表型數(shù)據(jù)的關(guān)聯(lián):通過(guò)與臨床或?qū)嶒?yàn)表型數(shù)據(jù)進(jìn)行關(guān)聯(lián),WGCNA 可以幫助發(fā)現(xiàn)與表型相關(guān)的基因模塊,提供生物學(xué)上的理解。
③ 功能富集分析:對(duì)識(shí)別出的模塊進(jìn)行功能富集分析,揭示模塊內(nèi)基因的共同功能或生物學(xué)路徑。
④ 標(biāo)記基因的識(shí)別:通過(guò)網(wǎng)絡(luò)分析,找出與特定模塊或表型強(qiáng)相關(guān)的“關(guān)鍵基因”,即 hub genes,這些基因可能是潛在的生物標(biāo)記或治療靶點(diǎn)。
四、WGCNA的工作原理是什么?
WGCNA 的工作原理可以分為幾個(gè)步驟:
① 數(shù)據(jù)預(yù)處理:收集并整理基因表達(dá)數(shù)據(jù),并對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化或過(guò)濾,以去除噪聲。
② 構(gòu)建基因共表達(dá)網(wǎng)絡(luò):計(jì)算每對(duì)基因之間的相關(guān)性,通常使用皮爾遜相關(guān)系數(shù)(Pearson correlation)。根據(jù)相關(guān)性,使用加權(quán)方式計(jì)算網(wǎng)絡(luò)中的每條邊的權(quán)重。
③ 網(wǎng)絡(luò)構(gòu)建:通過(guò)閾值化或者軟閾值(soft thresholding)方法,確定網(wǎng)絡(luò)中基因?qū)χg的連接強(qiáng)度,進(jìn)而構(gòu)建基因共表達(dá)網(wǎng)絡(luò)。
④ 模塊檢測(cè):利用聚類(lèi)算法(如層次聚類(lèi)),將表達(dá)模式相似的基因歸為一類(lèi),形成基因模塊。
⑤ 模塊與表型關(guān)聯(lián):將模塊的基因表達(dá)模式與外部表型數(shù)據(jù)進(jìn)行相關(guān)性分析,找出與特定表型顯著相關(guān)的模塊。
⑥ 功能注釋與分析:對(duì)識(shí)別出的模塊進(jìn)行功能富集分析,理解這些模塊的生物學(xué)意義。
五、WGCNA能做什么?
① 基因模塊的識(shí)別:通過(guò)聚類(lèi)分析,找出在表達(dá)模式上相似的基因群體,識(shí)別基因模塊。
② 模塊與表型的關(guān)聯(lián)分析:識(shí)別與疾病、治療反應(yīng)、性別、環(huán)境因素等表型相關(guān)的基因模塊。
③ 關(guān)鍵基因的篩選:找出在特定模塊中表現(xiàn)出中心作用的基因,這些基因可能是生物標(biāo)記物或治療靶點(diǎn)。
④ 功能注釋與通路分析:通過(guò)功能富集分析,識(shí)別與某些生物過(guò)程、通路相關(guān)的基因模塊。
⑤ 基因網(wǎng)絡(luò)的構(gòu)建:生成基因共表達(dá)網(wǎng)絡(luò)圖,幫助研究基因之間的相互關(guān)系。
六、WGCNA能與哪些別的分析放在一起?
① 差異表達(dá)分析:先進(jìn)行差異表達(dá)分析,找出表達(dá)水平顯著不同的基因,再使用 WGCNA 進(jìn)行進(jìn)一步的模塊化分析。
② 基因集富集分析(GSEA):在 WGCNA 結(jié)果基礎(chǔ)上,進(jìn)一步對(duì)識(shí)別出的模塊進(jìn)行 GSEA,探索這些模塊是否與已知的基因集或通路顯著相關(guān)。
③ 機(jī)器學(xué)習(xí):可以將 WGCNA 識(shí)別出的模塊作為特征輸入到機(jī)器學(xué)習(xí)模型中,用于分類(lèi)或回歸分析,預(yù)測(cè)疾病風(fēng)險(xiǎn)、治療反應(yīng)等。
④ 基因功能預(yù)測(cè):通過(guò)將模塊與已有的生物學(xué)數(shù)據(jù)庫(kù)(如 GO、KEGG 等)結(jié)合,分析模塊的潛在功能。
⑤ 表觀遺傳學(xué)分析:結(jié)合表觀遺傳學(xué)數(shù)據(jù),如 DNA 甲基化、組蛋白修飾等,分析這些因素如何影響基因共表達(dá)模式。
⑥ 多組學(xué)數(shù)據(jù)整合分析:將 WGCNA 與其他組學(xué)數(shù)據(jù)(如轉(zhuǎn)錄組、蛋白組、代謝組等)結(jié)合,分析不同組學(xué)數(shù)據(jù)對(duì)基因共表達(dá)網(wǎng)絡(luò)的影響。
七、WGCNA可以做哪些可視化,分別有什么意義?
① 基因共表達(dá)網(wǎng)絡(luò)圖:展示基因間的共表達(dá)關(guān)系,可以幫助識(shí)別基因模塊及其互作網(wǎng)絡(luò)。
② 模塊熱圖:展示每個(gè)基因模塊內(nèi)基因的表達(dá)模式,通常通過(guò)熱圖的顏色深淺來(lái)表示基因表達(dá)水平。
③ 模塊-表型相關(guān)性圖:顯示基因模塊的表達(dá)模式與表型(如疾病狀態(tài)、環(huán)境條件等)之間的相關(guān)性,幫助發(fā)現(xiàn)與表型顯著相關(guān)的基因模塊。
④ 基因模塊樹(shù)狀圖:通過(guò)層次聚類(lèi)方法展示基因模塊的聚類(lèi)情況,幫助查看模塊間的相似性。
⑤ 模塊內(nèi) hub gene 可視化:突出展示模塊內(nèi)重要的 hub 基因,幫助識(shí)別可能的生物標(biāo)記或治療靶點(diǎn)。
⑥ PCA 圖(主成分分析):幫助評(píng)估基因模塊的變異情況及其與表型的關(guān)系。
八、WGCNA可以用哪些算法實(shí)現(xiàn)?還是只能用代碼和函數(shù)實(shí)現(xiàn)?
WGCNA 主要通過(guò) R 編程語(yǔ)言中的WGCNA包來(lái)實(shí)現(xiàn)。這個(gè)包提供了一整套用于構(gòu)建基因共表達(dá)網(wǎng)絡(luò)、識(shí)別基因模塊、進(jìn)行模塊與表型關(guān)聯(lián)分析的函數(shù)。它并不依賴(lài)于其他外部算法包,而是通過(guò)標(biāo)準(zhǔn)的統(tǒng)計(jì)方法和網(wǎng)絡(luò)分析技術(shù)實(shí)現(xiàn):
- 相關(guān)性計(jì)算:使用皮爾遜相關(guān)系數(shù)或其他相似性度量方法計(jì)算基因?qū)χg的關(guān)系。
- 網(wǎng)絡(luò)構(gòu)建:使用加權(quán)連接函數(shù)(如軟閾值化)來(lái)構(gòu)建基因共表達(dá)網(wǎng)絡(luò)。
- 模塊識(shí)別:通過(guò)層次聚類(lèi)或動(dòng)態(tài)剪切算法識(shí)別基因模塊。
- 模塊與表型關(guān)聯(lián)分析:使用線性回歸、相關(guān)性分析等方法來(lái)評(píng)估模塊與表型之間的關(guān)系。
所以,WGCNA 的實(shí)現(xiàn)主要依賴(lài)于 R 語(yǔ)言中的包和函數(shù),雖然也可以結(jié)合其他算法,但核心實(shí)現(xiàn)通常是通過(guò)代碼和函數(shù)。
九、WGCNA能出哪些數(shù)據(jù)結(jié)果?
① 基因共表達(dá)網(wǎng)絡(luò):基因間的相關(guān)性矩陣,表示基因?qū)χg的共表達(dá)關(guān)系。
② 基因模塊:基因根據(jù)共表達(dá)模式被分為多個(gè)模塊,每個(gè)模塊包含了一組具有相似表達(dá)模式的基因。
③ 模塊與表型的相關(guān)性:每個(gè)基因模塊與外部表型(如疾病狀態(tài)、環(huán)境條件等)之間的相關(guān)性。
④ 功能富集分析結(jié)果:對(duì)每個(gè)基因模塊進(jìn)行 GO(Gene Ontology)、KEGG 等功能富集分析,揭示模塊的生物學(xué)功能。
⑤ 關(guān)鍵基因:每個(gè)模塊內(nèi)的 hub gene 或關(guān)鍵基因,這些基因在模塊中具有重要的網(wǎng)絡(luò)地位。
⑥ 網(wǎng)絡(luò)圖:基因共表達(dá)網(wǎng)絡(luò)的可視化結(jié)果,包括基因間的連接關(guān)系和模塊結(jié)構(gòu)。
生物信息學(xué)領(lǐng)域非常廣泛,難以一次說(shuō)盡。我們下次繼續(xù)更新,一起深入學(xué)習(xí)生物信息學(xué)的內(nèi)容!
喜歡的寶子們點(diǎn)個(gè)贊吧~碼字不易,且行且珍惜~