WGCNA定義,來(lái)源以及發(fā)展可閱讀:https://wiki.mbalib.com/wiki/Scale_Free_Network
WGCNA無(wú)尺度網(wǎng)絡(luò)是指在某一復(fù)雜的系統(tǒng)中,大部分節(jié)點(diǎn)只有少數(shù)幾個(gè)連結(jié),而某些節(jié)點(diǎn)卻擁有與其他節(jié)點(diǎn)的大量連結(jié)。這些具有大量連結(jié)的節(jié)點(diǎn)稱為“集散節(jié)點(diǎn)”,所擁有的連結(jié)可能高達(dá)數(shù)百、數(shù)千甚至數(shù)百萬(wàn)。這一特性說(shuō)明該網(wǎng)絡(luò)是無(wú)尺度的,因此,凡具有這一特性的網(wǎng)絡(luò)都是無(wú)尺度網(wǎng)絡(luò)。無(wú)尺度網(wǎng)絡(luò)是指在某一復(fù)雜的系統(tǒng)中,大部分節(jié)點(diǎn)只有少數(shù)幾個(gè)連結(jié),而某些節(jié)點(diǎn)卻擁有與其他節(jié)點(diǎn)的大量連結(jié)。這些具有大量連結(jié)的節(jié)點(diǎn)稱為“集散節(jié)點(diǎn)”,所擁有的連結(jié)可能高達(dá)數(shù)百、數(shù)千甚至數(shù)百萬(wàn)。這一特性說(shuō)明該網(wǎng)絡(luò)是無(wú)尺度的,因此,凡具有這一特性的網(wǎng)絡(luò)都是無(wú)尺度網(wǎng)絡(luò)。
GCNA是加權(quán)基因共表達(dá)網(wǎng)絡(luò)分析,旨在分析協(xié)同表達(dá)的基因模塊,分析基因網(wǎng)絡(luò)與疾病(表型)之間的關(guān)聯(lián),并找出網(wǎng)絡(luò)中的核心基因。從方法講,WGCNA分為表達(dá)量聚類分析和表型關(guān)聯(lián)。主要包括基因相關(guān)系數(shù)的計(jì)算,基因模塊的確定,共表達(dá)網(wǎng)絡(luò),模塊與性狀關(guān)聯(lián)。
R-seq的根本目的是找到差異基因,而在數(shù)據(jù)歸一化以后所進(jìn)行的差異基因的尋找有兩種:1 DEseq2差異分析;2 go ontology analysis
第一步 計(jì)算基因之間的相關(guān)系數(shù)? ?相關(guān)系數(shù)計(jì)算采用相關(guān)系數(shù)加權(quán)值,取相關(guān)系數(shù)的N次冪,這樣使基因網(wǎng)絡(luò)呈無(wú)尺度網(wǎng)絡(luò)分布。而閾值的界定決定對(duì)相似基因表達(dá)的判定。
第二步? 構(gòu)建聚類樹(shù)? ?根據(jù)相關(guān)系數(shù)進(jìn)行分層聚類,而不同的分枝代表不同的基因模塊,同一基因模塊是表達(dá)相似的基因。將幾萬(wàn)個(gè)基因按基因表達(dá)相關(guān)系數(shù)的N次冪分成幾十個(gè)模塊。這是信息歸納的過(guò)程。
重要含義
鄰接矩陣? ?就是將頂點(diǎn)的基因和頂點(diǎn)之間的相關(guān)系數(shù)組成的矩陣稱為鄰接矩陣。一般鄰接矩陣是具體數(shù)值,并不是由閾值設(shè)定的0/1矩陣。
topilogical matrix?
在鄰接矩陣的基礎(chǔ)上再計(jì)算一個(gè)鄰接矩陣,TOM
WGCNA基本概念
理解WGCNA,需要先理解下面幾個(gè)術(shù)語(yǔ)和它們?cè)赪GCNA中的定義。
共表達(dá)網(wǎng)絡(luò):定義為加權(quán)基因網(wǎng)絡(luò)。點(diǎn)代表基因,邊代表基因表達(dá)相關(guān)性。加權(quán)是指對(duì)相關(guān)性值進(jìn)行冥次運(yùn)算.(冥次的值也就是軟閾值 (power, pickSoftThreshold這個(gè)函數(shù)所做的就是確定合適的power))。無(wú)向網(wǎng)絡(luò)的邊屬性計(jì)算方式為abs(cor(genex, geney)) ^ power;有向網(wǎng)絡(luò)的邊屬性計(jì)算方式為(1+cor(genex, geney)/2) ^ power; signhybrid的邊屬性計(jì)算方式為cor(genex, geney)^power if cor>0 else 0。這種處理方式強(qiáng)化了強(qiáng)相關(guān),弱化了弱相關(guān)或負(fù)相關(guān),使得相關(guān)性數(shù)值更符合無(wú)標(biāo)度網(wǎng)絡(luò)特征,更具有生物意義。如果沒(méi)有合適的power,一般是由于部分樣品與其它樣品因?yàn)槟撤N原因差別太大導(dǎo)致的,可根據(jù)具體問(wèn)題移除部分樣品或查看后面的經(jīng)驗(yàn)值。
Module(模塊):高度內(nèi)連的基因集。在無(wú)向網(wǎng)絡(luò)中,模塊內(nèi)是高度相關(guān)的基因。在有向網(wǎng)絡(luò)中,模塊內(nèi)是高度正相關(guān)的基因。把基因聚類成模塊后,可以對(duì)每個(gè)模塊進(jìn)行三個(gè)層次的分析:1. 功能富集分析查看其功能特征是否與研究目的相符;2. 模塊與性狀進(jìn)行關(guān)聯(lián)分析,找出與關(guān)注性狀相關(guān)度最高的模塊;3. 模塊與樣本進(jìn)行關(guān)聯(lián)分析,找到樣品特異高表達(dá)的模塊。
基因富集相關(guān)文章 去東方,最好用的在線GO富集分析工具;GO、GSEA富集分析一網(wǎng)打進(jìn);GSEA富集分析-界面操作。其它關(guān)聯(lián)后面都會(huì)提及。
Connectivity (連接度):類似于網(wǎng)絡(luò)中 "度"
(degree)的概念。每個(gè)基因的連接度是與其相連的基因的邊屬性之和。
Module eigengene E:
給定模型的第一主成分,代表整個(gè)模型的基因表達(dá)譜。這個(gè)是個(gè)很巧妙的梳理,我們之前講過(guò)PCA分析的降維作用,之前主要是拿來(lái)做可視化,現(xiàn)在用到這個(gè)地方,很好的用一個(gè)向量代替了一個(gè)矩陣,方便后期計(jì)算。(降維除了PCA,還可以看看tSNE)? (補(bǔ)充:設(shè)法將原來(lái)變量重新組合成一組新的互相無(wú)關(guān)的幾個(gè)綜合變量,同時(shí)根據(jù)實(shí)際需要從中可以取出幾個(gè)較少的綜合變量盡可能多地反映原來(lái)變量的信息的統(tǒng)計(jì)方法叫做主成分分析或稱主分量分析,也是數(shù)學(xué)上用來(lái)降維的一種方法。)
Intramodular connectivity:
給定基因與給定模型內(nèi)其他基因的關(guān)聯(lián)度,判斷基因所屬關(guān)系。
Module membership: 給定基因表達(dá)譜與給定模型的eigengene的相關(guān)性。
Hub gene: 關(guān)鍵基因 (連接度最多或連接多個(gè)模塊的基因)。
Adjacency matrix
(鄰接矩陣):基因和基因之間的加權(quán)相關(guān)性值構(gòu)成的矩陣。
TOM (Topological overlap
matrix):把鄰接矩陣轉(zhuǎn)換為拓?fù)渲丿B矩陣,以降低噪音和假相關(guān),獲得的新距離矩陣,這個(gè)信息可拿來(lái)構(gòu)建網(wǎng)絡(luò)或繪制TOM圖。
基本分析流程
image
構(gòu)建基因共表達(dá)網(wǎng)絡(luò):使用加權(quán)的表達(dá)相關(guān)性。
識(shí)別基因集:基于加權(quán)相關(guān)性,進(jìn)行層級(jí)聚類分析,并根據(jù)設(shè)定標(biāo)準(zhǔn)切分聚類結(jié)果,獲得不同的基因模塊,用聚類樹(shù)的分枝和不同顏色表示。
如果有表型信息,計(jì)算基因模塊與表型的相關(guān)性,鑒定性狀相關(guān)的模塊。
研究模型之間的關(guān)系,從系統(tǒng)層面查看不同模型的互作網(wǎng)絡(luò)。
從關(guān)鍵模型中選擇感興趣的驅(qū)動(dòng)基因,或根據(jù)模型中已知基因的功能推測(cè)未知基因的功能。
導(dǎo)出TOM矩陣,繪制相關(guān)性圖。
WGCNA包實(shí)戰(zhàn)
R包WGCNA是用于計(jì)算各種加權(quán)關(guān)聯(lián)分析的功能集合,可用于網(wǎng)絡(luò)構(gòu)建,基因篩選,基因簇鑒定,拓?fù)涮卣饔?jì)算,數(shù)據(jù)模擬和可視化等。
輸入數(shù)據(jù)和參數(shù)選擇
WGCNA本質(zhì)是基于相關(guān)系數(shù)的網(wǎng)絡(luò)分析方法,適用于多樣品數(shù)據(jù)模式,一般要求樣本數(shù)多于15個(gè)。樣本數(shù)多于20時(shí)效果更好,樣本越多,結(jié)果越穩(wěn)定。
基因表達(dá)矩陣:
常規(guī)表達(dá)矩陣即可,即基因在行,樣品在列,進(jìn)入分析前做一個(gè)轉(zhuǎn)置。RPKM、FPKM或其它標(biāo)準(zhǔn)化方法影響不大,推薦使用Deseq2的varianceStabilizingTransformation或log2(x+1)對(duì)標(biāo)準(zhǔn)化后的數(shù)據(jù)做個(gè)轉(zhuǎn)換。如果數(shù)據(jù)來(lái)自不同的批次,需要先移除批次效應(yīng)
(記得上次轉(zhuǎn)錄組培訓(xùn)課講過(guò)如何操作)。如果數(shù)據(jù)存在系統(tǒng)偏移,需要做下quantile normalization。
性狀矩陣:用于關(guān)聯(lián)分析的性狀必須是數(shù)值型特征
(如下面示例中的Height, Weight,
Diameter)。如果是區(qū)域或分類變量,需要轉(zhuǎn)換為0-1矩陣的形式(1表示屬于此組或有此屬性,0表示不屬于此組或無(wú)此屬性,如樣品分組信息WT,
KO, OE)。
作者:生信寶典
鏈接:http://www.itdecent.cn/p/e9cc3f43441d
來(lái)源:簡(jiǎn)書(shū)
著作權(quán)歸作者所有。商業(yè)轉(zhuǎn)載請(qǐng)聯(lián)系作者獲得授權(quán),非商業(yè)轉(zhuǎn)載請(qǐng)注明出處。
下游分析:
得到模塊以后進(jìn)行? 模塊功能富集? ?計(jì)算基因模塊與表型的關(guān)系? ?計(jì)算基因與樣本的關(guān)系? ??
關(guān)鍵挖掘:分析核心基因? ? 利用關(guān)系預(yù)測(cè)基因功能。
實(shí)操步驟:
1? 數(shù)據(jù)準(zhǔn)備是最復(fù)雜的,如果是芯片數(shù)據(jù) 直接歸一化矩陣即可,而如果是RNAseq數(shù)據(jù),那么用RPKM或者TPM都可以,然后就是樣本的屬性方面信息。
材料準(zhǔn)備:需要將正常組織的數(shù)據(jù)剔除。
2? 一般聚類用的是hcust