WGCNA的原理如果不掌握的話,就很難在做WGCNA分析的過程中,利用手中的代碼去修改參數(shù),就無法得到滿意的圖圖。所以,下面放幾篇文獻中的WGCNA的流程圖,供參考
<img src="../../Library/Application Support/typora-user-images/image-20191121211313666.png" alt="image-20191121211313666" style="zoom: 50%;" />
<img src="../../Library/Application Support/typora-user-images/image-20191121211330496.png" alt="image-20191121211330496" style="zoom:50%;" />
<img src="../../Library/Application Support/typora-user-images/image-20191121211340735.png" alt="image-20191121211340735" style="zoom:50%;" />
<img src="../../Library/Application Support/typora-user-images/image-20191121211349820.png" alt="image-20191121211349820" style="zoom: 67%;" />
然后放上參考鏈接
下面是網(wǎng)易云課堂的視頻中圖片+自己注釋理解
下面視頻中WGCNA基礎的理解

WGCNA基本理論參考:

對應開發(fā)的R包:https://horvath.genetics.ucla.edu/html/CoexpressionNetwork/Rpackages/WGCNA/Tutorials/

通過學習,關注模塊基因的功能,而不是單一基因的功能,將結果進行可視化并且和形狀數(shù)據(jù)進行聯(lián)合分析,挖掘基因模塊和形狀之間存在的練習


- 得到關系矩陣后要將關系矩陣轉為鄰接矩陣,建立鄰接矩陣的目的就是建立一個基因共表達網(wǎng)絡
- 網(wǎng)絡可以用矩陣表示,用一維數(shù)組存儲網(wǎng)絡中所有的點,用二維數(shù)組存儲網(wǎng)絡中點和點之間的關系(兩個點和點直接的連線)

未加權網(wǎng)絡的點只存在0和1的關系,所能反應的信息較少,不能反映點和點之間關系的強弱
加權網(wǎng)絡:點和點之間的聯(lián)系不在僅僅是0和1,而是一個連續(xù)的數(shù)值,數(shù)值大小對應邊的權重值,可以反映點和點之間的強弱程度
-
轉換成未加權網(wǎng)絡的鄰接矩陣,以0.8的為界,但是會丟失很多數(shù)據(jù),形成的網(wǎng)絡只反映基因與基因直接是否存在關聯(lián),有關聯(lián)為1,無關聯(lián)為0,不能反映基因和基因之前聯(lián)系的強弱
image-20190904075914047 ? 轉換成加權網(wǎng)絡,將關系矩陣進行冪運算,冪指數(shù)定為的數(shù),要使共表達網(wǎng)絡滿足無尺度網(wǎng)絡

無尺度網(wǎng)絡中,連通性高的點占的數(shù)值很少,二連通性低的點占的數(shù)值很大,如上圖中,顯示不同聯(lián)通性的點在網(wǎng)絡中所占的頻數(shù)
在未加權網(wǎng)絡中,達到連接數(shù)為i的概率p(i)與i的n次方成反比就是無尺度網(wǎng)絡
在加權網(wǎng)絡中,標準為log10(p(k)) versus log10(k) 負相關,k對應的是加強網(wǎng)絡中點的連通性
用貝塔值在0 和30之間,分別計算log10(p(k))和log10(k) ,計算后的結果進行擬合,判斷哪個貝塔值更滿足這一log10(p(k)) versus log10(k) 負相關這一標準

要求擬合指數(shù)R2值(SFT.R.sq)大于0.8,回歸線的斜率要求在-1左右,平均聯(lián)通性mean.k要求盡量大,對應的數(shù)據(jù)可以繪制出右邊的散點圖
右一圖可以看到不同的貝塔值對應的擬合指數(shù)的大小,繪制的紅線可以幫助判斷那個擬合指數(shù)R2值對應的power也就是貝塔值大于0.9,也可以繪制在0.8或0.5的位置
右二圖,看貝塔值和聯(lián)通性,更有助于發(fā)現(xiàn)hub基因

如上圖所示,貝塔值選擇6時,R2指數(shù)更接近無尺度網(wǎng)絡(生物學中大多是無尺度網(wǎng)絡),最終選擇6
確定了貝塔值之后,就可以將關系矩陣轉化為鄰近矩陣,接下來就可以轉換為tom重疊矩陣。為什么要轉換為tom矩陣?是因為在wgcna中,認為模塊是tom重疊性基因高的基因,所以需要計算基因和基因之間的tom重疊性,從而判斷哪些基因應該屬于同一個模塊,哪些基因不在同一個模塊。
具體的轉換公式為:通過下面這個公式可以計算基因和基因之間的tom重疊性,將鄰接矩陣轉換為tom重疊矩陣。


用tom相異程度進行聚類的時候,可以得到如下圖

建立基因模塊后,可以將模塊用顏色來區(qū)分,有些模塊相似性高,就需要將模塊合并。將模塊特征基因進行聚類,在完成聚類后合并,0.25高度對應的相似度閾值就是0.75。具體的相似性閾值可以自行設置,進行聚類剪切后,就可以區(qū)分哪些模塊相似性高,哪些模塊相似性低,如下圖。

接下來,可以計算基因模塊和形狀的相關性

上圖中,右邊標尺越紅表示正相關性越高,越綠表示負相關性越高
,從圖中可以看出哪些形狀和哪些模塊相關性比較高,可進一步分析

將GS和MM進行繪圖如下

可以知道,上面藍框圈住的那個地方的基因,對性狀影響比較大,同時MM值也比較大。同時可以對前面的紅色箭頭的weight來進行驗證。
此外還有如下圖的可視化展示

還可以將模塊特征基因進行可視化-模塊特征基因的聚類樹及繪制模塊特征基因相關性的熱圖,如下圖

第三方軟件,可以依據(jù)weight值的大小進行篩選,從而繪制出不同網(wǎng)絡圖

第三列對應的是tom重疊性
weight值越高,篩選出的相互關系越少,反正越多。
可以通過連線的多少來判斷是否為Hub基因。
對Hub基因和感興趣基因,可以進行KEGG、GO富集分析,但要有對應的注釋R包。

完成啦
