WGCNA(二)WGCNA的步驟和原理

鏈接:http://genek.tv/,本文是該課程的學(xué)習(xí)記錄。

1.共表達(dá)

兩條基因的表達(dá)模式相似,即在某些樣本中兩條基因表達(dá)量都高,某些樣品中表達(dá)量都低。



用相關(guān)性系數(shù)r量化
-1<r<1
負(fù)值代表負(fù)相關(guān),0代表不相關(guān),正值代表正相關(guān)

2.網(wǎng)絡(luò)

1.相關(guān)概念

節(jié)點(diǎn)(node):圖上的圓點(diǎn),每個圓點(diǎn)代表一個基因。
連接(link):圖上的線,每條線代表兩個基因的關(guān)系(可設(shè)置閾值,例如>0.7即標(biāo)記相關(guān))
加權(quán)網(wǎng)絡(luò)(weighted network)與無權(quán)網(wǎng)絡(luò)(unweighted network)的區(qū)別是:加權(quán)網(wǎng)絡(luò)的線條有粗細(xì)之分,粗細(xì)表示權(quán)重。
鄰接度:節(jié)點(diǎn)之間的關(guān)系強(qiáng)弱。一個網(wǎng)絡(luò)里的所有基因形成一個鄰接矩陣(adjacency matrix)。
連通性(connectivity):反映節(jié)點(diǎn)的重要程度,與多少其他節(jié)點(diǎn)有關(guān),以及關(guān)系的強(qiáng)弱。
無權(quán)網(wǎng)絡(luò)不顯示權(quán)重,它的連通性只是連接基因的數(shù)目。
加權(quán)網(wǎng)絡(luò)的連通性是所有有關(guān)節(jié)點(diǎn)的關(guān)系強(qiáng)弱的疊加。

2.隨機(jī)網(wǎng)絡(luò)與無尺度網(wǎng)絡(luò)


無尺度網(wǎng)絡(luò)中,多數(shù)節(jié)點(diǎn)都只與幾個節(jié)點(diǎn)有關(guān)(紅色點(diǎn));極少數(shù)節(jié)點(diǎn)與很多節(jié)點(diǎn)有關(guān)(藍(lán)色點(diǎn))。如果將每個節(jié)點(diǎn)的連接數(shù)進(jìn)行排序,會發(fā)現(xiàn)無尺度網(wǎng)絡(luò)的連通性符合冪律分布。
因此,一個模塊中有很多基因,但關(guān)鍵基因只有幾個。

3.分析步驟

第一步:數(shù)據(jù)預(yù)處理

(1)行名是樣本名,列名是基因名。如果拿到的是表達(dá)矩陣,需要轉(zhuǎn)置。
(2)去掉所有樣本中表達(dá)量都很低的基因
(3)去掉所有樣本中表達(dá)量幾乎沒有差異的基因,可用sd篩選,但不建議只保留差異基因(備注:這里說的差異基因,是指差異顯著的基因)。

第二步:構(gòu)建相關(guān)性矩陣

相關(guān)系數(shù)范圍是-1~1,WGCNA分析要求轉(zhuǎn)換為0-1范圍。
有兩種轉(zhuǎn)換方式:
unsigned:不區(qū)分正相關(guān)和負(fù)相關(guān)
signed:區(qū)分正負(fù)相關(guān)


第三步:構(gòu)建鄰接矩陣

多大的相關(guān)系數(shù)算相關(guān)?需要設(shè)置閾值。
軟閾值:soft threshold,用power函數(shù)將相關(guān)性矩陣轉(zhuǎn)換成鄰接矩陣,需要確定power的參數(shù)β。


迭代一系列值,看β等于哪個值時(shí):(1)這個網(wǎng)絡(luò)更接近于無尺度網(wǎng)絡(luò)
(2)盡可能保留連通性信息。


左右兩張圖的橫坐標(biāo)都是軟閾值,??左圖縱坐標(biāo)是無尺度網(wǎng)絡(luò)的評價(jià)指標(biāo)r2,r2越接近1,該網(wǎng)絡(luò)就越接近無尺度網(wǎng)絡(luò),通常要求>0.8或0.9。
??右圖縱坐標(biāo)是平均連通性,該值隨β的增加而降低
綜合兩張圖,通常選r^2第一次達(dá)到0.8或0.9以上時(shí)的β值。
有了β值就可以根據(jù)公式將相關(guān)性矩陣轉(zhuǎn)換為鄰接矩陣。

第四步:構(gòu)建拓?fù)渲丿B矩陣

簡稱TOM(Topological Overlap Matrix),相關(guān)系數(shù)只考慮到兩個節(jié)點(diǎn)之間的線性關(guān)系,而TOM則是考慮到中間節(jié)點(diǎn)的(間接的)計(jì)算方法。


總結(jié):基因之間的關(guān)系/距離


第五步:構(gòu)建共表達(dá)網(wǎng)絡(luò)

對基因進(jìn)行聚類,每條線代表一個基因,相似的基因被聚到一個分支。


第六步:模塊劃分

Dynamic Tree Cut,不同模塊用不同顏色表示,同一模塊的基因通常據(jù)有類似的功能。


第七步:合并相似模塊

第8步,模塊與性狀關(guān)聯(lián)

相關(guān)系數(shù)只能計(jì)算對應(yīng)的兩列,而表達(dá)矩陣是一個表格,而非一列。
方法是對一個模塊里的基因表達(dá)矩陣進(jìn)行主成分分析,用第一個主成分(PC1)的的指標(biāo)--特征向量(ME)代表一個模塊,得到模塊MEs矩陣。



可以計(jì)算每個模塊的特征向量與三個性狀之間的相關(guān)系數(shù),形成一個矩陣,可做熱圖。


第九步:GS和MM

GS代表模塊里的每個基因與形狀的相關(guān)性
MM代表單條基因和所在模塊之間的相關(guān)性,表示是否與模塊的趨勢一致。

第十步:Cytoscape可視化

微信公眾號生信星球同步更新我的文章,歡迎大家掃碼關(guān)注!


我們有為生信初學(xué)者準(zhǔn)備的學(xué)習(xí)小組,點(diǎn)擊查看??
想要參加我的線上線下課程,也可加好友咨詢??
如果需要提問,請先看生信星球答疑公告

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 條件反射2014-1-26 20:51 習(xí)慣成自然是條件反射的通俗說法。孩子三兩天就可以慣出來了,…… 這不我們這...
    甘懷閱讀 193評論 0 0
  • go下載地址點(diǎn)擊下載GO 選擇對應(yīng)的版本進(jìn)行下載 下載完成后進(jìn)行環(huán)境變量配置 指定到bin目錄就好 在D盤D:\a...
    a十二_4765閱讀 243評論 0 0
  • 一、一月整體分析沒有完成。 二、各領(lǐng)域情況分析工作:完成吳哥窟之行,和同事有了更多的接觸;生活:1月份過年,和親戚...
    青苗媽2016閱讀 172評論 3 0
  • 信息爆炸的時(shí)代已經(jīng)來臨,每天我們閱讀著大量的信息,很多人都想從里面挑出重點(diǎn),其實(shí)根本沒有重點(diǎn)而言,你覺得一個不重要...
    醒醒老師閱讀 660評論 0 0

友情鏈接更多精彩內(nèi)容