鏈接:http://genek.tv/,本文是該課程的學(xué)習(xí)記錄。
1.共表達(dá)
兩條基因的表達(dá)模式相似,即在某些樣本中兩條基因表達(dá)量都高,某些樣品中表達(dá)量都低。

用相關(guān)性系數(shù)r量化
-1<r<1
負(fù)值代表負(fù)相關(guān),0代表不相關(guān),正值代表正相關(guān)
2.網(wǎng)絡(luò)

1.相關(guān)概念
節(jié)點(diǎn)(node):圖上的圓點(diǎn),每個圓點(diǎn)代表一個基因。
連接(link):圖上的線,每條線代表兩個基因的關(guān)系(可設(shè)置閾值,例如>0.7即標(biāo)記相關(guān))
加權(quán)網(wǎng)絡(luò)(weighted network)與無權(quán)網(wǎng)絡(luò)(unweighted network)的區(qū)別是:加權(quán)網(wǎng)絡(luò)的線條有粗細(xì)之分,粗細(xì)表示權(quán)重。
鄰接度:節(jié)點(diǎn)之間的關(guān)系強(qiáng)弱。一個網(wǎng)絡(luò)里的所有基因形成一個鄰接矩陣(adjacency matrix)。
連通性(connectivity):反映節(jié)點(diǎn)的重要程度,與多少其他節(jié)點(diǎn)有關(guān),以及關(guān)系的強(qiáng)弱。
無權(quán)網(wǎng)絡(luò)不顯示權(quán)重,它的連通性只是連接基因的數(shù)目。
加權(quán)網(wǎng)絡(luò)的連通性是所有有關(guān)節(jié)點(diǎn)的關(guān)系強(qiáng)弱的疊加。
2.隨機(jī)網(wǎng)絡(luò)與無尺度網(wǎng)絡(luò)

無尺度網(wǎng)絡(luò)中,多數(shù)節(jié)點(diǎn)都只與幾個節(jié)點(diǎn)有關(guān)(紅色點(diǎn));極少數(shù)節(jié)點(diǎn)與很多節(jié)點(diǎn)有關(guān)(藍(lán)色點(diǎn))。如果將每個節(jié)點(diǎn)的連接數(shù)進(jìn)行排序,會發(fā)現(xiàn)無尺度網(wǎng)絡(luò)的連通性符合冪律分布。
因此,一個模塊中有很多基因,但關(guān)鍵基因只有幾個。
3.分析步驟
第一步:數(shù)據(jù)預(yù)處理
(1)行名是樣本名,列名是基因名。如果拿到的是表達(dá)矩陣,需要轉(zhuǎn)置。
(2)去掉所有樣本中表達(dá)量都很低的基因
(3)去掉所有樣本中表達(dá)量幾乎沒有差異的基因,可用sd篩選,但不建議只保留差異基因(備注:這里說的差異基因,是指差異顯著的基因)。
第二步:構(gòu)建相關(guān)性矩陣
相關(guān)系數(shù)范圍是-1~1,WGCNA分析要求轉(zhuǎn)換為0-1范圍。
有兩種轉(zhuǎn)換方式:
unsigned:不區(qū)分正相關(guān)和負(fù)相關(guān)
signed:區(qū)分正負(fù)相關(guān)

第三步:構(gòu)建鄰接矩陣
多大的相關(guān)系數(shù)算相關(guān)?需要設(shè)置閾值。
軟閾值:soft threshold,用power函數(shù)將相關(guān)性矩陣轉(zhuǎn)換成鄰接矩陣,需要確定power的參數(shù)β。

迭代一系列值,看β等于哪個值時(shí):(1)這個網(wǎng)絡(luò)更接近于無尺度網(wǎng)絡(luò)
(2)盡可能保留連通性信息。

左右兩張圖的橫坐標(biāo)都是軟閾值,??左圖縱坐標(biāo)是無尺度網(wǎng)絡(luò)的評價(jià)指標(biāo)r2,r2越接近1,該網(wǎng)絡(luò)就越接近無尺度網(wǎng)絡(luò),通常要求>0.8或0.9。
??右圖縱坐標(biāo)是平均連通性,該值隨β的增加而降低
綜合兩張圖,通常選r^2第一次達(dá)到0.8或0.9以上時(shí)的β值。
有了β值就可以根據(jù)公式將相關(guān)性矩陣轉(zhuǎn)換為鄰接矩陣。
第四步:構(gòu)建拓?fù)渲丿B矩陣
簡稱TOM(Topological Overlap Matrix),相關(guān)系數(shù)只考慮到兩個節(jié)點(diǎn)之間的線性關(guān)系,而TOM則是考慮到中間節(jié)點(diǎn)的(間接的)計(jì)算方法。

總結(jié):基因之間的關(guān)系/距離
第五步:構(gòu)建共表達(dá)網(wǎng)絡(luò)
對基因進(jìn)行聚類,每條線代表一個基因,相似的基因被聚到一個分支。

第六步:模塊劃分
Dynamic Tree Cut,不同模塊用不同顏色表示,同一模塊的基因通常據(jù)有類似的功能。

第七步:合并相似模塊

第8步,模塊與性狀關(guān)聯(lián)
相關(guān)系數(shù)只能計(jì)算對應(yīng)的兩列,而表達(dá)矩陣是一個表格,而非一列。
方法是對一個模塊里的基因表達(dá)矩陣進(jìn)行主成分分析,用第一個主成分(PC1)的的指標(biāo)--特征向量(ME)代表一個模塊,得到模塊MEs矩陣。

可以計(jì)算每個模塊的特征向量與三個性狀之間的相關(guān)系數(shù),形成一個矩陣,可做熱圖。

第九步:GS和MM
GS代表模塊里的每個基因與形狀的相關(guān)性
MM代表單條基因和所在模塊之間的相關(guān)性,表示是否與模塊的趨勢一致。
第十步:Cytoscape可視化

微信公眾號生信星球同步更新我的文章,歡迎大家掃碼關(guān)注!

我們有為生信初學(xué)者準(zhǔn)備的學(xué)習(xí)小組,點(diǎn)擊查看??
想要參加我的線上線下課程,也可加好友咨詢??
如果需要提問,請先看生信星球答疑公告
