基礎(chǔ)理論
網(wǎng)絡(luò)圖
網(wǎng)絡(luò)圖非常常見(jiàn),不僅被用在生物信息學(xué)分析,在生活中也很常見(jiàn),如民航航線圖、食物鏈、基因調(diào)控網(wǎng)絡(luò)都是網(wǎng)絡(luò)圖經(jīng)典的例子。



網(wǎng)絡(luò)圖應(yīng)用價(jià)值
- 直觀形象的呈現(xiàn)數(shù)據(jù)關(guān)系
- 高效的挖掘和解析數(shù)據(jù)(WGCNA后模塊內(nèi)大量基因的篩選)
網(wǎng)絡(luò)圖的構(gòu)成基礎(chǔ)
- 節(jié)點(diǎn)(node):表示元素
節(jié)點(diǎn)屬性:大小、形狀、顏色、標(biāo)簽、邊框可以表示表達(dá)量、差異倍數(shù)、RNA類(lèi)型、pathway分類(lèi)、基因名稱(chēng)等。 - 線(edge):表示元素之間的關(guān)系
線屬性:粗細(xì)、類(lèi)型、顏色、方向可以表示:相關(guān)性強(qiáng)弱、相關(guān)性正負(fù)、靶向關(guān)系、相關(guān)性顯著性等。
重要概念
- 連通性(Degree):一個(gè)節(jié)點(diǎn)擁有的線的數(shù)量。
- 核心元素(Hub gene):位于調(diào)控網(wǎng)絡(luò)中心,也就是連通性較高的元素。
數(shù)據(jù)準(zhǔn)備
建立關(guān)聯(lián)
- 基于已有成果獲得。(string數(shù)據(jù)庫(kù))
- 基于表達(dá)量/豐度的相關(guān)性。(WGCNA)
- 基于序列的堿基互補(bǔ)關(guān)系。(miRNA-mRNA)
- 基于功能分類(lèi)關(guān)系。(富集分析)
數(shù)據(jù)要求
格式:
tsv文件(Tab Separated Values)
csv文件(Comma )
xls,xlsx文件-
內(nèi)容:
edge文件:必須文件,包含節(jié)點(diǎn)關(guān)系關(guān)鍵數(shù)據(jù)。如下圖所示,第一列為起始點(diǎn)的基因名,第二列為終止點(diǎn)的基因名,第三列為T(mén)OM值(這個(gè)數(shù)據(jù)是WGCNA的數(shù)據(jù)結(jié)果,因此我用了TOM值,也可以是其他的數(shù)據(jù),如兩點(diǎn)間相關(guān)性。)WGCNA分析有點(diǎn)復(fù)雜,有朝一日我整理好后再發(fā)給大家參考。
edge文件
node文件:非必須,按需準(zhǔn)備。如下圖所示,第一列是點(diǎn)的基因名,注意對(duì)應(yīng)edge文件中的點(diǎn)的信息,我下圖展示的是我給每個(gè)基因Ensembl ID添加的Gene Symbol信息和注釋信息,也可以是其他的數(shù)據(jù),如基因的表達(dá)量等。

軟件基本操作
數(shù)據(jù)導(dǎo)入
-
導(dǎo)入edge數(shù)據(jù)
點(diǎn)擊下圖所示的按鍵,導(dǎo)入edge數(shù)據(jù)。
導(dǎo)入數(shù)據(jù)
導(dǎo)入后需要選擇每一列的數(shù)據(jù)類(lèi)型,主要設(shè)置邊的起始位置和結(jié)束位置。
數(shù)據(jù)類(lèi)型選擇 -
導(dǎo)入node數(shù)據(jù)
點(diǎn)擊對(duì)應(yīng)位置,導(dǎo)入node數(shù)據(jù),要確保數(shù)據(jù)和edge數(shù)據(jù)的命名一致。
導(dǎo)入數(shù)據(jù)
生成網(wǎng)絡(luò)圖
導(dǎo)入edge后,在圖片編輯框中就可以看到生成的最基礎(chǔ)的網(wǎng)絡(luò)圖,我們下一步需要做的就是對(duì)它進(jìn)行美化,也可以進(jìn)一步通過(guò)Cytoscape進(jìn)行數(shù)據(jù)挖掘。

圖片美化
對(duì)于最初版的網(wǎng)絡(luò)圖,我相信沒(méi)有人會(huì)覺(jué)得好看,也絕對(duì)滿足不了雜志的要求,那么,我們就動(dòng)手美化它。
其實(shí)Cytoscape的可視化界面非常人性化,按照我下面的批注,大家都點(diǎn)一點(diǎn),應(yīng)該很快就能掌握。

需要特別解釋一下“參數(shù)賦值”和“點(diǎn)/線排列形式”的用法。
- 參數(shù)賦值:比如,想要用圈的大小表示基因的連通性大小、圈的顏色表示基因的表達(dá)量高低、線的粗細(xì)表示權(quán)重值的大小等,都可以通過(guò)給各個(gè)區(qū)域賦值達(dá)成。在Cytoscape中,點(diǎn)和線的顏色、粗細(xì)都可以賦值,點(diǎn)擊相應(yīng)的參數(shù),賦予你想要展示的數(shù)據(jù)即可。
- 點(diǎn)/線排列形式:在Cytoscape中,所有的點(diǎn)都是可以自己手動(dòng)拖動(dòng)的,當(dāng)數(shù)據(jù)量很大時(shí),非常辛苦。因此,軟件有自動(dòng)排布功能,點(diǎn)擊“l(fā)ayout”就可以看到,自動(dòng)排布形式主要有:矩形排布、圓形排布、層級(jí)排布,每一種都有適用范圍,如果展示基因相互關(guān)系建議用圓形排布,點(diǎn)一下試試就知道。
Tips:選擇數(shù)據(jù)點(diǎn)后(手動(dòng)選擇結(jié)合下面要說(shuō)到的篩選選擇),再點(diǎn)擊排布,就可以把雜亂無(wú)章的圖,變得整齊且能說(shuō)明問(wèn)題,如下圖所示。

數(shù)據(jù)挖掘
Cytoscape的數(shù)據(jù)挖掘主要是用到“篩選”工具。網(wǎng)絡(luò)圖常見(jiàn)的篩選方式是利用連通性篩選關(guān)鍵基因,Cytoscape可以直接計(jì)算點(diǎn)的連通性(K),點(diǎn)擊菜單欄Tools--NetworkAnalyzer--Network analysis--Analyze Network,然后選擇自己數(shù)據(jù)對(duì)應(yīng)的類(lèi)型(有/無(wú)方向),點(diǎn)擊確認(rèn),連通性數(shù)據(jù)就會(huì)出現(xiàn)在“點(diǎn)信息頁(yè)”,列名為“degree”。

點(diǎn)擊篩選模塊,新建篩選條件,在下拉菜單中選擇“degree”,即可用連通性作為篩選條件,選擇滿足連通性要求的點(diǎn)。如果圖片中點(diǎn)和線特別多,可以用該方法選擇連通性較高的點(diǎn)新建畫(huà)布,只對(duì)這些連通性高的基因做圖。當(dāng)然,篩選條件不僅僅是K值,也可以用WGCNA分析里的TOM值,或者基因的表達(dá)量等,只要是數(shù)值型變量就行,大家嘗試一下就明白了。




