
網(wǎng)絡(luò):其實就是“圖”,由點(node)和邊(edge)組成
一般來講,探索基因表達數(shù)據(jù)的標(biāo)準(zhǔn)流程是這樣:
差異表達分析: 研究轉(zhuǎn)錄水平不同處理的差別的原因
基因富集分析 (GO/KEGG)。得到差異基因,需要注釋一下,但只能兩兩比較(如:實驗與對照),然后得到的結(jié)果也只是知道哪些上調(diào)哪些下調(diào),是一個宏觀的結(jié)論
-
生物網(wǎng)絡(luò)分析:
- 蛋白互作(PPI):表示蛋白之間物理聯(lián)系,它們幾乎占據(jù)了細(xì)胞生物過程的中心位置。蛋白作為點,用無向的線連接
- 代謝網(wǎng)絡(luò): 主要表示生化反應(yīng),有助于生物生長、繁殖、維持結(jié)構(gòu)。點是代謝產(chǎn)物,并用有向的箭頭表示代謝過程或特定反應(yīng)的調(diào)節(jié)作用
- 基因互作: 不同的點表示不同基因,描述它們功能相關(guān)性;可以根據(jù)基因的背景知識來推斷線的方向
- 基因/轉(zhuǎn)錄調(diào)控: 表示基因表達是如何被調(diào)控的;點是基因或轉(zhuǎn)錄因子,它們之間的關(guān)系也是定向,例如Reactome、KEGG等數(shù)據(jù)庫中表示基因調(diào)節(jié)的關(guān)系
- 細(xì)胞信號: 點表示通路中的物質(zhì),如蛋白、核酸或其他代謝物
一、GO+KEGG分析功能注釋
找出差異基因下一步進行功能富集分析
方案1:DAVID網(wǎng)站
- 進入 https://david.ncifcrf.gov/
-點擊“Functional Annotation”輸入不超過3000個基因的gene list;輸入格式是每行一個基因名或者基因名用逗號隔開。 - 選擇"OFFICIAL_GENE_SYMBOL"
- 選擇"Gene list"
- 點擊提交
- 點擊“Gene_Ontology”進行GO分析,對基因進行功能注釋,勾選GO分析的三個參數(shù):BP(生物學(xué)過程),CC(細(xì)胞組分),MF(分子功能)。
- 找到“Pathways”,選擇KEGG_PATHWAY
- 點擊 Chart
-
點擊其中一條通路的Term,查看通路圖。
方案2:Metascape網(wǎng)站(網(wǎng)站更新較快)
輸入基因,有兩種方式,本地文件導(dǎo)入或者粘貼gene list,支持xls/xlsx,CSV,txt三種格式。
選擇物種
選擇“Express Analyze”或“Custom Analyze”進行分析
-
點擊提交
-
點擊“Express Analyze”查看結(jié)果
- Figure 1 : 功能富集分析的結(jié)果圖
- Table 1: TOP20的聚類分析表
- Figure 2: 富集網(wǎng)絡(luò)圖,左側(cè)是根據(jù)gene ID進行的聚類,右側(cè)是根據(jù)P-Value進行的聚類
- Figure 3 : PPI聚類功能模塊分析圖。
二、蛋白互作(PPI)分析
表示蛋白之間物理聯(lián)系,它們幾乎占據(jù)了細(xì)胞生物過程的中心位置。蛋白作為點,用無向的線連接
分析方案:STRING網(wǎng)站+Cytoscape軟件制作蛋白互作網(wǎng)絡(luò)圖(PPI分析)
進入STRING網(wǎng)站的官網(wǎng): https://string-db.org/
-
通常選擇輸入方式是“Multiple proteins”
然后輸入不超過2000個基因的差異基因名,每行一個基因
選擇物種類型
-
點擊“SEARCH”,繼續(xù)點擊“CONTINUE”
-
下拉當(dāng)前頁面,菜單欄的Legend選項卡里面是關(guān)于網(wǎng)絡(luò)圖中Nodes和Edges的注釋
- 菜單欄的Settings選項卡可以對Edges進行調(diào)整。
- “confidence”是通過線條的粗細(xì)來反映蛋白之間相互作用的強弱。
- 如果網(wǎng)絡(luò)圖比較分散,可以設(shè)置“minimum required interaction score”將conbined_score調(diào)高,使圖形看上去更緊密。
- 可以通過設(shè)置蛋白數(shù)量的上限,比如我們將其設(shè)置為“no more than 50 interactors”改變網(wǎng)絡(luò)圖上的蛋白數(shù)量
- 菜單欄的Analysis選項卡里面,可以查看network的一些信息,包括nodes、edges、degree、PPI富集分?jǐn)?shù)的P值等,同時也能查看GO和KEGG功能富集信息及其他信息
-
Clusters選項卡,是將PPI網(wǎng)絡(luò)進行聚類,點擊APPLY。通過聚類后,蛋白通過聚類形成不同顏色的成簇分布的蛋白互作網(wǎng)絡(luò)圖。
- 直接點擊“Exports”選項,下載TSV格式的文件保存,得到一張PPI圖
利用網(wǎng)絡(luò)聚類算法可以從復(fù)雜的蛋白質(zhì)網(wǎng)絡(luò)中挖掘蛋白復(fù)合體或者相應(yīng)的功能模塊,其中MCODE算法是最常用的挖掘蛋白復(fù)合體的算法。MCODE全稱molecular complex detection, 是最廣泛使用的挖掘蛋白復(fù)合體的算法之一,在cytoscape 軟件中提供了一個MCODE插件,可以方便的對網(wǎng)絡(luò)進行聚類。
cytoscape 是一個功能強大的網(wǎng)絡(luò)可視化軟件,除了基本的可視化之外,通過各種插件,還可以輕松的實現(xiàn)各種數(shù)據(jù)分析,插件的下載地址: http://apps.cytoscape.org/
- 打開Cytoscape軟件,File-->Import -->Network-->file, 然后選擇對應(yīng)的TSV格式的文件,對PPI圖進一步美化
- 依次點擊Tools-->NetworkAnalyzer-->Network Analysis-->Generate style from statistics
- 在彈窗中操作:在Cytoscape軟件中Node的大小和漸變顏色由Degree來調(diào)整,Edge的粗細(xì)和漸變顏色由combined_score來調(diào)整。
- 點擊“Apply”
- 若要制作以某個蛋白為中心的PPI:例如選擇IL10蛋白作為中心蛋白,首先點擊該蛋白。依次點擊File-->New-->Network-->From selected nodes,all edges。形成一張以IL10為中心的局部PPI網(wǎng)絡(luò)。
- 使用
MCODE插件,Apps-->MCODE, 啟動MCODE插件,在控制面板,選擇默認(rèn)參數(shù),對整個網(wǎng)絡(luò)繼續(xù)聚類
- 聚類之后會得到多個子網(wǎng)subnetwork, 對于每個子網(wǎng),可以看到其節(jié)點數(shù),邊數(shù),打分值等基本信息,通過
MCODE插件,可以方便的得到復(fù)雜的PPI網(wǎng)絡(luò)中潛在的各個子網(wǎng),但是后續(xù)還是要結(jié)合功能注釋,比如KEGG,蛋白復(fù)合物數(shù)據(jù)庫的注釋等,對結(jié)果進一步解讀。
三、通過WGCNA構(gòu)建的基因共表達網(wǎng)絡(luò)
-
WGCNA基本概念:
-
加權(quán)基因共表達網(wǎng)絡(luò)分析 (WGCNA, Weighted correlation network
analysis)是用來描述不同樣品之間基因關(guān)聯(lián)模式的系統(tǒng)生物學(xué)方法,可以用來鑒定高度協(xié)同變化的基因集,
并根據(jù)基因集的內(nèi)連性和基因集與表型之間的關(guān)聯(lián)鑒定候補生物標(biāo)記基因或治療靶點。 - WGCNA利用數(shù)千或近萬個變化最大的基因或全部基因的信息識別感興趣的基因集,并與表型進行顯著性關(guān)聯(lián)分析。一是充分利用了信息,二是把數(shù)千個基因與表型的關(guān)聯(lián)轉(zhuǎn)換為數(shù)個基因集與表型的關(guān)聯(lián),免去了多重假設(shè)檢驗校正的問題。
- 共表達網(wǎng)絡(luò):定義為加權(quán)基因網(wǎng)絡(luò)。點代表基因,邊代表基因表達相關(guān)性。加權(quán)是指對相關(guān)性值進行冥次運算
- Module(模塊):高度內(nèi)連的基因集。
-
Connectivity (連接度):類似于網(wǎng)絡(luò)中 "度"
(degree)的概念。每個基因的連接度是與其相連的基因的邊屬性之和。 - Module eigengene E: 給定模型的第一主成分,代表整個模型的基因表達譜。
- Intramodular connectivity: 給定基因與給定模型內(nèi)其他基因的關(guān)聯(lián)度,判斷基因所屬關(guān)系。
-
加權(quán)基因共表達網(wǎng)絡(luò)分析 (WGCNA, Weighted correlation network
- Module membershi): 給定基因表達譜與給定模型的eigengene的相關(guān)性。
- Hub gene : 關(guān)鍵基因 (連接度最多或連接多個模塊的基因)。
- Adjacency matrix: (鄰接矩陣):基因和基因之間的加權(quán)相關(guān)性值構(gòu)成的矩陣。
-
TOM (Topological overlap
matrix):把鄰接矩陣轉(zhuǎn)換為拓?fù)渲丿B矩陣,以降低噪音和假相關(guān),獲得的新距離矩陣,這個信息可拿來構(gòu)建網(wǎng)絡(luò)或繪制TOM圖。
分析流程:
-
數(shù)據(jù)導(dǎo)入,數(shù)據(jù)篩選,軟閾值篩選(軟閾值的篩選原則是使構(gòu)建的網(wǎng)絡(luò)更符合無標(biāo)度網(wǎng)絡(luò)特征)
構(gòu)建基因共表達網(wǎng)絡(luò):使用加權(quán)的表達相關(guān)性。
net = blockwiseModules(dataExpr, power = power, maxBlockSize = nGenes,
TOMType = type, minModuleSize = 30,
reassignThreshold = 0, mergeCutHeight = 0.25,
numericLabels = TRUE, pamRespectsDendro = FALSE,
saveTOMs=TRUE, corType = corType,
maxPOutliers=maxPOutliers, loadTOMs=TRUE,
saveTOMFileBase = paste0(exprMat, ".tom"),
verbose = 3)
-
識別基因集,展示各個模塊:基于加權(quán)相關(guān)性,進行層級聚類分析,并根據(jù)設(shè)定標(biāo)準(zhǔn)切分聚類結(jié)果,獲得不同的基因模塊,用聚類樹的分枝和不同顏色表示
-
繪制模塊之間相關(guān)性圖:如果有表型信息,計算基因模塊與表型的相關(guān)性,鑒定性狀相關(guān)的模塊。
研究模型之間的關(guān)系,從系統(tǒng)層面查看不同模型的互作網(wǎng)絡(luò)。
從關(guān)鍵模型中選擇感興趣的驅(qū)動基因,或根據(jù)模型中已知基因的功能推測未知基因的功能。
-
可視化基因網(wǎng)絡(luò) (TOM plot): 導(dǎo)出TOM矩陣,繪制相關(guān)性圖。
-
導(dǎo)出網(wǎng)絡(luò)用于Cytoscape
-
關(guān)聯(lián)表型數(shù)據(jù)
四、數(shù)據(jù)庫
4.1 chipBase:轉(zhuǎn)錄因子調(diào)控網(wǎng)絡(luò)數(shù)據(jù)
chipBase收集來自GEO,ENCODE數(shù)據(jù)庫中的chip_seq數(shù)據(jù),通過對這些原始數(shù)據(jù)進行分析,致力于構(gòu)建各種轉(zhuǎn)錄因子與非編碼RNA, 蛋白編碼基因之間的調(diào)控網(wǎng)絡(luò)
-
數(shù)據(jù)庫構(gòu)建的流程
-
該數(shù)據(jù)庫將基因分成了以下幾類
- LncRNA
- miRNA
- Other NcRNA
- Protein
功能:
1. 查看轉(zhuǎn)錄因子和基因間的調(diào)控網(wǎng)絡(luò): 首先確定感興趣的轉(zhuǎn)錄因子,然后選擇對應(yīng)的數(shù)據(jù)集,再選擇靶基因篩選的范圍,最終確定轉(zhuǎn)錄因子潛在的靶基因
2. Regulator: 輸入感興趣的基因,查看有哪些轉(zhuǎn)錄因子可能調(diào)控該基因,點擊factor可以查看對應(yīng)的詳細(xì)結(jié)果,示意如下
3. Chip-Function: 對靶基因進行GO富集分析
4. Co-Expression: 分析轉(zhuǎn)錄因子和基因表達量的相關(guān)性
通過chip_base, 可以方便的查看轉(zhuǎn)錄因子與基因間的調(diào)控關(guān)系,還可以進一步結(jié)合轉(zhuǎn)錄組的共表達分析對結(jié)果進行篩選。
4.2 Co-LncRNA:lncRNA與蛋白編碼基因的共表達網(wǎng)絡(luò)數(shù)據(jù)庫

Co-LncRNA通過分析查找與lncRNA共表達的mRNA,構(gòu)建lncRNA與mRNA之間的共表達網(wǎng)絡(luò),并通過共表達的mRNA對應(yīng)的GO和KEGG來研究lncRNA的功能。
- 通過
CEGsFuncs查看lncRNA的共表達mRNA的功能富集結(jié)果 - 選擇數(shù)據(jù)集和共表達分析的方法,設(shè)置閾值,通過mRNA或者lncRNA的名字來查找對應(yīng)的共表達基因,點擊
pattern可以查看詳細(xì)的分析結(jié)果 - 通過
CEGsFuncs查看lncRNA的共表達mRNA的功能富集結(jié)果,示意如下 -
對于KEGG富集的結(jié)果,點擊可以查看具體的通路圖,在通路圖上,會將共表達的蛋白編碼基因用紅色標(biāo)記
- 通過
CEGsNet, 可以查看lncRNA與mRNA的共表達網(wǎng)絡(luò)
五、LncRNA等RNA共表達網(wǎng)絡(luò)
5.1 LncRNA和mRNA共表達網(wǎng)絡(luò)
??很多文獻和數(shù)據(jù)庫中都有報道的lncRNA與mRNA之間相互作用,也可以通過軟件來預(yù)測二者之間的結(jié)合,通過lncRNA的靶標(biāo)mRNA, 來研究lncRNA的功能。通常認(rèn)為共表達基因集參與同一通路,或者受到同樣的調(diào)控,具有相似的生物學(xué)功能,利用表達譜數(shù)據(jù)尋找與lncRNA共表達的mRNA,從而來研究
做lncRNA和mRNA共表達網(wǎng)絡(luò)步驟:
- 用三列計算皮爾森相關(guān)系數(shù)
第一列:樣本號。 第二列:lncR的表達量。 第三列:mRNA的表達量。 - 篩選顯著結(jié)果
- 然后用cytoscape畫圖
- 研究lncRNA的功能。
5.2 LncRNA與miRNA共表達網(wǎng)絡(luò)
??長非編碼RNAs(lncRNAs)和小分子RNA(miRNAs)的代表兩類重要的非編碼RNA在真核生物。雖然這些非編碼RNA與有機體的生長和人類多種疾病有著密切的關(guān)系,但很少有人知道他們的轉(zhuǎn)錄調(diào)控。新一代DNA測序技術(shù)(ChIP-SEQ)染色質(zhì)免疫沉淀的最新進展提供了前所未有的靈敏度與檢測轉(zhuǎn)錄因子結(jié)合位(TFBSs)的方法。
miRNA與lncRNA的關(guān)系通過DIANA-LncBase數(shù)據(jù)庫中獲取
5.3 mRNA共表達網(wǎng)絡(luò)圖
構(gòu)建mRNA-miRNA-lncRNA的三元ceRNA網(wǎng)絡(luò)
5.4 LncRNA-TF-Gene網(wǎng)絡(luò)通路的構(gòu)建
在線的構(gòu)建LncRNA-TF-Gene網(wǎng)絡(luò)工具-LncMAP。此工具通過整合基因組廣泛的轉(zhuǎn)錄調(diào)控與配對的lncRNA和基因表達譜,顯示轉(zhuǎn)錄與其調(diào)節(jié)的靶基因以及l(fā)ncRNA網(wǎng)絡(luò)關(guān)系。對揭示人類癌癥生物學(xué)機制有重要意義。
參考文章:
- 基于RNA-seq的共表達網(wǎng)絡(luò)分析工具
- STRING網(wǎng)站 Cytoscape軟件制作精美蛋白互作網(wǎng)絡(luò)圖(PPI)
- PPI網(wǎng)絡(luò)實戰(zhàn):String加CytoScape聯(lián)手挖掘PPI網(wǎng)絡(luò)
- WGCNA分析,簡單全面的最新教程
- RNA-seq數(shù)據(jù)的基因共表達網(wǎng)絡(luò)分析
- chipBase:轉(zhuǎn)錄因子調(diào)控網(wǎng)絡(luò)數(shù)據(jù)
- Co-LncRNA:lncRNA與蛋白編碼基因的共表達網(wǎng)絡(luò)數(shù)據(jù)庫
- 科研時間:LncRNA-TF-Gene網(wǎng)絡(luò)通路的構(gòu)建
- miRNA與lncRNA的關(guān)系網(wǎng)絡(luò)構(gòu)建






















