【轉(zhuǎn)載整合】RNAseq data的network analysis的不同做法,原理和方案

網(wǎng)絡(luò):其實就是“圖”,由點(node)邊(edge)組成
一般來講,探索基因表達數(shù)據(jù)的標(biāo)準(zhǔn)流程是這樣:

  • 差異表達分析: 研究轉(zhuǎn)錄水平不同處理的差別的原因

  • 基因富集分析 (GO/KEGG)。得到差異基因,需要注釋一下,但只能兩兩比較(如:實驗與對照),然后得到的結(jié)果也只是知道哪些上調(diào)哪些下調(diào),是一個宏觀的結(jié)論

  • 生物網(wǎng)絡(luò)分析:

    • 蛋白互作(PPI):表示蛋白之間物理聯(lián)系,它們幾乎占據(jù)了細(xì)胞生物過程的中心位置。蛋白作為點,用無向的線連接
    • 代謝網(wǎng)絡(luò): 主要表示生化反應(yīng),有助于生物生長、繁殖、維持結(jié)構(gòu)。點是代謝產(chǎn)物,并用有向的箭頭表示代謝過程或特定反應(yīng)的調(diào)節(jié)作用
    • 基因互作: 不同的點表示不同基因,描述它們功能相關(guān)性;可以根據(jù)基因的背景知識來推斷線的方向
    • 基因/轉(zhuǎn)錄調(diào)控: 表示基因表達是如何被調(diào)控的;點是基因或轉(zhuǎn)錄因子,它們之間的關(guān)系也是定向,例如Reactome、KEGG等數(shù)據(jù)庫中表示基因調(diào)節(jié)的關(guān)系
    • 細(xì)胞信號: 點表示通路中的物質(zhì),如蛋白、核酸或其他代謝物

一、GO+KEGG分析功能注釋

找出差異基因下一步進行功能富集分析

方案1:DAVID網(wǎng)站
  • 進入 https://david.ncifcrf.gov/
    -點擊“Functional Annotation”輸入不超過3000個基因的gene list;輸入格式是每行一個基因名或者基因名用逗號隔開。
  • 選擇"OFFICIAL_GENE_SYMBOL"
  • 選擇"Gene list"
  • 點擊提交
  • 點擊“Gene_Ontology”進行GO分析,對基因進行功能注釋,勾選GO分析的三個參數(shù):BP(生物學(xué)過程),CC(細(xì)胞組分),MF(分子功能)
  • 找到“Pathways”,選擇KEGG_PATHWAY
  • 點擊 Chart
  • 點擊其中一條通路的Term,查看通路圖。


方案2:Metascape網(wǎng)站(網(wǎng)站更新較快)
  • 進入http://metascape.org/

  • 輸入基因,有兩種方式,本地文件導(dǎo)入或者粘貼gene list,支持xls/xlsx,CSV,txt三種格式。

  • 選擇物種

  • 選擇“Express Analyze”“Custom Analyze”進行分析

  • 點擊提交


  • 點擊“Express Analyze”查看結(jié)果

    • Figure 1 : 功能富集分析的結(jié)果圖
    • Table 1: TOP20的聚類分析表
    • Figure 2: 富集網(wǎng)絡(luò)圖,左側(cè)是根據(jù)gene ID進行的聚類,右側(cè)是根據(jù)P-Value進行的聚類
    • Figure 3 : PPI聚類功能模塊分析圖

二、蛋白互作(PPI)分析

表示蛋白之間物理聯(lián)系,它們幾乎占據(jù)了細(xì)胞生物過程的中心位置。蛋白作為點,用無向的線連接

分析方案:STRING網(wǎng)站+Cytoscape軟件制作蛋白互作網(wǎng)絡(luò)圖(PPI分析)
  • 進入STRING網(wǎng)站的官網(wǎng): https://string-db.org/

  • 通常選擇輸入方式是“Multiple proteins”

  • 然后輸入不超過2000個基因的差異基因名,每行一個基因

  • 選擇物種類型

  • 點擊“SEARCH”,繼續(xù)點擊“CONTINUE”

  • 下拉當(dāng)前頁面,菜單欄的Legend選項卡里面是關(guān)于網(wǎng)絡(luò)圖中Nodes和Edges的注釋

    • 菜單欄的Settings選項卡可以對Edges進行調(diào)整。
    • “confidence”是通過線條的粗細(xì)來反映蛋白之間相互作用的強弱。
    • 如果網(wǎng)絡(luò)圖比較分散,可以設(shè)置“minimum required interaction score”conbined_score調(diào)高,使圖形看上去更緊密。
    • 可以通過設(shè)置蛋白數(shù)量的上限,比如我們將其設(shè)置為“no more than 50 interactors”改變網(wǎng)絡(luò)圖上的蛋白數(shù)量
    • 菜單欄的Analysis選項卡里面,可以查看network的一些信息,包括nodes、edges、degree、PPI富集分?jǐn)?shù)的P值等,同時也能查看GO和KEGG功能富集信息及其他信息
    • Clusters選項卡,是將PPI網(wǎng)絡(luò)進行聚類,點擊APPLY。通過聚類后,蛋白通過聚類形成不同顏色的成簇分布的蛋白互作網(wǎng)絡(luò)圖。
  • 直接點擊“Exports”選項,下載TSV格式的文件保存,得到一張PPI圖
  • 利用網(wǎng)絡(luò)聚類算法可以從復(fù)雜的蛋白質(zhì)網(wǎng)絡(luò)中挖掘蛋白復(fù)合體或者相應(yīng)的功能模塊,其中MCODE算法是最常用的挖掘蛋白復(fù)合體的算法。MCODE全稱molecular complex detection, 是最廣泛使用的挖掘蛋白復(fù)合體的算法之一,在cytoscape 軟件中提供了一個MCODE插件,可以方便的對網(wǎng)絡(luò)進行聚類。

  • cytoscape 是一個功能強大的網(wǎng)絡(luò)可視化軟件,除了基本的可視化之外,通過各種插件,還可以輕松的實現(xiàn)各種數(shù)據(jù)分析,插件的下載地址: http://apps.cytoscape.org/

  • 打開Cytoscape軟件,File-->Import -->Network-->file, 然后選擇對應(yīng)的TSV格式的文件,對PPI圖進一步美化
  • 依次點擊Tools-->NetworkAnalyzer-->Network Analysis-->Generate style from statistics
  • 在彈窗中操作:在Cytoscape軟件中Node的大小和漸變顏色由Degree來調(diào)整,Edge的粗細(xì)和漸變顏色由combined_score來調(diào)整。
  • 點擊“Apply”
  • 若要制作以某個蛋白為中心的PPI:例如選擇IL10蛋白作為中心蛋白,首先點擊該蛋白。依次點擊File-->New-->Network-->From selected nodes,all edges。形成一張以IL10為中心的局部PPI網(wǎng)絡(luò)。
  • 使用MCODE插件,Apps-->MCODE, 啟動MCODE插件,在控制面板,選擇默認(rèn)參數(shù),對整個網(wǎng)絡(luò)繼續(xù)聚類
  • 聚類之后會得到多個子網(wǎng)subnetwork, 對于每個子網(wǎng),可以看到其節(jié)點數(shù),邊數(shù),打分值等基本信息,通過MCODE插件,可以方便的得到復(fù)雜的PPI網(wǎng)絡(luò)中潛在的各個子網(wǎng),但是后續(xù)還是要結(jié)合功能注釋,比如KEGG,蛋白復(fù)合物數(shù)據(jù)庫的注釋等,對結(jié)果進一步解讀。

三、通過WGCNA構(gòu)建的基因共表達網(wǎng)絡(luò)

生信寶典:WGCNA分析,簡單全面的最新教程

  • WGCNA基本概念
    • 加權(quán)基因共表達網(wǎng)絡(luò)分析 (WGCNA, Weighted correlation network
      analysis)是用來描述不同樣品之間基因關(guān)聯(lián)模式的系統(tǒng)生物學(xué)方法
      ,可以用來鑒定高度協(xié)同變化的基因集,
      并根據(jù)基因集的內(nèi)連性和基因集與表型之間的關(guān)聯(lián)鑒定候補生物標(biāo)記基因或治療靶點。
    • WGCNA利用數(shù)千或近萬個變化最大的基因或全部基因的信息識別感興趣的基因集,并與表型進行顯著性關(guān)聯(lián)分析。一是充分利用了信息,二是把數(shù)千個基因與表型的關(guān)聯(lián)轉(zhuǎn)換為數(shù)個基因集與表型的關(guān)聯(lián),免去了多重假設(shè)檢驗校正的問題。
    • 共表達網(wǎng)絡(luò):定義為加權(quán)基因網(wǎng)絡(luò)。點代表基因,邊代表基因表達相關(guān)性。加權(quán)是指對相關(guān)性值進行冥次運算
    • Module(模塊):高度內(nèi)連的基因集。
    • Connectivity (連接度):類似于網(wǎng)絡(luò)中 "度"
      (degree)的概念。每個基因的連接度是與其相連的基因的邊屬性之和。
    • Module eigengene E: 給定模型的第一主成分,代表整個模型的基因表達譜。
    • Intramodular connectivity: 給定基因與給定模型內(nèi)其他基因的關(guān)聯(lián)度,判斷基因所屬關(guān)系。
  • Module membershi): 給定基因表達譜與給定模型的eigengene的相關(guān)性。
  • Hub gene : 關(guān)鍵基因 (連接度最多或連接多個模塊的基因)。
  • Adjacency matrix: (鄰接矩陣):基因和基因之間的加權(quán)相關(guān)性值構(gòu)成的矩陣。
  • TOM (Topological overlap
    matrix)
    :把鄰接矩陣轉(zhuǎn)換為拓?fù)渲丿B矩陣,以降低噪音和假相關(guān),獲得的新距離矩陣,這個信息可拿來構(gòu)建網(wǎng)絡(luò)或繪制TOM圖。
分析流程:
  • 數(shù)據(jù)導(dǎo)入,數(shù)據(jù)篩選,軟閾值篩選(軟閾值的篩選原則是使構(gòu)建的網(wǎng)絡(luò)更符合無標(biāo)度網(wǎng)絡(luò)特征)


  • 構(gòu)建基因共表達網(wǎng)絡(luò):使用加權(quán)的表達相關(guān)性。

net = blockwiseModules(dataExpr, power = power, maxBlockSize = nGenes,
                       TOMType = type, minModuleSize = 30,
                       reassignThreshold = 0, mergeCutHeight = 0.25,
                       numericLabels = TRUE, pamRespectsDendro = FALSE,
                       saveTOMs=TRUE, corType = corType, 
                       maxPOutliers=maxPOutliers, loadTOMs=TRUE,
                       saveTOMFileBase = paste0(exprMat, ".tom"),
                       verbose = 3)
  • 識別基因集,展示各個模塊:基于加權(quán)相關(guān)性,進行層級聚類分析,并根據(jù)設(shè)定標(biāo)準(zhǔn)切分聚類結(jié)果,獲得不同的基因模塊,用聚類樹的分枝和不同顏色表示
  • 繪制模塊之間相關(guān)性圖:如果有表型信息,計算基因模塊與表型的相關(guān)性,鑒定性狀相關(guān)的模塊。

  • 研究模型之間的關(guān)系,從系統(tǒng)層面查看不同模型的互作網(wǎng)絡(luò)。

  • 從關(guān)鍵模型中選擇感興趣的驅(qū)動基因,或根據(jù)模型中已知基因的功能推測未知基因的功能。

  • 可視化基因網(wǎng)絡(luò) (TOM plot): 導(dǎo)出TOM矩陣,繪制相關(guān)性圖。

  • 導(dǎo)出網(wǎng)絡(luò)用于Cytoscape

  • 關(guān)聯(lián)表型數(shù)據(jù)


四、數(shù)據(jù)庫

4.1 chipBase:轉(zhuǎn)錄因子調(diào)控網(wǎng)絡(luò)數(shù)據(jù)

chipBase收集來自GEO,ENCODE數(shù)據(jù)庫中的chip_seq數(shù)據(jù),通過對這些原始數(shù)據(jù)進行分析,致力于構(gòu)建各種轉(zhuǎn)錄因子與非編碼RNA, 蛋白編碼基因之間的調(diào)控網(wǎng)絡(luò)

  • 數(shù)據(jù)庫構(gòu)建的流程


  • 該數(shù)據(jù)庫將基因分成了以下幾類

    • LncRNA
    • miRNA
    • Other NcRNA
    • Protein
  • 功能:
    1. 查看轉(zhuǎn)錄因子和基因間的調(diào)控網(wǎng)絡(luò): 首先確定感興趣的轉(zhuǎn)錄因子,然后選擇對應(yīng)的數(shù)據(jù)集,再選擇靶基因篩選的范圍,最終確定轉(zhuǎn)錄因子潛在的靶基因
    2. Regulator: 輸入感興趣的基因,查看有哪些轉(zhuǎn)錄因子可能調(diào)控該基因,點擊factor可以查看對應(yīng)的詳細(xì)結(jié)果,示意如下
    3. Chip-Function: 對靶基因進行GO富集分析
    4. Co-Expression: 分析轉(zhuǎn)錄因子和基因表達量的相關(guān)性

通過chip_base, 可以方便的查看轉(zhuǎn)錄因子與基因間的調(diào)控關(guān)系,還可以進一步結(jié)合轉(zhuǎn)錄組的共表達分析對結(jié)果進行篩選。

4.2 Co-LncRNA:lncRNA與蛋白編碼基因的共表達網(wǎng)絡(luò)數(shù)據(jù)庫


Co-LncRNA通過分析查找與lncRNA共表達的mRNA,構(gòu)建lncRNA與mRNA之間的共表達網(wǎng)絡(luò),并通過共表達的mRNA對應(yīng)的GO和KEGG來研究lncRNA的功能。

  • 通過CEGsFuncs查看lncRNA的共表達mRNA的功能富集結(jié)果
  • 選擇數(shù)據(jù)集和共表達分析的方法,設(shè)置閾值,通過mRNA或者lncRNA的名字來查找對應(yīng)的共表達基因,點擊pattern可以查看詳細(xì)的分析結(jié)果
  • 通過CEGsFuncs查看lncRNA的共表達mRNA的功能富集結(jié)果,示意如下
  • 對于KEGG富集的結(jié)果,點擊可以查看具體的通路圖,在通路圖上,會將共表達的蛋白編碼基因用紅色標(biāo)記


  • 通過CEGsNet, 可以查看lncRNA與mRNA的共表達網(wǎng)絡(luò)

五、LncRNA等RNA共表達網(wǎng)絡(luò)

5.1 LncRNA和mRNA共表達網(wǎng)絡(luò)

??很多文獻和數(shù)據(jù)庫中都有報道的lncRNA與mRNA之間相互作用,也可以通過軟件來預(yù)測二者之間的結(jié)合,通過lncRNA的靶標(biāo)mRNA, 來研究lncRNA的功能。通常認(rèn)為共表達基因集參與同一通路,或者受到同樣的調(diào)控,具有相似的生物學(xué)功能,利用表達譜數(shù)據(jù)尋找與lncRNA共表達的mRNA,從而來研究

做lncRNA和mRNA共表達網(wǎng)絡(luò)步驟:

  • 用三列計算皮爾森相關(guān)系數(shù)
    第一列:樣本號。
    
    第二列:lncR的表達量。
    
    第三列:mRNA的表達量。
    
  • 篩選顯著結(jié)果
  • 然后用cytoscape畫圖
  • 研究lncRNA的功能。

5.2 LncRNA與miRNA共表達網(wǎng)絡(luò)

??長非編碼RNAs(lncRNAs)和小分子RNA(miRNAs)的代表兩類重要的非編碼RNA在真核生物。雖然這些非編碼RNA與有機體的生長和人類多種疾病有著密切的關(guān)系,但很少有人知道他們的轉(zhuǎn)錄調(diào)控。新一代DNA測序技術(shù)(ChIP-SEQ)染色質(zhì)免疫沉淀的最新進展提供了前所未有的靈敏度與檢測轉(zhuǎn)錄因子結(jié)合位(TFBSs)的方法。

miRNA與lncRNA的關(guān)系通過DIANA-LncBase數(shù)據(jù)庫中獲取

5.3 mRNA共表達網(wǎng)絡(luò)圖

構(gòu)建mRNA-miRNA-lncRNA的三元ceRNA網(wǎng)絡(luò)

5.4 LncRNA-TF-Gene網(wǎng)絡(luò)通路的構(gòu)建

在線的構(gòu)建LncRNA-TF-Gene網(wǎng)絡(luò)工具-LncMAP。此工具通過整合基因組廣泛的轉(zhuǎn)錄調(diào)控與配對的lncRNA和基因表達譜,顯示轉(zhuǎn)錄與其調(diào)節(jié)的靶基因以及l(fā)ncRNA網(wǎng)絡(luò)關(guān)系。對揭示人類癌癥生物學(xué)機制有重要意義。

參考文章:

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容