A: ClueGO:破譯富集GO和通路
大多數(shù)的富集工具都是以列表和復(fù)雜等級(jí)樹(shù)顯示。Cluoego可視化歸納相似的過(guò)程或通路。主要是GO和KEGG ,并且作者可以設(shè)置自己的閾值動(dòng)態(tài)改變網(wǎng)絡(luò)。
Cluego有兩個(gè)主要的特征:1.根據(jù)基因列表,可以用于terms的可視化,2,兩個(gè)clusters的功能解釋的比較。
具體的步驟方法
1 數(shù)據(jù)輸入
基因標(biāo)識(shí)數(shù)據(jù)集可以以簡(jiǎn)單的text文本文檔上傳,也可以來(lái)于cytoscape的基因網(wǎng)絡(luò)圖。cluego支持幾種基因標(biāo)識(shí)符和物種。并且可以擴(kuò)展。
2 注釋來(lái)源
為了快速分析,cluegeo使用預(yù)先編輯好的文件,包括GO,KEGG和BIocarta并且物種很廣泛。一鍵就可以自動(dòng)下載最新的ontology和注釋源。并且可以把預(yù)先編輯好的網(wǎng)絡(luò)添加到已經(jīng)存在的上面。這保證最新的功能分析。另外,cluego可以容易的整合新的注釋源到其他插件。
3 富集tests
cluego提供了計(jì)算terms和groups富集和缺失的可能型。左邊富集右邊缺失,或這雙邊(富集和缺失),這都基于超幾何分布。另外,他也提供選擇計(jì)算mid-p值。為了矯正多重檢驗(yàn)p值,幾種標(biāo)準(zhǔn)化的矯正方法可以選擇(本家名,等)
4 網(wǎng)絡(luò)生成和可視化
為了生成注釋網(wǎng)絡(luò),cluego提供預(yù)先丁一的功能分析集,從general到非常具體的。另外,用戶(hù)可以調(diào)整分析參數(shù)來(lái)更集中terms,例如,在某一個(gè)GO水平,有特殊的證據(jù)codes或有某數(shù)目和百分比的相關(guān)基因。一個(gè)可選擇的冗余減少特征(融合)以父子關(guān)系條目評(píng)估GO條目,這會(huì)共享相似的相關(guān)基因并且保留代表性的父或子條目。選擇的條目間的的關(guān)系根據(jù)他們共享的基因定義。cluego首先生存一個(gè)雙向基因條目矩陣,條目-條目相似性矩陣會(huì)使用chance矯正kappa統(tǒng)計(jì)學(xué)進(jìn)行計(jì)算,以此決定條目之間的相似強(qiáng)度。以in我這個(gè)條目條目矩陣有來(lái)源,kappa統(tǒng)計(jì)就成了最適合的方法。最后,產(chǎn)生的網(wǎng)絡(luò)用node代表?xiàng)l目,這個(gè)條目已經(jīng)根據(jù)kappa得分進(jìn)行了預(yù)先設(shè)定。kappa得分閾值可可以被初始設(shè)定,從0到1,這可以以用戶(hù)設(shè)定的方式限制網(wǎng)絡(luò)的連接。nodes的大小反映了term富集的重要性。并且,網(wǎng)絡(luò)以cytoscape支持的organic輸出方式進(jìn)行展示,這是基于一定幾何算法的。根據(jù)預(yù)先設(shè)定的組別,功能組可以被不斷的富集merge,當(dāng)然都是基于kappa算法閾值。最后的groups被固定并且隨機(jī)顏色。功能groups代表重要的條目,可以可視化,并且可以看出他們之間的關(guān)系。選擇組中的領(lǐng)頭條目,基于提供的每個(gè)term的gene百分比。作為kappa得分分組的替代,GO等級(jí)使用父子關(guān)系條目可以用來(lái)產(chǎn)生富集組別。
當(dāng)比較2個(gè)基因聚類(lèi)時(shí),cluege另一個(gè)原始的功能可以調(diào)整可視化,除了網(wǎng)絡(luò),cluego提供總括表,可以顯示組別和他的領(lǐng)頭條目,直方圖,聚類(lèi)和普通條目像bingo,cluego可以和golorize合并產(chǎn)生記憶in網(wǎng)絡(luò)。產(chǎn)生的網(wǎng)絡(luò),圖和分析結(jié)果可以保存為項(xiàng)目進(jìn)一步進(jìn)行分析
case study
例子是GSE6887,我們選擇健康志愿者上調(diào)和下調(diào)的NK 細(xì)胞基因。對(duì)于上調(diào)的NKgene,cluego顯示“natural killer cell mediated cytotoxicity”在這個(gè)組:cellular defense response,而下調(diào)的NK細(xì)胞基因參與innate immune response,還有adaptive immune response。共有的功能指向leukocytes的特點(diǎn),另外還有一些條目參與cell division和metabolism。

image.png
功能組網(wǎng)絡(luò)結(jié)果,term作為nodes出現(xiàn),基于的是kappa得分(》=0.3).每組只有最顯著的條目標(biāo)簽顯示出來(lái)。功能相關(guān)的組部分重疊。沒(méi)有歸到組里的條目白色顯示。

image.png
bars代表和某個(gè)term相關(guān)的gene數(shù)目,就是bar右邊的數(shù)字。每個(gè)term的基因百分比作為bar label顯示,也就是橫軸數(shù)字。

image.png
所用數(shù)據(jù)的功能groups的總圖。是合并之后的子圖的名字。
B: Cluepedia
cluepedia可以分析自己的實(shí)驗(yàn)數(shù)據(jù),可以直接比較和富集公用數(shù)據(jù)。比如來(lái)自string,intact,mimi,mirbase,mirecords等。通路分析基于go和kegg,reactome和其他數(shù)據(jù)源。上傳數(shù)據(jù)的方式很多種
1文本文檔
2粘貼
3來(lái)自網(wǎng)絡(luò)。插件可以自動(dòng)識(shí)別很多類(lèi)型的基因,蛋白,miRNA,可以用最新的NCBI信息更新。
Cluepedia來(lái)自任何老鼠相互數(shù)據(jù)。安裝后,超過(guò)20種其他物種數(shù)據(jù)可以下載,這些數(shù)據(jù)已經(jīng)編輯好了。插件可以計(jì)算來(lái)自實(shí)驗(yàn)數(shù)據(jù)感興趣的基因的統(tǒng)計(jì)學(xué)相關(guān)性,并且提供的四種檢驗(yàn)參數(shù)有線(xiàn)性的有非線(xiàn)性的。有皮爾遜相關(guān)系數(shù),斯皮爾曼rank,距離系數(shù)和最近描述的maximal information 系(MIC).這些檢驗(yàn)可同時(shí)或單獨(dú)使用分析整個(gè)輸入文件比如affymetrix datasets,選擇markersVs整個(gè)數(shù)據(jù)集或選定自己的markers。結(jié)果恩杰添加到cluepedia進(jìn)一步分析。實(shí)驗(yàn)數(shù)據(jù)可以被標(biāo)準(zhǔn)化并且可視化使用臨近閾值。過(guò)濾的方法是基于表達(dá)水平,標(biāo)準(zhǔn)差和缺失值。另外一個(gè)特征是允許抽取表達(dá)數(shù)據(jù)的子集,這些子集相應(yīng)于一個(gè)pathway或term。
網(wǎng)絡(luò)可以根據(jù)最高相互得分富集,可以對(duì)所有也可以對(duì)選定的nodes。另外,網(wǎng)絡(luò)可以被富集,用有最高連接度的hub基因,而這個(gè)hub基因連接的所有選定的nodes。不同的邊得分類(lèi)型可以用于富集,并且這個(gè)網(wǎng)絡(luò)可以更新,用的是最高得分的相互關(guān)系,而他符合所有的閾值標(biāo)準(zhǔn)。重要的是,這個(gè)富集結(jié)果可以用Cluego網(wǎng)絡(luò)使用,新富集的基因會(huì)被自動(dòng)假如。cluepedia可以自動(dòng)提取go term中marker的細(xì)胞為止?;谶@些信息,類(lèi)似pathway-like的細(xì)胞祖墳可以產(chǎn)生,這要使用cerebral plugin layout。如果有一些marker并沒(méi)有細(xì)胞位置,那么他們會(huì)被歸納到?jīng)]有注釋被發(fā)現(xiàn)的未知。
作者:Y大寬
鏈接:http://www.itdecent.cn/p/b72faec72d04
來(lái)源:簡(jiǎn)書(shū)
著作權(quán)歸作者所有。商業(yè)轉(zhuǎn)載請(qǐng)聯(lián)系作者獲得授權(quán),非商業(yè)轉(zhuǎn)載請(qǐng)注明出處。