文獻(xiàn)時(shí)間
2011
摘要
轉(zhuǎn)錄組和蛋白組測序數(shù)據(jù)不斷增多,這就需要一個(gè)綜合的分析策略。我們在此提供了一個(gè)R包,clusterProfiler,它將基因簇的富集分析和功能描述查找自動化。將分析模塊和可視化模塊組合成一個(gè)簡單的流程。目前,此包支持三個(gè)物種,人類,小鼠和酵母。這個(gè)保重提供的方法,可以簡便的推廣到其他物種。clusterProfiler包在Bioconductor項(xiàng)目中的Artistic-2.0 License下發(fā)布。 源代碼和插圖可以在http://bioconductor.org/packages/release/bioc/html/clusterProfiler.html免費(fèi)獲得。
引言
高通量產(chǎn)生了大量的數(shù)據(jù),就需要從數(shù)據(jù)中獲取生物層面的信息。常用的方法就是通過基因的相似性(例如表達(dá))來形成基因簇,從系統(tǒng)的層面去尋找可能的模式(例如生物過程,啟動子等)。
另一種查找相同功能基因的方法就是通過ontologies提供的生物相關(guān)信息來判斷。比如GO提供基因在生物過程,分子功能,細(xì)胞組成三個(gè)水平的描述。KEGG提供基因在通路方面的描述。DO提供人類基因在疾病方面的描述。相關(guān)的工具已經(jīng)開發(fā)了很多,GO::TermFinder和GOstats用來進(jìn)行GO富集分析,SubpathwayMiner用來發(fā)現(xiàn)通路。
雖然這些工具可以自動計(jì)算顯著性,但需要手動選擇最后的基因簇。 因此,開發(fā)了一些新工具,如ClueGO和go-Profiles,以部分解決這一問題。然而,它們僅支持兩組基因的比較。TM4 MultiExperiment Viewer通過將層次聚類與EASE相結(jié)合來實(shí)現(xiàn)Tree-EASE(TEASE)算法,可以執(zhí)行聚類分析,然后進(jìn)行GO濃縮計(jì)算,但沒有用于比較和可視化集群之間功能差異的工具。在這里,我們提出了一個(gè)名為clusterProfiler的R軟件包,用于GO和KEGG的統(tǒng)計(jì)分析,能夠使基因簇之間進(jìn)行比較。
材料和方法
這個(gè)包在R平臺上實(shí)現(xiàn),依賴的包有GO.db和KEGG.db兩個(gè)注釋數(shù)據(jù)庫,org.Hs.eg.db,org.Mm.eg.db和org.Sc.sgd.db物種基因組數(shù)據(jù)庫。
clusterProfiler包通過groupGO,基于它們在GO特定級別的投影對基因進(jìn)行分類,并基于超幾何分布進(jìn)行富集GO和富集KEGG分析。為了防止多重測試中的高錯(cuò)誤發(fā)現(xiàn)率(FDR),還估計(jì)了F值控制的q值。 此外,clusterProfiler提供了一個(gè)函數(shù)compareCluster,用于自動計(jì)算每個(gè)基因簇的豐富功能類別,并提供了幾種可視化方法。
提供的基因簇對比方法,適用于各種gene-ontology。在R中clusterProfiler和DOSE合作可以對比基因簇之間基因和疾病的相關(guān)性。疾病背景下比較基因簇能夠高通量數(shù)據(jù)轉(zhuǎn)化為臨床數(shù)據(jù)。
結(jié)果
使用了200個(gè)癌癥病人的表達(dá)數(shù)據(jù)(GSE11121),SAM算法篩選了5230個(gè)差異性基因(DECs),然后使用軟聚類算法從中鑒定了8個(gè)基因簇,最后使用clusterProfiler通過基因簇富集的功能對比這些基因簇。
如圖,點(diǎn)的大小表示每行的百分比(GO類別),點(diǎn)的深淺表示富集程度。
總結(jié)和討論
提供了新的包c(diǎn)lusterProfiler,內(nèi)含groupGO,enrichGO和enrichKEGG來進(jìn)行分類和富集分析。而且,將分類和富集分析應(yīng)用到了基因簇之間的比對。而且模型更加精巧。任何形式的生物功能ontologys都可以采用這個(gè)方法,而且還有圖形化工具。
這個(gè)包很簡單,專門為轉(zhuǎn)錄組和蛋白組分析設(shè)計(jì)。可以很簡單的拓展給其他物種,而且方便和其他包合作。
計(jì)劃了三個(gè)發(fā)展戰(zhàn)略。首先,使用KEGG和GO術(shù)語相似的地方來聚合類別,以產(chǎn)生更易解釋的結(jié)果。然后,找類別中相似的基因?qū)ζ渑判?,然后將它們關(guān)聯(lián)起來尋找富集類別,以提高活性模塊尋找的靈敏度。最后,我們將開發(fā)一個(gè)基于誘導(dǎo)有向無環(huán)圖的統(tǒng)計(jì)模型,以比較功能概況作為一個(gè)整體而不是一組不相關(guān)的類別。這些策略將增加clusterProfiler的多功能性。