文獻時間
2015
摘要
DO以疾病的形式來對人類的基因進行注釋,對于聯(lián)系高通量數(shù)據(jù)與臨床數(shù)據(jù)有很重要的作用。DOSE是一個R包,提供基因和DO術語之間的語義相似度計算,使生物學家能夠探索疾病之間的相關性以及從疾病角度探索基因功能。此包提供超幾何模型,基因集富集分析,基因類之間的對比等功能。
介紹
通過理解疾病之間,基因和疾病之間的聯(lián)系,就能夠從高通量數(shù)據(jù)中挖掘出疾病的一些相關分子機制。疾病方面利于早期診斷,藥物研發(fā)。基因方面利于解決生物問題,以及發(fā)現(xiàn)意外的功能。
DO提供了基因在疾病角度一致的注釋。為了便于使用著了解疾病的相關知識,DO數(shù)據(jù)庫提供了一個頁面瀏覽器來了解DO術語,疾病和基因注釋數(shù)據(jù)庫提供了一個頁面接口來比對基因和疾病。DO使用有向非循環(huán)結構作為疾病知識語義相關性算法的基礎。有很多遺傳學工具庫例如SML,SimPack,SemMF,OWLSim和Similarity,這些都可以用來計算語義相關性。DOSim是特定為DO設計的,但是作者并沒有持續(xù)更新。FunDO提供假設性檢驗來檢驗一個基因集的DO術語,但是并不允許提供北京基因,因此結果會有偏移。
因此,我們搞了一個DOSE。為了研究基因組和蛋白組的相關性功能,DOSE提供假設性檢驗和GSEA分析。同時提供了多種可視化的工具。
實施
DOSE使用doSim函數(shù)來計算DO術語的語義相似度,使用四種基于信息內(nèi)容的算法和一種基于圖形的算法。
這些算法從GOSemSim繼承得來。gengSim通過將基因對應到DO術語上來計算基因之間的語義相似度。DOSE中有四種合并語義相似得分的方法:
- max:所有DO術語對中最高的語義相似得分
- avg:所有DO術語對中平均的語義相似得分
- rcmax:每行(列)的平均語義相似得分中的最大值
- best-match average:每行(列)語義相似得分
DOSE提供解設性檢驗來評估疾病和差異性基因之間的聯(lián)系。enrichGO提供背景基因功能。gseAnalyzer函數(shù)支持高通量數(shù)據(jù)的GSEA分析。這些功能可以同來判斷生物實驗得到的基因是否和特定的疾病相關。多重假設檢驗的矯正方法包括Bonferroni,Benjamini,F(xiàn)alse Discovery Rate和q-values。不同條件形成的基因簇與疾病之間的聯(lián)系可以通過clusterProfiler包進行比較。各種圖形化函數(shù)可以通過包的文檔查看。
結果和討論
DOSE是通過R語言開發(fā)的,并在Bioconductor項目上發(fā)布。它提供了5種用于DO和語義相關性計算的算法;用于鑒定與疾病顯著相關基因集的假設性檢驗;GSEA來將各種組學文件轉化為對應的疾病內(nèi)容,以及比對不同基因集之間的疾病相關性的顯著性。相關的R腳本在附錄文件中。
DOSE使用語義相關性途徑和富集分析來方便人們對大基因集的分析。而且,還能夠對分析結果進行可視化。