多組學(xué)分析及可視化R包

最近打算開(kāi)始寫一個(gè)多組學(xué)(包括宏基因組/16S/轉(zhuǎn)錄組/蛋白組/代謝組)關(guān)聯(lián)分析的R包,避免重復(fù)造輪子,在開(kāi)始之前隨便在網(wǎng)上調(diào)研了下目前已有的R包工具,部分羅列如下:

1. mixOmics

應(yīng)該是在多組學(xué)領(lǐng)域知名度最高的一個(gè)R包,有專門的團(tuán)隊(duì),做了十余年了,引用量也比較高。

官網(wǎng):http://mixomics.org/
文章:mixOmics: An R package for ‘omics feature selection and multiple data integration
Github:https://github.com/mixOmicsTeam/mixOmics
Bookdown:https://mixomicsteam.github.io/Bookdown/

特點(diǎn):

  • 組學(xué)數(shù)據(jù)廣,基因/轉(zhuǎn)錄/蛋白/代謝都有涉及(是我的榜樣);
  • 獨(dú)特的多變量降維分析和可視化方法(我統(tǒng)計(jì)沒(méi)學(xué)好,所以不做太多統(tǒng)計(jì)方法,重點(diǎn)在于可視化,包括多種關(guān)聯(lián)角度的展示方式)。

主要內(nèi)容:
統(tǒng)計(jì)方法:PCA/IPCA/CCA/PLS/PLS-DA/MixMC/MINT/DIABLO
可視化:2D和3D散點(diǎn)圖/相關(guān)性網(wǎng)絡(luò)/聚類/相關(guān)性圈圖/箭頭圖/DIABLO圈圖/載荷圖

此外,這個(gè)包還自帶了不少demo數(shù)據(jù),具體可看官方文檔。

image.png

2. tRanslatome

2014年就發(fā)表了,好在一直都有維護(hù)。
文章:tRanslatome: an R/Bioconductor package to portray translational control
Bioconductor:https://bioconductor.org/packages/release/bioc/html/tRanslatome.html
作者博客:http://www.mybiosoftware.com/tag/translatome
Github:https://github.com/tomateba/tRanslatome(五年前的源碼)

特點(diǎn):

  • 組學(xué):主要是針對(duì)基因表達(dá)量的關(guān)聯(lián),包括轉(zhuǎn)錄組、翻譯組和蛋白組;
  • 統(tǒng)計(jì)方法:Rank Product, Translational Efficiency, t-test, Limma, ANOTA, DESeq, edgeR
  • 可視化:scatterplots, histograms, MA plots, standard deviation (SD) plots, coefficient of variation (CV) plots
image.png

3. OmicsARules

最近新出的一個(gè)R包,創(chuàng)建了一種新的關(guān)聯(lián)方法。

文章:OmicsARules: a R package for integration of multi-omics datasets via association rules mining
Github:https://github.com/BioinformaticsSTU/OmicsARules

特點(diǎn):

  • 主要針對(duì)基因組和轉(zhuǎn)錄組數(shù)據(jù),包括基因突變位點(diǎn)和非編碼RNA;
  • 發(fā)明一種Lamda3的度量方法創(chuàng)建關(guān)聯(lián)規(guī)則,可視化不是重點(diǎn)。
image.png

4. iCluster / iClusterPlus

十年前開(kāi)發(fā)的iCluster算法(聯(lián)合潛在變量模型),針對(duì)癌癥數(shù)據(jù)多組學(xué)聚類。去年的時(shí)候又開(kāi)發(fā)了一個(gè)新的iClusterPlus包,做了一些升級(jí)。

文章1:Integrative clustering of multiple genomic data types using a joint latent variable model with application to breast and lung cancer subtype analysis
Github:https://github.com/cran/iCluster
Bioconductor:https://bioconductor.org/packages/release/bioc/html/iClusterPlus.html
文章2:A fully Bayesian latent variable model for integrative clustering analysis of multi-type omics data

image.png

這種基于模型算法的工具我只能望洋興嘆,會(huì)用就不錯(cuò)了。

5. integrOmics

十多年的工具,雖然當(dāng)年發(fā)了Bioinformatics,后面沒(méi)有維護(hù)更新,廢了。

文章:integrOmics: an R package to unravel relationships between two omics datasets
Github:https://github.com/cran/integrOmics

6. moCluster

這也是一種算法,和icluster類似,主要整合數(shù)據(jù)聚類,用于細(xì)胞或疾病分子分型等。應(yīng)用場(chǎng)景相對(duì)比較單一。

7. MCIA

這個(gè)包又可稱omicade4: Multiple co-inertia analysis of omics datasets,即多元協(xié)慣量分析。一種多元統(tǒng)計(jì)分析方法,類似于PCA的展示吧,比較有限。

Bioconductor:http://bioconductor.org/packages/release/bioc/html/omicade4.html
Github:https://github.com/aedin/omicade4

8. 其他

其他還有不少R包做組學(xué)數(shù)據(jù)整合,或是基于新的算法,或是僅針對(duì)基因突變和基因表達(dá)關(guān)系等方面進(jìn)行關(guān)聯(lián),相對(duì)而言比較冷門,如:

  • CNAmet
  • PLRS
  • NuChart
  • MOO
  • Mergeeomics(這個(gè)包主要做GWAS/TWAS/EWAS/eQTL等,有點(diǎn)意思)

除了以上常用的R包,更多的多組學(xué)工具和方法可參考這一篇綜述:https://jme.bioscientifica.com/view/journals/jme/62/1/JME-18-0055.xml

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容