什么是H2O Sparkling Water
Sparkling Water允許用戶將快速,可擴(kuò)展的H2O機(jī)器學(xué)習(xí)算法與Spark的功能相結(jié)合。 使用Sparkling Water,用戶可以從Scala / R / Python驅(qū)動(dòng)計(jì)算并利用H2O Flow UI,為應(yīng)用程序開發(fā)人員提供理想的機(jī)器學(xué)習(xí)平臺(tái)。
Spark是一個(gè)優(yōu)雅而強(qiáng)大的通用,開源,內(nèi)存平臺(tái),具有巨大的動(dòng)力。 H2O是一種用于機(jī)器學(xué)習(xí)的內(nèi)存應(yīng)用程序,它正在重塑人們?nèi)绾螌?shù)學(xué)和預(yù)測(cè)分析應(yīng)用于他們的業(yè)務(wù)問題。
集成這兩個(gè)開源環(huán)境為想要使用Spark SQL進(jìn)行查詢的用戶提供了無縫體驗(yàn),將結(jié)果提供給H2O以構(gòu)建模型并進(jìn)行預(yù)測(cè),然后在Spark中再次使用結(jié)果。 對(duì)于任何給定的問題,工具之間更好的互操作性提供了更好的體驗(yàn)。
如何安裝
這里介紹在R里面的安裝:
- Download and unpack Sparkling Water distribution
cd ~/Downloads
unzip sparkling-water-2.3.15.zip
cd sparkling-water-2.3.15
- Install RSparkling dependency, SparklyR:
install.packages("sparklyr")
- Install Spark:
library(sparklyr)
spark_install(version = "2.3.2")
- Install H2O of correct version:
install.packages("h2o", type = "source", repos = "https://h2o-release.s3.amazonaws.com/h2o/rel-wright/9/R")
- Finally, install RSparkling
Install latest version from CRAN:
install.packages("rsparkling")
install latest version from the downloaded distribution.
# rsparkling_0.2.10.tar.gz is available at the downloaded distribution.
install.packages("rsparkling_0.2.10.tar.gz", repos=NULL, type="source")
- Set Sparkling Water version to be used with RSparkling
options(rsparkling.sparklingwater.version = "2.3.15")
library(rsparkling)
- Connect to Spark
sc <- spark_connect(master = "local", version = "2.3.2")
- Now, H2OContext is available and we can use any H2O features available in R.
h2o_context(sc)