Why
Hive管理的數(shù)據(jù)本身就帶有表結(jié)構(gòu),比如數(shù)據(jù)類型,字段名在spark機(jī)器學(xué)習(xí)數(shù)據(jù)處理過程中,直接讀取文件的方式需要從文件轉(zhuǎn)換到dataframe,這個(gè)時(shí)候最麻煩的就是Schema如果打通hive和spark,我們就可以直接在hive中定義好表結(jié)構(gòu),在spark中直接使用。非常省事,也不用關(guān)心hive表數(shù)據(jù)是哪種文件格式了,RCFILE,SequenceFile, TextFile等全部兼容
How
環(huán)境準(zhǔn)備
安裝hive和安裝spark具體安裝過程這里就不詳細(xì)介紹了。
主要講下,spark如何整合hive
1. Hive配置文件拷貝
copy hive安裝目錄下的 hive-site.xml 到 $SPARK_HOME/conf 目錄(如果采用ambari搭建的話,該步驟不用,因?yàn)閍mbari已經(jīng)幫助拷貝了)
2. Hive配置文件拷貝
添加JDBC驅(qū)動(dòng):
export HIVE_HOME=/usr/hdp/2.3.4.0-3485/hive
export SPARK_CLASSPATH=$HIVE_HOME/lib/mysql-connector-java-5.1.26-bin.jar:$SPARK_CLASSPATH
注:mysql-connector-java-5.1.26-bin.jar可以上mysql官網(wǎng)下載
3. 運(yùn)行spark-shell
運(yùn)行sqlContext.tables("default").show
就可以看到hive中的數(shù)據(jù)了。