spark sql 與hive打通

Why

Hive管理的數(shù)據(jù)本身就帶有表結(jié)構(gòu),比如數(shù)據(jù)類型,字段名在spark機(jī)器學(xué)習(xí)數(shù)據(jù)處理過程中,直接讀取文件的方式需要從文件轉(zhuǎn)換到dataframe,這個(gè)時(shí)候最麻煩的就是Schema如果打通hive和spark,我們就可以直接在hive中定義好表結(jié)構(gòu),在spark中直接使用。非常省事,也不用關(guān)心hive表數(shù)據(jù)是哪種文件格式了,RCFILE,SequenceFile, TextFile等全部兼容

How

環(huán)境準(zhǔn)備
安裝hive和安裝spark具體安裝過程這里就不詳細(xì)介紹了。
主要講下,spark如何整合hive

1. Hive配置文件拷貝

copy hive安裝目錄下的 hive-site.xml 到 $SPARK_HOME/conf 目錄(如果采用ambari搭建的話,該步驟不用,因?yàn)閍mbari已經(jīng)幫助拷貝了)

2. Hive配置文件拷貝

添加JDBC驅(qū)動(dòng):
export HIVE_HOME=/usr/hdp/2.3.4.0-3485/hive
export SPARK_CLASSPATH=$HIVE_HOME/lib/mysql-connector-java-5.1.26-bin.jar:$SPARK_CLASSPATH
注:mysql-connector-java-5.1.26-bin.jar可以上mysql官網(wǎng)下載

3. 運(yùn)行spark-shell

運(yùn)行sqlContext.tables("default").show
就可以看到hive中的數(shù)據(jù)了。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容