使用Spark SQL構(gòu)建批處理程序

StreamingPro目前已經(jīng)涵蓋流式/批處理,以及交互查詢?nèi)齻€(gè)領(lǐng)域,實(shí)現(xiàn)配置和SQL化

前言

今天介紹利用 StreamingPro 完成批處理的流程。

準(zhǔn)備工作

  • 下載StreamingPro

README中有下載地址

我們假設(shè)您將文件放在了/tmp目錄下。

填寫配置文件

  • 實(shí)例一,我要把數(shù)據(jù)從ES導(dǎo)出到HDFS,并且形成csv格式。

gist

在批處理模式下,所有的數(shù)據(jù)源和輸出都各自有一個(gè)固定的模塊(使用了Spark的Datasource API),然后對(duì)模塊做配置即可,無需使用不同的模塊。

在這個(gè)示例里,你需要配置上ES集群作為輸入,配置hdfs作為輸出,從而完成運(yùn)行。

啟動(dòng)StreamingPro

Local模式:

cd  $SPARK_HOME

./bin/spark-submit   --class streaming.core.StreamingApp \
--master local[2] \
--name test \
/tmp/streamingpro-0.4.1-SNAPSHOT-online-1.6.1.jar     \
-streaming.name test    \
-streaming.platform spark   \
-streaming.job.file.path file:///tmp/test.json

訪問

http://127.0.0.1:4040

可進(jìn)入Spark UI

集群模式:

cd  $SPARK_HOME

./bin/spark-submit   --class streaming.core.StreamingApp \
--master yarn-cluster \
--name test \
/tmp/streamingpro-0.4.1-SNAPSHOT-online-1.6.1.jar    \
-streaming.name test    \
-streaming.platform spark   \
-streaming.job.file.path hdfs://cluster/tmp/test.json

這里需要注意的是,配置文件并蓄放到HDFS上,并且需要協(xié)商hdfs前綴。這是一個(gè)標(biāo)準(zhǔn)的Spark 批處理程序

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容