使用Zeppelin代替spark-shell

部署

把下載的bin-all.tgz上傳到服務(wù)器,解壓放到自己常用的目錄下。
為了使用spark.read.jdbc功能,需要上傳一份mysql connector jar到lib/interpreter下,否則spark執(zhí)行會(huì)報(bào)錯(cuò)。

啟動(dòng)

使用bin/zeppelin-daemon.sh start啟動(dòng)后臺(tái)服務(wù)
然后使用bin/zeppelin.sh啟動(dòng)web端


這樣在服務(wù)器的8080端口就可以看見(jiàn)應(yīng)用界面

設(shè)置

我們需要設(shè)置到spark的連接,通過(guò)右上方的下拉菜單“Interpreter”進(jìn)入適配器管理界面,設(shè)置好到spark集群的連接,然后把這個(gè)適配器重啟一下。


使用

通過(guò)“Create new note”建立一個(gè)便簽,便簽的執(zhí)行單位是段,每段的右上角都有執(zhí)行、展示\隱藏代碼、展示\隱藏輸出,更多操作的工具條。這里每段的代碼就和寫(xiě)在spark-shell里面的一樣。



最后輸出的時(shí)候需要注意,為了使用zeppelin的數(shù)據(jù)可視化功能,推薦以table形式輸出,同時(shí)組織好輸出數(shù)據(jù)的關(guān)系,以便直接展示?,F(xiàn)在數(shù)據(jù)可視化的功能還不是太強(qiáng)大,只可以在settings里面調(diào)整數(shù)據(jù)展示的邏輯。



最后效果展示,這是某系統(tǒng)中各個(gè)地點(diǎn)的重量級(jí)別發(fā)生次數(shù)的分布圖。

圖示略有交互性,可以選擇展示的和隱藏的groups,通過(guò)圖示上方的小圓圈選中與否控制,為了保護(hù)數(shù)據(jù)隱私,這里不作展示。

安全

zeppelin默認(rèn)任何人都可以訪(fǎng)問(wèn),這樣太不安全了,所以需要加上一點(diǎn)保障,一方面是用戶(hù)登錄權(quán)限,一方面是文檔的讀寫(xiě)權(quán)限。
官方的說(shuō)明頁(yè)面在此:登錄權(quán)限,文檔權(quán)限
首先在zeppelin/conf目錄下,把zeppelin-site.xml.template復(fù)制成zeppelin-site.xml,把shiro.ini.template復(fù)制成shiro.ini。
修改zeppelin-site.xml,把zeppelin.anonymous.allowed的值改成false


保存退出。
然后修改shiro.ini。在[users]段中,按照登錄名=密碼,角色1,角色2,...角色N的格式添加登錄賬戶(hù),保存退出。
終端里面執(zhí)行腳本,重啟后臺(tái)服務(wù):
zeppelin-daemon.sh restart
然后刷新網(wǎng)頁(yè)就可以看到需要登錄了。
文檔的權(quán)限是進(jìn)入zeppeline后在文檔的編輯界面上設(shè)置的,參見(jiàn)官方文檔的圖示,非常簡(jiǎn)單。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀(guān)點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容