Docker快速部署Apache Kylin和體驗(yàn)

疫情在家,就瘋狂擼起來吧~

參考URL:
https://zhuanlan.zhihu.com/p/201020536

1. Kylin是什么

Apache Kylin?是一個(gè)開源的、分布式的分析型數(shù)據(jù)倉庫,提供Hadoop/Spark 之上的 SQL 查詢接口及多維分析(OLAP)能力以支持超大規(guī)模數(shù)據(jù),最初由 eBay 開發(fā)并貢獻(xiàn)至開源社區(qū)。它能在亞秒內(nèi)查詢巨大的表。

Apache Kylin? 令使用者僅需三步,即可實(shí)現(xiàn)超大數(shù)據(jù)集上的亞秒級查詢。

1、定義數(shù)據(jù)集上的一個(gè)星形或雪花形模型
2、在定義的數(shù)據(jù)表上構(gòu)建cube
3、使用標(biāo)準(zhǔn) SQL 通過 ODBC、JDBC 或 RESTFUL API 進(jìn)行查詢,僅需亞秒級響應(yīng)時(shí)間即可獲得查詢結(jié)果

Kylin 提供與多種數(shù)據(jù)可視化工具的整合能力,如 Tableau,PowerBI 等,令用戶可以使用 BI 工具對 Hadoop 數(shù)據(jù)進(jìn)行分析。

2. Kylin的特性

1、Kylin 是為減少在 Hadoop/Spark 上百億規(guī)模數(shù)據(jù)查詢延遲而設(shè)計(jì)

2、作為一個(gè)分析型數(shù)據(jù)倉庫(也是 OLAP 引擎),Kylin 為 Hadoop 提供標(biāo)準(zhǔn) SQL 支持大部分查詢功能

3、通過 Kylin,用戶可以與 Hadoop 數(shù)據(jù)進(jìn)行亞秒級交互,在同樣的數(shù)據(jù)集上提供比 Hive 更好的性能

4、用戶能夠在 Kylin 里為百億以上數(shù)據(jù)集定義數(shù)據(jù)模型并構(gòu)建立方體

5、Kylin 可以在數(shù)據(jù)產(chǎn)生時(shí)進(jìn)行實(shí)時(shí)處理,用戶可以在秒級延遲下進(jìn)行實(shí)時(shí)數(shù)據(jù)的多維分析。

6、Kylin 提供與 BI 工具的整合能力,如Tableau,PowerBI/Excel,MSTR,QlikSense,Hue 和 SuperSet

7、其他特性:Job管理與監(jiān)控、壓縮與編碼、增量更新、利用HBase Coprocessor、基于HyperLogLog的Dinstinc Count近似算法、友好的web界面以管理,監(jiān)控和使用立方體、項(xiàng)目及表級別的訪問控制安全、支持LDAP、SSO

3. Kylin的架構(gòu)

v2-eb44a339f41c6d3a4b9f639499db9730_r.jpg

4. 從docker鏡像安裝使用kylin(不需要提前準(zhǔn)備hadoop環(huán)境)

為了讓用戶方便的試用 Kylin,官方提供了 Kylin 的 docker 鏡像。該鏡像中,Kylin 依賴的各個(gè)服務(wù)均已正確的安裝及部署,包括:

JDK 1.8
Hadoop 2.7.0
Hive 1.2.1
Hbase 1.1.2 (with Zookeeper)
Spark 2.3.1
Kafka 1.1.1
MySQL 5.1.73

官方已將面向用戶的 Kylin 鏡像上傳至 docker 倉庫,用戶無需在本地構(gòu)建鏡像,只需要安裝docker,就可以體驗(yàn)kylin的一鍵安裝。

step1、首先執(zhí)行以下命令從 docker 倉庫 pull 鏡像:

docker pull apachekylin/apache-kylin-standalone:3.1.0

此處的鏡像包含的是kylin最新Release版本kylin 3.1.0。由于該鏡像中包含了所有kylin依賴的大數(shù)據(jù)組件,所以拉取鏡像需要的時(shí)間較長,請耐心等待。

step2、執(zhí)行以下命令來啟動(dòng)容器:

docker run -d \
-m 8G \
-p 7070:7070 \
-p 8088:8088 \
-p 50070:50070 \
-p 8032:8032 \
-p 8042:8042 \
-p 16010:16010 \
apachekylin/apache-kylin-standalone:3.1.0

容器會(huì)很快啟動(dòng),由于容器內(nèi)指定端口已經(jīng)映射到本機(jī)端口,可以直接在本機(jī)瀏覽器中打開各個(gè)服務(wù)的頁面,如:

Kylin 頁面:http://127.0.0.1:7070/kylin/
Hdfs NameNode 頁面:http://127.0.0.1:50070
Yarn ResourceManager 頁面:http://127.0.0.1:8088
HBase 頁面:http://127.0.0.1:60010

容器啟動(dòng)時(shí),會(huì)自動(dòng)啟動(dòng)以下服務(wù):
NameNode, DataNode
ResourceManager, NodeManager
HBase
Kafka
Kylin
并自動(dòng)運(yùn)行 $KYLIN_HOME/bin/sample.sh及在 Kafka 中創(chuàng)建 kylin_streaming_topic topic 并持續(xù)向該 topic 中發(fā)送數(shù)據(jù)。這是為了讓用戶啟動(dòng)容器后,就能體驗(yàn)以批和流的方式的方式構(gòu)建 Cube 并進(jìn)行查詢。

用戶可以通過docker exec命令進(jìn)入容器,容器內(nèi)相關(guān)環(huán)境變量如下:
JAVA_HOME=/home/admin/jdk1.8.0_141
HADOOP_HOME=/home/admin/hadoop-2.7.0
KAFKA_HOME=/home/admin/kafka_2.11-1.1.1
SPARK_HOME=/home/admin/spark-2.3.1-bin-hadoop2.6
HBASE_HOME=/home/admin/hbase-1.1.2
HIVE_HOME=/home/admin/apache-hive-1.2.1-bin
KYLIN_HOME=/home/admin/apache-kylin-3.1.0-bin-hbase1x

使用ADMIN/KYLIN的用戶名和密碼組合登陸Kylin后,用戶可以使用sample cube來體驗(yàn)cube的構(gòu)建和查詢.


2022-03-22 20_05_44-MessageCenterUI.png
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容