大數(shù)據(jù)集群搭建
主要基于ambari來同一管理監(jiān)控集群
主要安裝步驟:
準(zhǔn)備機(jī)器,修改hostname,固定ip等
機(jī)器間免密碼登錄
host機(jī)器開啟httpd服務(wù),準(zhǔn)備本地倉庫
安裝ambari setup
訪問頁面,通過ambari頁面安裝hdp
集群監(jiān)控:
依靠ambari頁面的監(jiān)控,缺點(diǎn):需要人為的關(guān)注平臺界面
改造:通過在主節(jié)點(diǎn)添加各機(jī)器的服務(wù)名或端口監(jiān)控,通過主程序分發(fā)到集群各機(jī)器,異常消息通過kafka推送,最后在主節(jié)點(diǎn)消費(fèi)topic,有異常則推送郵件通知
繼續(xù)升級:服務(wù)掛掉,自動重啟一次,如果再失敗,則郵件通知....(可以做)
集群主要的服務(wù)有:
hdfs:
主要負(fù)責(zé)數(shù)據(jù)存儲,namenode負(fù)責(zé)管理元數(shù)據(jù),datanode負(fù)責(zé)存儲數(shù)據(jù)
namenode的高可用
頁面訪問集群的健康及存儲情況
hdfs的跨機(jī)房數(shù)據(jù)同步? distcp原理
疑問:小文件合并??
druid
一個(gè)為在大數(shù)據(jù)集之上做實(shí)時(shí)統(tǒng)計(jì)分析而設(shè)計(jì)的開源數(shù)據(jù)存儲
不支持sql,查詢需要寫query.json 配置,繁瑣,通過restful 調(diào)用
alluxio
drill
MapReduce
主要用于hive的批處理
MapReduce原理
MapReduce參數(shù)優(yōu)化??
yarn
資源管理
nodemanager管理
與mesos資源管理的區(qū)別
hive
第一代執(zhí)行引擎:MapReduce
第二代執(zhí)行引擎:hive on tez and on yarn
第三代執(zhí)行引擎:hive + llap
hive 資源隔離
hive 的優(yōu)化
hive數(shù)據(jù)傾斜原因,怎么解決??
hbase
nosql數(shù)據(jù)庫
詳細(xì)??
應(yīng)用場景??
zookeeper
協(xié)調(diào)集群服務(wù),及收集服務(wù)的信息信息,記錄狀態(tài)信息
具體的作用???
kafka
最流行的消息隊(duì)列,特點(diǎn):吞吐量大,
與其他消息隊(duì)列的比較
基于kafka的衍生產(chǎn)品:
confluent:
gobblin:
kafka sql
spark
語法簡潔,可以用于批處理也可以用于流數(shù)據(jù)處理(streaming)
spark優(yōu)化??
flume
日志收集
sqoop
用于rdbms跟hdfs之間的數(shù)據(jù)導(dǎo)入導(dǎo)出
使用
缺點(diǎn):到處扔java文件
衍生到阿里的導(dǎo)數(shù)工具:datax
storm
流數(shù)據(jù)處理,效率高
缺點(diǎn),只負(fù)責(zé)數(shù)據(jù)計(jì)算,不負(fù)責(zé)存儲
flink
使用??
oozie調(diào)度
大數(shù)據(jù)調(diào)度平臺,支持頁面配置任務(wù)
缺點(diǎn):調(diào)度日志顯示不明顯,需要后臺查看
其他的大數(shù)據(jù)調(diào)度工具???
atlas元數(shù)據(jù)管理
沒有具體了解??
ranger權(quán)限控制
大數(shù)據(jù)平臺的權(quán)限控制機(jī)制,可以管理如下服務(wù):
hdfs plugins
hbase plugins
kafka plugins
yarn plugin
storm plugin
hive plugin
atlas plugin
kerberos安全管理
機(jī)制??
presto插件
ambari添加repo,頁面統(tǒng)一管理presto服務(wù)啟停
基于內(nèi)存的分布式查詢引擎,可以查詢hive和rdbms數(shù)據(jù),速率快
管理用于 select ,drop,create table權(quán)限
缺點(diǎn):語法部分不支持,支持自定義函數(shù)
kylin
預(yù)處理cube,通過提前構(gòu)建度量計(jì)算,查詢效率高,
本身計(jì)算基于MapReduce或者spark,不能實(shí)時(shí)構(gòu)建cube查詢,只能通過調(diào)度,來定時(shí)構(gòu)建cube
大數(shù)據(jù)平臺處理的流程介紹
采集
數(shù)據(jù)源:
mysql:主要使用了select * xxx > xxx.txt? 落地文件,做好結(jié)果行數(shù)校驗(yàn)工作
文本:
mongo:采用mongoexport 工具導(dǎo)出 到文本
es:采用spark程序,來導(dǎo)出數(shù)據(jù)到文本
存儲
主要用于hdfs存儲
如何處理小文件??
hive數(shù)據(jù)倉庫存儲格式的迭代:? textfile ->? rcfile -> orcfile (parquet)
三種存儲格式的區(qū)別,用數(shù)據(jù)說話
計(jì)算
主要的計(jì)算方式有:
hive的 MapReduce? 或者tez(主要)
spark來處理(輔助)
查詢
ambari的查詢平臺,通過ldap用戶登錄管理,ranger權(quán)限管理
presto:基于yanagishima平臺或者airpal平臺來實(shí)現(xiàn)presto查詢hive數(shù)據(jù)(olap)
應(yīng)用
構(gòu)建數(shù)據(jù)倉庫
報(bào)表平臺
風(fēng)控平臺
大數(shù)據(jù)平臺待優(yōu)化
資源的合理使用:避免資源閑置浪費(fèi),合理實(shí)現(xiàn)資源隔離?
查詢緩存:統(tǒng)一執(zhí)行入口,先從緩存數(shù)據(jù) -> presto執(zhí)行 -> mapreduce 執(zhí)行
top-k緩存
數(shù)據(jù)倉庫中表使用情況統(tǒng)計(jì),發(fā)現(xiàn)潛在問題,及時(shí)昨天模型調(diào)整
欠缺的方面:
業(yè)務(wù)方面
模型設(shè)計(jì)方面
用戶畫像
數(shù)據(jù)分析
工作中的項(xiàng)目經(jīng)歷,以及如果做出架構(gòu)規(guī)劃的
大數(shù)據(jù)平臺經(jīng)典架構(gòu)