大數(shù)據(jù)相關(guān)技術(shù)

大數(shù)據(jù)集群搭建

主要基于ambari來同一管理監(jiān)控集群

主要安裝步驟:

準(zhǔn)備機(jī)器,修改hostname,固定ip等

機(jī)器間免密碼登錄

host機(jī)器開啟httpd服務(wù),準(zhǔn)備本地倉庫

安裝ambari setup

訪問頁面,通過ambari頁面安裝hdp

集群監(jiān)控:

依靠ambari頁面的監(jiān)控,缺點(diǎn):需要人為的關(guān)注平臺界面

改造:通過在主節(jié)點(diǎn)添加各機(jī)器的服務(wù)名或端口監(jiān)控,通過主程序分發(fā)到集群各機(jī)器,異常消息通過kafka推送,最后在主節(jié)點(diǎn)消費(fèi)topic,有異常則推送郵件通知

繼續(xù)升級:服務(wù)掛掉,自動重啟一次,如果再失敗,則郵件通知....(可以做)

集群主要的服務(wù)有:

hdfs:

主要負(fù)責(zé)數(shù)據(jù)存儲,namenode負(fù)責(zé)管理元數(shù)據(jù),datanode負(fù)責(zé)存儲數(shù)據(jù)

namenode的高可用

頁面訪問集群的健康及存儲情況

hdfs的跨機(jī)房數(shù)據(jù)同步? distcp原理

疑問:小文件合并??

druid

一個(gè)為在大數(shù)據(jù)集之上做實(shí)時(shí)統(tǒng)計(jì)分析而設(shè)計(jì)的開源數(shù)據(jù)存儲

不支持sql,查詢需要寫query.json 配置,繁瑣,通過restful 調(diào)用

alluxio

drill

MapReduce

主要用于hive的批處理

MapReduce原理

MapReduce參數(shù)優(yōu)化??

yarn

資源管理

nodemanager管理

與mesos資源管理的區(qū)別

hive

第一代執(zhí)行引擎:MapReduce

第二代執(zhí)行引擎:hive on tez and on yarn

第三代執(zhí)行引擎:hive + llap

hive 資源隔離

hive 的優(yōu)化

hive數(shù)據(jù)傾斜原因,怎么解決??

hbase

nosql數(shù)據(jù)庫

詳細(xì)??

應(yīng)用場景??

zookeeper

協(xié)調(diào)集群服務(wù),及收集服務(wù)的信息信息,記錄狀態(tài)信息

具體的作用???

kafka

最流行的消息隊(duì)列,特點(diǎn):吞吐量大,

與其他消息隊(duì)列的比較

基于kafka的衍生產(chǎn)品:

confluent:

gobblin:

kafka sql

spark

語法簡潔,可以用于批處理也可以用于流數(shù)據(jù)處理(streaming)


spark優(yōu)化??

flume

日志收集

sqoop

用于rdbms跟hdfs之間的數(shù)據(jù)導(dǎo)入導(dǎo)出

使用

缺點(diǎn):到處扔java文件

衍生到阿里的導(dǎo)數(shù)工具:datax

storm

流數(shù)據(jù)處理,效率高

缺點(diǎn),只負(fù)責(zé)數(shù)據(jù)計(jì)算,不負(fù)責(zé)存儲

flink

使用??

oozie調(diào)度

大數(shù)據(jù)調(diào)度平臺,支持頁面配置任務(wù)

缺點(diǎn):調(diào)度日志顯示不明顯,需要后臺查看

其他的大數(shù)據(jù)調(diào)度工具???

atlas元數(shù)據(jù)管理

沒有具體了解??

ranger權(quán)限控制

大數(shù)據(jù)平臺的權(quán)限控制機(jī)制,可以管理如下服務(wù):

hdfs plugins

hbase plugins

kafka plugins

yarn plugin

storm plugin

hive plugin

atlas plugin

kerberos安全管理

機(jī)制??

presto插件

ambari添加repo,頁面統(tǒng)一管理presto服務(wù)啟停

基于內(nèi)存的分布式查詢引擎,可以查詢hive和rdbms數(shù)據(jù),速率快

管理用于 select ,drop,create table權(quán)限

缺點(diǎn):語法部分不支持,支持自定義函數(shù)

kylin

預(yù)處理cube,通過提前構(gòu)建度量計(jì)算,查詢效率高,

本身計(jì)算基于MapReduce或者spark,不能實(shí)時(shí)構(gòu)建cube查詢,只能通過調(diào)度,來定時(shí)構(gòu)建cube

大數(shù)據(jù)平臺處理的流程介紹

采集

數(shù)據(jù)源:

mysql:主要使用了select * xxx > xxx.txt? 落地文件,做好結(jié)果行數(shù)校驗(yàn)工作

文本:

mongo:采用mongoexport 工具導(dǎo)出 到文本

es:采用spark程序,來導(dǎo)出數(shù)據(jù)到文本

存儲

主要用于hdfs存儲

如何處理小文件??

hive數(shù)據(jù)倉庫存儲格式的迭代:? textfile ->? rcfile -> orcfile (parquet)

三種存儲格式的區(qū)別,用數(shù)據(jù)說話

計(jì)算

主要的計(jì)算方式有:

hive的 MapReduce? 或者tez(主要)

spark來處理(輔助)

查詢

ambari的查詢平臺,通過ldap用戶登錄管理,ranger權(quán)限管理

presto:基于yanagishima平臺或者airpal平臺來實(shí)現(xiàn)presto查詢hive數(shù)據(jù)(olap)

應(yīng)用

構(gòu)建數(shù)據(jù)倉庫

報(bào)表平臺

風(fēng)控平臺

大數(shù)據(jù)平臺待優(yōu)化

資源的合理使用:避免資源閑置浪費(fèi),合理實(shí)現(xiàn)資源隔離?

查詢緩存:統(tǒng)一執(zhí)行入口,先從緩存數(shù)據(jù) -> presto執(zhí)行 -> mapreduce 執(zhí)行

top-k緩存

數(shù)據(jù)倉庫中表使用情況統(tǒng)計(jì),發(fā)現(xiàn)潛在問題,及時(shí)昨天模型調(diào)整

欠缺的方面:

業(yè)務(wù)方面

模型設(shè)計(jì)方面

用戶畫像

數(shù)據(jù)分析

工作中的項(xiàng)目經(jīng)歷,以及如果做出架構(gòu)規(guī)劃的

大數(shù)據(jù)平臺經(jīng)典架構(gòu)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容