99精在线,日本宅男视频,久操香蕉视频

大數(shù)據(jù)集群搭建

主要基于ambari來同一管理監(jiān)控集群

主要安裝步驟：

準(zhǔn)備機(jī)器，修改hostname，固定ip等

機(jī)器間免密碼登錄

host機(jī)器開啟httpd服務(wù)，準(zhǔn)備本地倉庫

安裝ambari setup

訪問頁面，通過ambari頁面安裝hdp

集群監(jiān)控：

依靠ambari頁面的監(jiān)控，缺點(diǎn)：需要人為的關(guān)注平臺界面

改造：通過在主節(jié)點(diǎn)添加各機(jī)器的服務(wù)名或端口監(jiān)控，通過主程序分發(fā)到集群各機(jī)器，異常消息通過kafka推送，最后在主節(jié)點(diǎn)消費(fèi)topic，有異常則推送郵件通知

繼續(xù)升級：服務(wù)掛掉，自動重啟一次，如果再失敗，則郵件通知....(可以做)

集群主要的服務(wù)有：

hdfs：

主要負(fù)責(zé)數(shù)據(jù)存儲，namenode負(fù)責(zé)管理元數(shù)據(jù)，datanode負(fù)責(zé)存儲數(shù)據(jù)

namenode的高可用

頁面訪問集群的健康及存儲情況

hdfs的跨機(jī)房數(shù)據(jù)同步? distcp原理

疑問：小文件合并？？

druid

一個(gè)為在大數(shù)據(jù)集之上做實(shí)時(shí)統(tǒng)計(jì)分析而設(shè)計(jì)的開源數(shù)據(jù)存儲

不支持sql，查詢需要寫query.json 配置，繁瑣，通過restful 調(diào)用

alluxio

drill

MapReduce

主要用于hive的批處理

MapReduce原理

MapReduce參數(shù)優(yōu)化？？

yarn

資源管理

nodemanager管理

與mesos資源管理的區(qū)別

hive

第一代執(zhí)行引擎：MapReduce

第二代執(zhí)行引擎：hive on tez and on yarn

第三代執(zhí)行引擎：hive + llap

hive 資源隔離

hive 的優(yōu)化

hive數(shù)據(jù)傾斜原因，怎么解決？？

hbase

nosql數(shù)據(jù)庫

詳細(xì)？？

應(yīng)用場景？？

zookeeper

協(xié)調(diào)集群服務(wù)，及收集服務(wù)的信息信息，記錄狀態(tài)信息

具體的作用？？？

kafka

最流行的消息隊(duì)列，特點(diǎn)：吞吐量大，

與其他消息隊(duì)列的比較

基于kafka的衍生產(chǎn)品：

confluent：

gobblin：

kafka sql

spark

語法簡潔，可以用于批處理也可以用于流數(shù)據(jù)處理(streaming)

spark優(yōu)化？？

flume

日志收集

sqoop

用于rdbms跟hdfs之間的數(shù)據(jù)導(dǎo)入導(dǎo)出

使用

缺點(diǎn)：到處扔java文件

衍生到阿里的導(dǎo)數(shù)工具：datax

storm

流數(shù)據(jù)處理，效率高

缺點(diǎn)，只負(fù)責(zé)數(shù)據(jù)計(jì)算，不負(fù)責(zé)存儲

flink

使用？？

oozie調(diào)度

大數(shù)據(jù)調(diào)度平臺，支持頁面配置任務(wù)

缺點(diǎn)：調(diào)度日志顯示不明顯，需要后臺查看

其他的大數(shù)據(jù)調(diào)度工具？？？

atlas元數(shù)據(jù)管理

沒有具體了解？？

ranger權(quán)限控制

大數(shù)據(jù)平臺的權(quán)限控制機(jī)制，可以管理如下服務(wù)：

hdfs plugins

hbase plugins

kafka plugins

yarn plugin

storm plugin

hive plugin

atlas plugin

kerberos安全管理

機(jī)制？？

presto插件

ambari添加repo，頁面統(tǒng)一管理presto服務(wù)啟停

基于內(nèi)存的分布式查詢引擎，可以查詢hive和rdbms數(shù)據(jù)，速率快

管理用于 select ,drop,create table權(quán)限

缺點(diǎn)：語法部分不支持，支持自定義函數(shù)

kylin

預(yù)處理cube，通過提前構(gòu)建度量計(jì)算，查詢效率高，

本身計(jì)算基于MapReduce或者spark，不能實(shí)時(shí)構(gòu)建cube查詢，只能通過調(diào)度，來定時(shí)構(gòu)建cube

大數(shù)據(jù)平臺處理的流程介紹

采集

數(shù)據(jù)源：

mysql：主要使用了select * xxx > xxx.txt? 落地文件，做好結(jié)果行數(shù)校驗(yàn)工作

文本：

mongo：采用mongoexport 工具導(dǎo)出到文本

es：采用spark程序，來導(dǎo)出數(shù)據(jù)到文本

存儲

主要用于hdfs存儲

如何處理小文件？？

hive數(shù)據(jù)倉庫存儲格式的迭代：? textfile ->? rcfile -> orcfile （parquet）

三種存儲格式的區(qū)別，用數(shù)據(jù)說話

計(jì)算

主要的計(jì)算方式有：

hive的 MapReduce? 或者tez（主要）

spark來處理（輔助）

查詢

ambari的查詢平臺，通過ldap用戶登錄管理，ranger權(quán)限管理

presto：基于yanagishima平臺或者airpal平臺來實(shí)現(xiàn)presto查詢hive數(shù)據(jù)（olap）

應(yīng)用

構(gòu)建數(shù)據(jù)倉庫

報(bào)表平臺

風(fēng)控平臺

大數(shù)據(jù)平臺待優(yōu)化

資源的合理使用：避免資源閑置浪費(fèi)，合理實(shí)現(xiàn)資源隔離?

查詢緩存：統(tǒng)一執(zhí)行入口，先從緩存數(shù)據(jù) -> presto執(zhí)行 -> mapreduce 執(zhí)行

top-k緩存

數(shù)據(jù)倉庫中表使用情況統(tǒng)計(jì)，發(fā)現(xiàn)潛在問題，及時(shí)昨天模型調(diào)整

欠缺的方面：

業(yè)務(wù)方面

模型設(shè)計(jì)方面

用戶畫像

數(shù)據(jù)分析

工作中的項(xiàng)目經(jīng)歷，以及如果做出架構(gòu)規(guī)劃的

大數(shù)據(jù)平臺經(jīng)典架構(gòu)

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

大數(shù)據(jù)相關(guān)技術(shù)

大數(shù)據(jù)相關(guān)技術(shù)

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

大數(shù)據(jù)相關(guān)技術(shù)

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av