1.數(shù)據(jù)倉(cāng)庫(kù)概念
(1)數(shù)據(jù)倉(cāng)庫(kù)是為企業(yè)所有決策制定過(guò)程,提供所有系統(tǒng)數(shù)據(jù)支持的戰(zhàn)略集合。
(2)通過(guò)對(duì)數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的分析,可以幫助企業(yè),改進(jìn)業(yè)務(wù)流程、控制成本、提高產(chǎn)品質(zhì)量等。
(3)數(shù)據(jù)倉(cāng)庫(kù),并不是數(shù)據(jù)的最終目的地,而是為數(shù)據(jù)最終目的地做好準(zhǔn)備。這些準(zhǔn)備包括對(duì)數(shù)據(jù)的:清洗、轉(zhuǎn)義、分類、重組、合并、拆分、統(tǒng)計(jì)等。

2.項(xiàng)目技術(shù)如何選型
(1)數(shù)據(jù)采集傳輸:Flume、Kafka、Sqoop、Logstash(ELK套件)、DataX(類似Sqoop)
(2)數(shù)據(jù)存儲(chǔ):Mysql、HDFS、HBase、Redis、MongoDB
(3)數(shù)據(jù)計(jì)算:Hive、Tez、Spark、Flink、Storm
(4)數(shù)據(jù)查詢:Presto、Druid、Impala、Kylin
3.系統(tǒng)數(shù)據(jù)流程設(shè)計(jì)

4.框架版本選型
框架選型盡量不要選擇最新的框架,選擇最新框架半年前左右的穩(wěn)定版。
(1)Apache:運(yùn)維麻煩,組件間兼容性需要自己調(diào)研。(一般大廠使用,技術(shù)實(shí)力雄厚,有專業(yè)的運(yùn)維人員)

(2)CDH:國(guó)內(nèi)使用最多的版本,但CM不開(kāi)源,但其實(shí)對(duì)中小型公司使用來(lái)說(shuō)沒(méi)有影響(建議使用)

(3)HDP:開(kāi)源,可以進(jìn)行二次開(kāi)發(fā),但沒(méi)有CDH穩(wěn)定,國(guó)內(nèi)使用較少。
5.服務(wù)器選型
(1)機(jī)器成本考慮:
物理機(jī):以128G內(nèi)存,20核物理CPU,40線程,8THDD(機(jī)械硬盤(pán))和2TSSD硬盤(pán)(固態(tài)硬盤(pán)),戴爾品牌單臺(tái)報(bào)價(jià)4W出頭,需考慮托管服務(wù)費(fèi)用。一般物理機(jī)壽命5年左右。
云主機(jī):以阿里云為例,差不多相同配置,每年5W。
(2)運(yùn)維成本考慮:
物理機(jī):需要有專業(yè)的運(yùn)維人員。
云主機(jī):很多運(yùn)維工作都由阿里云完成,運(yùn)維相對(duì)較輕松。
6.集群資源規(guī)劃設(shè)計(jì)
1)如何確認(rèn)集群規(guī)模?(假設(shè):每臺(tái)服務(wù)器8T磁盤(pán),128G內(nèi)存)
(1)每天日活躍用戶100萬(wàn),每人一天平均100條:100萬(wàn)* 100條=10000萬(wàn)條
(2)每條日志1K左右,每天1億條:100000000/1024/1024=約100G
(3)半年內(nèi)不擴(kuò)容服務(wù)器來(lái)算:100G* 180天=約18T
(4)保存3副本:18T* 3=54T
(5)預(yù)留20%~30%Buf=54/0.7=77T
(6)算到這:約8T* 10臺(tái)服務(wù)器
2)如果考慮數(shù)倉(cāng)分層?
服務(wù)器將近再擴(kuò)容1-2倍
3)測(cè)試集群服務(wù)器規(guī)劃
