1.兩個項目
采集項目&數(shù)據(jù)倉庫項目
- 從功能的角度
采集項目:數(shù)據(jù)的采集、傳輸
數(shù)據(jù)倉庫項目:數(shù)據(jù)的計算為主,同時也存儲數(shù)據(jù)
2.從技術(shù)角度
采集項目:flume,kafka,datax,maxwell
數(shù)據(jù)倉庫項目:Mysql, HDFS, Spark, Flink, MR
2.數(shù)據(jù)庫和數(shù)據(jù)倉庫
- 從名稱上進行區(qū)分
數(shù)據(jù)庫:database
數(shù)據(jù)倉庫:data warehouse - 從數(shù)據(jù)的來源進行區(qū)分
數(shù)據(jù)庫:企業(yè)中基礎(chǔ)核心的業(yè)務(wù)數(shù)據(jù)
數(shù)據(jù)倉庫:數(shù)據(jù)庫中的數(shù)據(jù) - 從數(shù)據(jù)存儲進行區(qū)分
數(shù)據(jù)庫:核心作用就是查找業(yè)務(wù)數(shù)據(jù)(行式存儲、索引、不能存儲海量數(shù)據(jù))
數(shù)據(jù)倉庫:核心作用就是統(tǒng)計分析數(shù)據(jù)(列式存儲、存海量數(shù)據(jù))
4.從數(shù)據(jù)價值進行區(qū)分
數(shù)據(jù)庫:保障全企業(yè)全業(yè)務(wù)的正常運行
數(shù)據(jù)倉庫:統(tǒng)計數(shù)據(jù)、支撐決策,可視化
3.數(shù)據(jù)流轉(zhuǎn)過程

數(shù)據(jù)流轉(zhuǎn)
4.統(tǒng)計分析的基本步驟
技術(shù):Hive On Spark
步驟:

步驟