一、概要
大數(shù)據(jù)平臺由底層至上可分為:原始數(shù)據(jù)層、數(shù)據(jù)倉庫、數(shù)據(jù)應(yīng)用層。

二、原始數(shù)據(jù)層——ODS(Operational Data Store)層:
從數(shù)據(jù)來源來說
ODS層主要從 a.客戶端用戶操作日志(埋點(diǎn),如PV、點(diǎn)擊某按鈕的次數(shù))數(shù)據(jù)、
? ? ? ? ? ? ? ? ? ? ? ? b.業(yè)務(wù)數(shù)據(jù)庫(后端數(shù)據(jù),如成交量、銷售額)? ?獲得數(shù)據(jù)。
從存儲量來說
ODS層一般a.存儲當(dāng)前需要加載的數(shù)據(jù),
? ? ? ? ? ? ? ? ? b.存儲處理完的歷史數(shù)據(jù),一般一定周期后(如3-6個(gè)月,具體看業(yè)務(wù)需要)清除,以此節(jié)省空間。
特點(diǎn):
ODS數(shù)據(jù)結(jié)構(gòu)、邏輯與數(shù)據(jù)來源保持一致,按分鐘跟隨業(yè)務(wù)系統(tǒng)數(shù)據(jù)變化,按天歸檔后匯入DW。
此層目的:
a.一個(gè)是對散落多處的業(yè)務(wù)系統(tǒng)數(shù)據(jù)進(jìn)行匯總,便于后續(xù)數(shù)據(jù)的抽取
b.轉(zhuǎn)移一部分查詢生成報(bào)表的壓力,緩解業(yè)務(wù)系統(tǒng)的壓力。
c.便于細(xì)節(jié)數(shù)據(jù)問題的定位查詢。DW層是匯總后的數(shù)據(jù),ODS層與原業(yè)務(wù)系統(tǒng)結(jié)構(gòu)一致,可在此層進(jìn)行定位。
三、數(shù)據(jù)倉庫——DW (Data Warehouse)層:
通過ETL(抽?。╡xtract)轉(zhuǎn)換(transform)加載(load))對ODS層數(shù)據(jù)進(jìn)行邏輯加工處理而得到。為了滿足企業(yè)做各種決策的集成數(shù)據(jù)環(huán)境,既不產(chǎn)生數(shù)據(jù),也不消費(fèi)數(shù)據(jù)。
ETL(Extract-Transform-Load),將數(shù)據(jù)從來源端經(jīng)過 抽取、轉(zhuǎn)換、加載 至目的端的過程。
a.抽?。╡xtract):數(shù)據(jù)從數(shù)據(jù)源讀出來
b.轉(zhuǎn)換(transform):把原始數(shù)據(jù)轉(zhuǎn)換成期望的格式、維度,包含數(shù)據(jù)清洗,去除噪音過程。(? 比如:空值處理 / 規(guī)范化數(shù)據(jù)格式 / 拆分?jǐn)?shù)據(jù) / 驗(yàn)證數(shù)據(jù)合法性 / 數(shù)據(jù)替換 / 實(shí)現(xiàn)數(shù)據(jù)規(guī)則過濾 / 數(shù)據(jù)排序 / 數(shù)據(jù)類型統(tǒng)一轉(zhuǎn)換 )
c.加載(load):把處理后的數(shù)據(jù)加載到目標(biāo)處,比如數(shù)據(jù)倉庫

當(dāng)前數(shù)據(jù)倉庫按時(shí)效性需求分類,可分為兩類:
a.實(shí)時(shí)數(shù)倉:實(shí)時(shí)產(chǎn)生結(jié)果
b.離線數(shù)倉:處理和保存大量異構(gòu)復(fù)雜歷史全量數(shù)據(jù)(如T+1的文本、圖像、視頻、音頻);
實(shí)時(shí)數(shù)倉以Kappa架構(gòu)為主,而離線數(shù)倉以傳統(tǒng)大數(shù)據(jù)架構(gòu)為主。Lambda架構(gòu)是兩者的中間態(tài)。
.下圖為離線大數(shù)據(jù)架構(gòu)示例:

此時(shí)數(shù)倉按匯總處理程度,又可細(xì)分為:
a.基礎(chǔ)層(DWD明細(xì)表)、b.數(shù)據(jù)集市(DM(Data Mart)面向應(yīng)用,依據(jù)業(yè)務(wù)需要做不同維度的聚合匯總,如電商的商品主題、訂單主題、傭金主題、維度表、事實(shí)表,一般是T+1)。
.下圖為實(shí)時(shí)Kappa架構(gòu)示例:

四、數(shù)據(jù)應(yīng)用層
——
消費(fèi)數(shù)據(jù)倉庫的數(shù)據(jù):
應(yīng)用可分為三類:
1)描述事實(shí)類分析應(yīng)用
主要是對當(dāng)前事實(shí)數(shù)據(jù)進(jìn)行可視化展現(xiàn)。比如通過EXCEL\BI工具對常規(guī)業(yè)務(wù)報(bào)表,明細(xì)數(shù)據(jù)表等進(jìn)行可視化展現(xiàn)。
2)預(yù)測性分析應(yīng)用
根據(jù)過去的事實(shí)數(shù)據(jù),通過成熟算法模型對未來業(yè)務(wù)趨勢效果進(jìn)行計(jì)算、預(yù)測。
3)指導(dǎo)意見
基于業(yè)務(wù)經(jīng)驗(yàn)和過去事實(shí)、未來預(yù)測輸出全面分析專題報(bào)告,為商業(yè)決策提供指導(dǎo)意見。