數(shù)倉概要

一、概要

大數(shù)據(jù)平臺由底層至上可分為:原始數(shù)據(jù)層、數(shù)據(jù)倉庫、數(shù)據(jù)應(yīng)用層。

圖來自《數(shù)據(jù)產(chǎn)品經(jīng)理修煉手冊》梁旭鵬


二、原始數(shù)據(jù)層——ODS(Operational Data Store)層:

從數(shù)據(jù)來源來說

ODS層主要從 a.客戶端用戶操作日志(埋點(diǎn),如PV、點(diǎn)擊某按鈕的次數(shù))數(shù)據(jù)、

? ? ? ? ? ? ? ? ? ? ? ? b.業(yè)務(wù)數(shù)據(jù)庫(后端數(shù)據(jù),如成交量、銷售額)? ?獲得數(shù)據(jù)。

從存儲量來說

ODS層一般a.存儲當(dāng)前需要加載的數(shù)據(jù),

? ? ? ? ? ? ? ? ? b.存儲處理完的歷史數(shù)據(jù),一般一定周期后(如3-6個(gè)月,具體看業(yè)務(wù)需要)清除,以此節(jié)省空間。

特點(diǎn):

ODS數(shù)據(jù)結(jié)構(gòu)、邏輯與數(shù)據(jù)來源保持一致,按分鐘跟隨業(yè)務(wù)系統(tǒng)數(shù)據(jù)變化,按天歸檔后匯入DW。

此層目的

a.一個(gè)是對散落多處的業(yè)務(wù)系統(tǒng)數(shù)據(jù)進(jìn)行匯總,便于后續(xù)數(shù)據(jù)的抽取

b.轉(zhuǎn)移一部分查詢生成報(bào)表的壓力,緩解業(yè)務(wù)系統(tǒng)的壓力。

c.便于細(xì)節(jié)數(shù)據(jù)問題的定位查詢。DW層是匯總后的數(shù)據(jù),ODS層與原業(yè)務(wù)系統(tǒng)結(jié)構(gòu)一致,可在此層進(jìn)行定位。

三、數(shù)據(jù)倉庫——DW (Data Warehouse)層:

通過ETL抽?。╡xtract)轉(zhuǎn)換(transform)加載(load))對ODS層數(shù)據(jù)進(jìn)行邏輯加工處理而得到。為了滿足企業(yè)做各種決策的集成數(shù)據(jù)環(huán)境,既不產(chǎn)生數(shù)據(jù),也不消費(fèi)數(shù)據(jù)。

ETL(Extract-Transform-Load),將數(shù)據(jù)從來源端經(jīng)過 抽取、轉(zhuǎn)換、加載 至目的端的過程。

a.抽?。╡xtract):數(shù)據(jù)從數(shù)據(jù)源讀出來

b.轉(zhuǎn)換(transform):把原始數(shù)據(jù)轉(zhuǎn)換成期望的格式、維度,包含數(shù)據(jù)清洗,去除噪音過程。(? 比如:空值處理 / 規(guī)范化數(shù)據(jù)格式 / 拆分?jǐn)?shù)據(jù) / 驗(yàn)證數(shù)據(jù)合法性 / 數(shù)據(jù)替換 / 實(shí)現(xiàn)數(shù)據(jù)規(guī)則過濾 / 數(shù)據(jù)排序 / 數(shù)據(jù)類型統(tǒng)一轉(zhuǎn)換 )

c.加載(load):把處理后的數(shù)據(jù)加載到目標(biāo)處,比如數(shù)據(jù)倉庫

數(shù)倉演變圖-圖來自阿里云云棲社區(qū)-付空

當(dāng)前數(shù)據(jù)倉庫按時(shí)效性需求分類,可分為兩類:

a.實(shí)時(shí)數(shù)倉:實(shí)時(shí)產(chǎn)生結(jié)果

b.離線數(shù)倉:處理和保存大量異構(gòu)復(fù)雜歷史全量數(shù)據(jù)(如T+1的文本、圖像、視頻、音頻);

實(shí)時(shí)數(shù)倉以Kappa架構(gòu)為主,而離線數(shù)倉以傳統(tǒng)大數(shù)據(jù)架構(gòu)為主。Lambda架構(gòu)是兩者的中間態(tài)。

.下圖為離線大數(shù)據(jù)架構(gòu)示例:

離線數(shù)倉架構(gòu)示例-圖來自阿里云云棲社區(qū)-付空

此時(shí)數(shù)倉按匯總處理程度,又可細(xì)分為:

a.基礎(chǔ)層(DWD明細(xì)表)、b.數(shù)據(jù)集市(DM(Data Mart)面向應(yīng)用,依據(jù)業(yè)務(wù)需要做不同維度的聚合匯總,如電商的商品主題、訂單主題、傭金主題、維度表、事實(shí)表,一般是T+1)。

.下圖為實(shí)時(shí)Kappa架構(gòu)示例:


實(shí)時(shí)Kappa架構(gòu)示例?-圖來自阿里云云棲社區(qū)-付空??

四、數(shù)據(jù)應(yīng)用層 —— 消費(fèi)數(shù)據(jù)倉庫的數(shù)據(jù):

應(yīng)用可分為三類:

1)描述事實(shí)類分析應(yīng)用

主要是對當(dāng)前事實(shí)數(shù)據(jù)進(jìn)行可視化展現(xiàn)。比如通過EXCEL\BI工具對常規(guī)業(yè)務(wù)報(bào)表,明細(xì)數(shù)據(jù)表等進(jìn)行可視化展現(xiàn)。

2)預(yù)測性分析應(yīng)用

根據(jù)過去的事實(shí)數(shù)據(jù),通過成熟算法模型對未來業(yè)務(wù)趨勢效果進(jìn)行計(jì)算、預(yù)測。

3)指導(dǎo)意見

基于業(yè)務(wù)經(jīng)驗(yàn)和過去事實(shí)、未來預(yù)測輸出全面分析專題報(bào)告,為商業(yè)決策提供指導(dǎo)意見。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容