前言
?? 因近期以數(shù)據(jù)分析師身份全程參與了一個數(shù)據(jù)中臺項目。針對繁瑣的元數(shù)據(jù)及多變的需求,歸納整理出一套方法或者叫工作規(guī)范流程亦可。范圍覆蓋了自下而上[1]的元數(shù)據(jù)梳理、數(shù)據(jù)定義、數(shù)據(jù)模型構(gòu)建及原型圖設計,和自上而下[2]的業(yè)務理解、業(yè)務指標體系搭建、指標管理及指標可視化。
?? 文中舉例電商的商品與訂單,僅為形象表述定義,與項目無關(guān)。
01、數(shù)據(jù)定義-自下而上
?? 要理解業(yè)務,就要對元數(shù)據(jù)進行梳理,避免毫無章法的查表,建議先對元數(shù)據(jù)進行數(shù)據(jù)定義,主要是分為單表屬性定義和表字段定義。
表級屬性
- 實體(Entity) 具有唯一主鍵ID(Key),以及包含基本信息(名稱、屬性等)的對象 人、物、地點、組織等
- 行為(Behavior) 在某個時間(或時間段內(nèi)),由某個實體進行某項動作,并產(chǎn)生某種結(jié)果(如度量、事件) 交易、出站、入住、申報、選課、考試等
- 擴展(supplement) 用來修飾或補充實體、行為的屬性、狀態(tài)、度量等 企業(yè)的研發(fā)投入占比、企業(yè)的主營業(yè)務
- 軌跡(Track) 在某個時間(或時間段內(nèi)),由某個實體進行某項動作,并產(chǎn)生某種軌跡 位置定位數(shù)據(jù)、地點(卡口)等
- 關(guān)系(Relation) 實體與實體之間的關(guān)系 上下級、父子、所屬部門等
- 碼表(Code) 用于表示某種狀態(tài)、屬性 1 = 是,0 = 否
字段級屬性
維度(Dimension) 用來描述實體或者行為的某種屬性、類別 年齡段、性別、職業(yè)、賬戶類型、戶口類型等
度量(Counter) 某種行為產(chǎn)生的數(shù)值型結(jié)果 買入500個、考試得分20分等
事件(Event) 某種行為產(chǎn)生的非數(shù)值型結(jié)果 工單(包含標題、內(nèi)容)
- image
02、數(shù)據(jù)關(guān)系定義-自下而上
?? 在“01、數(shù)據(jù)定義” 完成后,需要考慮表與表之間的關(guān)系。以實體出發(fā)尋找其行為、擴展信息等,劃分出不同的業(yè)務域。

03、數(shù)據(jù)模型搭建
??數(shù)據(jù)模型搭建的目的就是為指導ETL工程師能快速的清洗、加工、處理數(shù)據(jù)。即告訴ETL工程師取哪些表,怎么構(gòu)建dwd、dws、adm表。
其中ods、dwd層是必須構(gòu)建的,dws層基于數(shù)據(jù)復雜度及數(shù)據(jù)量而定,可直接構(gòu)建ods、dwd、adm 三層。
思路參考: [https://www.cnblogs.com/lxbmaomao/p/9821209.html]
模型管理
image.png

ER圖示意
image

數(shù)據(jù)分層:

ods元數(shù)據(jù)層-數(shù)據(jù)分層
- 一般為元數(shù)據(jù),例如 <01、數(shù)據(jù)定義的表>
- 表ods_aaa1_xxx
- 信息表 ods_aaa2_xxx
- 定價表 ods_aaa3_xxx
- 廠商表 ods_aaa4_xxx
- 訂單表 ods_aaa5_xxx
dwd主題層-數(shù)據(jù)分層
??一般建立大寬表,以事實表或者實體表盡可能的關(guān)聯(lián)信息,避免百分比數(shù)據(jù)(因為比率數(shù)據(jù)無法做累加累減),此處dwd表不一定追求一步生成,“目標dwd表”可由多張“過程dwd表”生成。
- 例如 02、數(shù)據(jù)關(guān)系定義劃分的域
- 訂單域 dwd_order_xx
- 商品域 dwd_sku_xxx
dws專題層-數(shù)據(jù)分層
??該層的建立就要考慮應用了(指標),思維方向是<自上而下>的。即從業(yè)務指標出發(fā),考慮指標維度,從而去搭建適配的dws層。
- 按照實體進行維度聚合,例如:
- 訂單銷售額、客單價等訂單指標: dws_orderinfo_xx,
adm應用層-數(shù)據(jù)分層
??既可以用作BI可視乎展示也可以用于結(jié)果集數(shù)據(jù)分享。其構(gòu)建思路,是要考慮服務器的性能和指標的耦合性,要做到一定的平衡。例如adm層的應用表大而寬,對于指標取數(shù)是友好的,即可從一張表獲取多個指標,但是adm層每天的日增或者全量運行,服務器壓力可能會很大;反之應用表假如只針對一個指標,則耦合性太高,擴展性低,適合于業(yè)務固定場景。
04、頁面指標管理
??此步驟主要是針對BI數(shù)據(jù)可視化,便于管理大屏指標與“03、數(shù)據(jù)模型搭建”構(gòu)建的數(shù)據(jù)模型關(guān)系。
-
例如:
指標:訂單數(shù)環(huán)比
-
來源模型:訂單信息(adm_dws_orderinfo_xx<---dws_orderinfo_xx)
image.png

