二、元數(shù)據(jù)梳理和數(shù)據(jù)建模

前言

?? 因近期以數(shù)據(jù)分析師身份全程參與了一個數(shù)據(jù)中臺項目。針對繁瑣的元數(shù)據(jù)及多變的需求,歸納整理出一套方法或者叫工作規(guī)范流程亦可。范圍覆蓋了自下而上[1]的元數(shù)據(jù)梳理、數(shù)據(jù)定義、數(shù)據(jù)模型構(gòu)建及原型圖設計,和自上而下[2]的業(yè)務理解、業(yè)務指標體系搭建、指標管理及指標可視化。
?? 文中舉例電商的商品與訂單,僅為形象表述定義,與項目無關(guān)。

01、數(shù)據(jù)定義-自下而上

?? 要理解業(yè)務,就要對元數(shù)據(jù)進行梳理,避免毫無章法的查表,建議先對元數(shù)據(jù)進行數(shù)據(jù)定義,主要是分為單表屬性定義和表字段定義。

表級屬性

  • 實體(Entity) 具有唯一主鍵ID(Key),以及包含基本信息(名稱、屬性等)的對象 人、物、地點、組織等
  • 行為(Behavior) 在某個時間(或時間段內(nèi)),由某個實體進行某項動作,并產(chǎn)生某種結(jié)果(如度量、事件) 交易、出站、入住、申報、選課、考試等
  • 擴展(supplement) 用來修飾或補充實體、行為的屬性、狀態(tài)、度量等 企業(yè)的研發(fā)投入占比、企業(yè)的主營業(yè)務
  • 軌跡(Track) 在某個時間(或時間段內(nèi)),由某個實體進行某項動作,并產(chǎn)生某種軌跡 位置定位數(shù)據(jù)、地點(卡口)等
  • 關(guān)系(Relation) 實體與實體之間的關(guān)系 上下級、父子、所屬部門等
  • 碼表(Code) 用于表示某種狀態(tài)、屬性 1 = 是,0 = 否

字段級屬性

  • 維度(Dimension) 用來描述實體或者行為的某種屬性、類別 年齡段、性別、職業(yè)、賬戶類型、戶口類型等

  • 度量(Counter) 某種行為產(chǎn)生的數(shù)值型結(jié)果 買入500個、考試得分20分等

  • 事件(Event) 某種行為產(chǎn)生的非數(shù)值型結(jié)果 工單(包含標題、內(nèi)容)

  • image

02、數(shù)據(jù)關(guān)系定義-自下而上

?? 在“01、數(shù)據(jù)定義” 完成后,需要考慮表與表之間的關(guān)系。以實體出發(fā)尋找其行為、擴展信息等,劃分出不同的業(yè)務域。

*
image

03、數(shù)據(jù)模型搭建

??數(shù)據(jù)模型搭建的目的就是為指導ETL工程師能快速的清洗、加工、處理數(shù)據(jù)。即告訴ETL工程師取哪些表,怎么構(gòu)建dwd、dws、adm表。
其中ods、dwd層是必須構(gòu)建的,dws層基于數(shù)據(jù)復雜度及數(shù)據(jù)量而定,可直接構(gòu)建ods、dwd、adm 三層。
思路參考: [https://www.cnblogs.com/lxbmaomao/p/9821209.html]

模型管理
image.png

ER圖示意
image

數(shù)據(jù)分層:

image

ods元數(shù)據(jù)層-數(shù)據(jù)分層

  • 一般為元數(shù)據(jù),例如 <01、數(shù)據(jù)定義的表>
    • 表ods_aaa1_xxx
    • 信息表 ods_aaa2_xxx
    • 定價表 ods_aaa3_xxx
    • 廠商表 ods_aaa4_xxx
    • 訂單表 ods_aaa5_xxx

dwd主題層-數(shù)據(jù)分層

??一般建立大寬表,以事實表或者實體表盡可能的關(guān)聯(lián)信息,避免百分比數(shù)據(jù)(因為比率數(shù)據(jù)無法做累加累減),此處dwd表不一定追求一步生成,“目標dwd表”可由多張“過程dwd表”生成。

  • 例如 02、數(shù)據(jù)關(guān)系定義劃分的域
    • 訂單域 dwd_order_xx
    • 商品域 dwd_sku_xxx

dws專題層-數(shù)據(jù)分層

??該層的建立就要考慮應用了(指標),思維方向是<自上而下>的。即從業(yè)務指標出發(fā),考慮指標維度,從而去搭建適配的dws層。

  • 按照實體進行維度聚合,例如:
    • 訂單銷售額、客單價等訂單指標: dws_orderinfo_xx,

adm應用層-數(shù)據(jù)分層

??既可以用作BI可視乎展示也可以用于結(jié)果集數(shù)據(jù)分享。其構(gòu)建思路,是要考慮服務器的性能和指標的耦合性,要做到一定的平衡。例如adm層的應用表大而寬,對于指標取數(shù)是友好的,即可從一張表獲取多個指標,但是adm層每天的日增或者全量運行,服務器壓力可能會很大;反之應用表假如只針對一個指標,則耦合性太高,擴展性低,適合于業(yè)務固定場景。

04、頁面指標管理

??此步驟主要是針對BI數(shù)據(jù)可視化,便于管理大屏指標與“03、數(shù)據(jù)模型搭建”構(gòu)建的數(shù)據(jù)模型關(guān)系。

  • 例如:

    • 指標:訂單數(shù)環(huán)比

    • 來源模型:訂單信息(adm_dws_orderinfo_xx<---dws_orderinfo_xx)


      image.png

  1. 即面向元數(shù)據(jù),面向系統(tǒng)甚至app; ?

  2. 即面向業(yè)務指標、面向運營方需求; ?

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容