數(shù)倉--DW--Hadoop數(shù)倉實踐Case-08-退化維度

退化維度概述

  • 退化維度,該技術(shù)減少維度的數(shù)量, 簡化維度數(shù)據(jù)倉庫模式。 簡單的模式比復雜的更容易理解, 也有更好的查詢性能。
  • 有時, 維度表中除了業(yè)務(wù)主鍵外沒有其他內(nèi)容。 例如, 在我們的銷售訂單示例中, 訂單維度表除了訂單號, 沒有任何其他屬性, 而訂單號是事務(wù)表的主鍵。 我們將這種維度稱為退化維度。 業(yè)務(wù)系統(tǒng)中的主鍵通常是不允許修改的。 銷售訂單只能新增, 不能修改已經(jīng)存在的訂單號, 也不會刪除訂單記錄。 因此訂單維度表也不會有歷史數(shù)據(jù)版本問題。 退化維度常見于事務(wù)和累積快照事實表中。
  • 銷售訂單事實表中的每行記錄都包括作為退化維度的訂單號代理鍵。 在操作型系統(tǒng)中, 銷售訂單表是最細節(jié)事務(wù)表, 訂單號是訂單表的主鍵, 每條訂單都可以通過訂單號定位, 訂單中的其他屬性, 如客戶、 產(chǎn)品等, 都依賴于訂單號。 也就是說,訂單號把與訂單屬性有關(guān)的表聯(lián)系起來。 但是, 在維度模型中, 事實表中的訂單號代理鍵通常與訂單屬性的其他表沒有關(guān)聯(lián)。 可以將訂單事實表所有關(guān)心的屬性分類到不同的維度中, 例如, 訂單日期關(guān)聯(lián)到日期維度, 客戶關(guān)聯(lián)到客戶維度等。 在事實表中保留訂單號最主要的原因是用于連接數(shù)據(jù)倉庫與操作型系統(tǒng), 它也可以起到事實表主鍵的作用。 某些情況下, 可能會有一個或兩個屬性仍然屬于訂單而不屬于其他維度。 當然, 此時訂單維度就不再是退化維度了。
  • 退化維度通常被保留作為操作型事務(wù)的標識符。 實際上可以將訂單號作為一個屬性加入到事實表中。 這樣訂單維度就沒有數(shù)據(jù)倉庫需要的任何數(shù)據(jù), 此時就可以退化訂單維度。 需要把退化維度的相關(guān)數(shù)據(jù)遷移到事實表中, 然后刪除退化的維度。
  • 注意, 操作型事務(wù)中的控制號碼, 例如, 訂單號碼、 發(fā)票號碼、 提貨單號碼等通常產(chǎn)生空的維度并且表示為事務(wù)事實表中的退化維度。

退化訂單維度

  • 使用維度退化技術(shù)時先要識別數(shù)據(jù), 分析從來不用的數(shù)據(jù)列。 例如, 訂單維度的order_number列就可能是這樣的一列。 如果用戶想看事務(wù)的細節(jié), 還需要訂單號。 因此, 在退化訂單維度前, 要把訂單號遷移到sales_order_fact事實表。
    下圖為修改過的模式:


    退化訂單維度.PNG
  • 在實際開發(fā)中,維度的退化,是需要在數(shù)倉建模設(shè)計之前規(guī)劃好的,不建議在數(shù)倉建設(shè)的途中進行退化維度,成本比較高。

  • 按順序執(zhí)行以下四步進行維度退化,source_order_dim維度退化。
    (1)給dw.sale_order_fact表添加order_number;
    (2)把source.source_order_dim中的訂單號遷移到dw.sale_order_fact表中;
    (3)刪除dw.sale_order_fact表中的order_sk;
    (4)刪除source.source_order_dim表,維度退化完成。

修改定期裝載腳本

  • 采用"騰籠換鳥"的方式將dw.sale_order_fact進行替換、重寫
    腳本如下:
-- 修改dw.sale_order_fact名稱,重命名
alter table dw.sale_order_fact rename to dw.sale_order_fact_old;
-- 創(chuàng)建新表,添加order_number列
create table 
    dw.sale_order_fact(
    order_number int comment 'order_number',
    customer_sk int comment 'customer surrogate key',
    product_sk int comment 'product surrogate key',
    order_date_sk string comment 'date surrogate key',
    request_delivery_date_sk int comment 'request_delivery_date_sk',
    order_amount decimal (10 , 2 ) comment'order amount',
    order_quantity int comment 'order_quantity'
    )
clustered by (order_number)
into 8 buckets
stored as orc tblproperties('transactional'='true');
-- 將數(shù)據(jù)插入到新建的表中
insert into table
    dw.sale_order_fact
select
    t2.order_number,
    t1.customer_sk,
    t1.product_sk,
    t1.order_date_sk,
    t1.request_delivery_date_sk,
    t1.order_amount,
    t1.order_quantity
from 
    dw.sale_order_fact_old t1
inner join
    source.source_order_dim t2
on
    t1.order_sk=t2.order_key;
-- 刪除舊表中的數(shù)據(jù)
drop table dw.sale_order_fact_old;
  • 語句說明,語句的策略就是將老的數(shù)據(jù)重新加載到新定義的規(guī)則中。
  • 另外需要對定期裝載腳本進行修改,不需要再裝載source.source_order_dim了。
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容