退化維度概述
- 退化維度,該技術(shù)減少維度的數(shù)量, 簡化維度數(shù)據(jù)倉庫模式。 簡單的模式比復雜的更容易理解, 也有更好的查詢性能。
- 有時, 維度表中除了業(yè)務(wù)主鍵外沒有其他內(nèi)容。 例如, 在我們的銷售訂單示例中, 訂單維度表除了訂單號, 沒有任何其他屬性, 而訂單號是事務(wù)表的主鍵。 我們將這種維度稱為退化維度。 業(yè)務(wù)系統(tǒng)中的主鍵通常是不允許修改的。 銷售訂單只能新增, 不能修改已經(jīng)存在的訂單號, 也不會刪除訂單記錄。 因此訂單維度表也不會有歷史數(shù)據(jù)版本問題。 退化維度常見于事務(wù)和累積快照事實表中。
- 銷售訂單事實表中的每行記錄都包括作為退化維度的訂單號代理鍵。 在操作型系統(tǒng)中, 銷售訂單表是最細節(jié)事務(wù)表, 訂單號是訂單表的主鍵, 每條訂單都可以通過訂單號定位, 訂單中的其他屬性, 如客戶、 產(chǎn)品等, 都依賴于訂單號。 也就是說,訂單號把與訂單屬性有關(guān)的表聯(lián)系起來。 但是, 在維度模型中, 事實表中的訂單號代理鍵通常與訂單屬性的其他表沒有關(guān)聯(lián)。 可以將訂單事實表所有關(guān)心的屬性分類到不同的維度中, 例如, 訂單日期關(guān)聯(lián)到日期維度, 客戶關(guān)聯(lián)到客戶維度等。 在事實表中保留訂單號最主要的原因是用于連接數(shù)據(jù)倉庫與操作型系統(tǒng), 它也可以起到事實表主鍵的作用。 某些情況下, 可能會有一個或兩個屬性仍然屬于訂單而不屬于其他維度。 當然, 此時訂單維度就不再是退化維度了。
- 退化維度通常被保留作為操作型事務(wù)的標識符。 實際上可以將訂單號作為一個屬性加入到事實表中。 這樣訂單維度就沒有數(shù)據(jù)倉庫需要的任何數(shù)據(jù), 此時就可以退化訂單維度。 需要把退化維度的相關(guān)數(shù)據(jù)遷移到事實表中, 然后刪除退化的維度。
- 注意, 操作型事務(wù)中的控制號碼, 例如, 訂單號碼、 發(fā)票號碼、 提貨單號碼等通常產(chǎn)生空的維度并且表示為事務(wù)事實表中的退化維度。
退化訂單維度
-
使用維度退化技術(shù)時先要識別數(shù)據(jù), 分析從來不用的數(shù)據(jù)列。 例如, 訂單維度的order_number列就可能是這樣的一列。 如果用戶想看事務(wù)的細節(jié), 還需要訂單號。 因此, 在退化訂單維度前, 要把訂單號遷移到sales_order_fact事實表。
下圖為修改過的模式:
退化訂單維度.PNG 在實際開發(fā)中,維度的退化,是需要在數(shù)倉建模設(shè)計之前規(guī)劃好的,不建議在數(shù)倉建設(shè)的途中進行退化維度,成本比較高。
按順序執(zhí)行以下四步進行維度退化,source_order_dim維度退化。
(1)給dw.sale_order_fact表添加order_number;
(2)把source.source_order_dim中的訂單號遷移到dw.sale_order_fact表中;
(3)刪除dw.sale_order_fact表中的order_sk;
(4)刪除source.source_order_dim表,維度退化完成。
修改定期裝載腳本
- 采用"騰籠換鳥"的方式將dw.sale_order_fact進行替換、重寫
腳本如下:
-- 修改dw.sale_order_fact名稱,重命名
alter table dw.sale_order_fact rename to dw.sale_order_fact_old;
-- 創(chuàng)建新表,添加order_number列
create table
dw.sale_order_fact(
order_number int comment 'order_number',
customer_sk int comment 'customer surrogate key',
product_sk int comment 'product surrogate key',
order_date_sk string comment 'date surrogate key',
request_delivery_date_sk int comment 'request_delivery_date_sk',
order_amount decimal (10 , 2 ) comment'order amount',
order_quantity int comment 'order_quantity'
)
clustered by (order_number)
into 8 buckets
stored as orc tblproperties('transactional'='true');
-- 將數(shù)據(jù)插入到新建的表中
insert into table
dw.sale_order_fact
select
t2.order_number,
t1.customer_sk,
t1.product_sk,
t1.order_date_sk,
t1.request_delivery_date_sk,
t1.order_amount,
t1.order_quantity
from
dw.sale_order_fact_old t1
inner join
source.source_order_dim t2
on
t1.order_sk=t2.order_key;
-- 刪除舊表中的數(shù)據(jù)
drop table dw.sale_order_fact_old;
- 語句說明,語句的策略就是將老的數(shù)據(jù)重新加載到新定義的規(guī)則中。
- 另外需要對定期裝載腳本進行修改,不需要再裝載source.source_order_dim了。