俗話說“實踐是檢驗真理的唯一標準”,天天在企業(yè)里說數(shù)據(jù)轉(zhuǎn)型,結(jié)果自己連數(shù)據(jù)中臺長什么樣都沒見過,真是印證了那句話“沒吃過豬肉,甚至沒見過豬跑”,與其一天把理論知識掛在嘴邊,不如按照敏捷的思路帶領(lǐng)團隊硬著頭皮走一朝。于是在很快做完現(xiàn)狀分析后,我們便從中臺底層出發(fā),開啟了數(shù)據(jù)體系建設(shè)的第一站--搭建數(shù)據(jù)倉庫。
搭建數(shù)據(jù)倉庫當然是復雜的過程,涉及匯集,清洗、轉(zhuǎn)化、存儲、管理和分析等一系列過程,我們先對其中最核心的“維度建?!边M行舉例學習,便于團隊達成共識。
數(shù)據(jù)倉庫維度表建模舉例
假設(shè)我們經(jīng)營一家在線書店,想要分析圖書銷售數(shù)據(jù)以優(yōu)化庫存和營銷策略。在這個例子中,我們可以將圖書、作者、出版社、讀者和銷售渠道等作為維度,而銷售額、銷售數(shù)量等作為事實。
1. 確定維度
首先,我們確定分析的維度:
- 圖書維度:包括圖書ID、書名、作者ID、出版社ID、ISBN號、類別等屬性。
- 作者維度:包括作者ID、作者姓名、作者國籍、作者出生日期等屬性。
- 出版社維度:包括出版社ID、出版社名稱、出版社所在地等屬性。
- 讀者維度:包括讀者ID、讀者姓名、讀者年齡、讀者性別、讀者所在地等屬性。
- 銷售渠道維度:包括銷售渠道ID、銷售渠道名稱、銷售渠道類型(如在線商店、實體書店、第三方平臺等)等屬性。
2. 創(chuàng)建維度表
接下來,為每個維度創(chuàng)建維度表:
圖書維度表
| 圖書ID | 書名 | 作者ID | 出版社ID | ISBN號 | 類別 |
|---|---|---|---|---|---|
| 1 | 《書A》 | 1 | 1 | 978-123-4567-890 | 小說 |
| 2 | 《書B》 | 2 | 2 | 978-234-5678-901 | 歷史 |
| 3 | 《書C》 | 1 | 1 | 978-345-6789-012 | 科技 |
作者維度表
| 作者ID | 作者姓名 | 作者國籍 | 作者出生日期 |
|---|---|---|---|
| 1 | 作者A | 中國 | 1980-01-01 |
| 2 | 作者B | 美國 | 1975-05-15 |
出版社維度表
| 出版社ID | 出版社名稱 | 出版社所在地 |
|---|---|---|
| 1 | 出版社A | 北京 |
| 2 | 出版社B | 紐約 |
讀者維度表
| 讀者ID | 讀者姓名 | 讀者年齡 | 讀者性別 | 讀者所在地 |
|---|---|---|---|---|
| 1 | 讀者1 | 30 | 男 | 北京 |
| 2 | 讀者2 | 25 | 女 | 上海 |
銷售渠道維度表
| 銷售渠道ID | 銷售渠道名稱 | 銷售渠道類型 |
|---|---|---|
| 1 | 渠道A | 在線商店 |
| 2 | 渠道B | 實體書店 |
3. 創(chuàng)建事實表
接下來,創(chuàng)建一個銷售事實表,用于存儲度量值和維度鍵:
銷售事實表
| 銷售ID | 圖書ID | 作者ID | 出版社ID | 讀者ID | 銷售渠道ID | 銷售額 | 銷售數(shù)量 | 銷售日期 |
|---|---|---|---|---|---|---|---|---|
| 1 | 1 | 1 | 1 | 1 | 1 | 100 | 5 | 2023-10-01 |
| 2 | 2 | 2 | 2 | 2 | 2 | 150 | 3 | 2023-10-02 |
| 3 | 1 | 1 | 1 | 1 | 1 | 200 | 10 | 2023-10-03 |
在銷售事實表中,每一行代表一個銷售記錄,包含了圖書ID、作者ID、出版社ID、讀者ID和銷售渠道ID等維度鍵,以及銷售額、銷售數(shù)量和銷售日期等度量值。
4. 建立關(guān)系
最后,建立維度表與事實表之間的關(guān)系。這通常通過在事實表中添加與維度表相關(guān)聯(lián)的外鍵來實現(xiàn)。在這個例子中,銷售事實表中的圖書ID、作者ID、出版社ID、讀者ID和銷售渠道ID都是外鍵,它們分別關(guān)聯(lián)到圖書維度表、作者維度表、出版社維度表、讀者維度表和銷售渠道維度表的主鍵。
通過這樣的維度表建模,我們可以輕松地進行多維分析,比如查詢某個作者的所有圖書的銷售情況、某個出版社在某個銷售渠道的銷售表現(xiàn)、某個地區(qū)讀者的購買偏好等。這種模型為數(shù)據(jù)分析和決策提供了強大的支持。