Data Vault 數(shù)據(jù)倉庫模型構(gòu)建-2

相關(guān)概念

  • Data Vault 原始數(shù)據(jù)模型:
    當(dāng)大多數(shù)人說 "數(shù)據(jù)庫" 時, 他們指的是我們現(xiàn)在可能稱之為原始保管庫的東西。在添加業(yè)務(wù)保管庫之前,
    原始保險(xiǎn)庫被普遍稱為 "數(shù)據(jù)庫", 添加了 "原始" 一詞, 以便我們可以清楚地知道我們正在討論的架構(gòu)的哪一部分。

  • Raw Vault 原始數(shù)據(jù):
    它是來自源的未經(jīng)過濾的原始數(shù)據(jù), 即加載到基于業(yè)務(wù)密鑰的集線器、鏈接和衛(wèi)星中的數(shù)據(jù)格式。

  • Business Vault 業(yè)務(wù)數(shù)據(jù)模型
    它是原始保管庫的擴(kuò)展, 它應(yīng)用選定的業(yè)務(wù)規(guī)則、非規(guī)范化、計(jì)算和其他查詢幫助功能, 以方便用戶訪問和報(bào)告。
    一旦刷新了業(yè)務(wù)保管庫表的依賴項(xiàng), 就應(yīng)該刷新它們。

對于 Business Vault模型 :

它首先在 dv 樣式表 (即集線器、鏈接表和 sats) 中進(jìn)行建模, 但它不是原始保管庫中所有對象的完整副本。

它是有選擇性的, 因?yàn)槲覀冎粍?chuàng)建具有一些重要商業(yè)價值的結(jié)構(gòu)。在這種情況下, 我們將以某種方式轉(zhuǎn)換數(shù)據(jù), 以應(yīng)用大多數(shù)業(yè)務(wù)用戶會

發(fā)現(xiàn)有用的規(guī)則或函數(shù) (而不是反復(fù)將這些操作轉(zhuǎn)換為多個集市)。這包括數(shù)據(jù)清理、數(shù)據(jù)質(zhì)量、會計(jì)規(guī)則或定義良好的可重復(fù)計(jì)算等內(nèi)容。

使用或訪問 bv 的主要組是您的高級用戶。這些人很好地理解 sql 和關(guān)系模型, 并且不怕有許多表聯(lián)接 。

  • PIT表
    PIT表是一種經(jīng)過修改的衛(wèi)星, 當(dāng)我們需要從具有多個衛(wèi)星查詢數(shù)據(jù)時, 它將有所幫助。具體的操作是將一個衛(wèi)星表,進(jìn)行拆分層若干表,拆分的依據(jù)是一下幾點(diǎn)
    將一張衛(wèi)星表拆解成若干表,對于拆解后的若干表的主鍵不變,還是原來的衛(wèi)星表的主鍵,只是根據(jù)不同的屬性特點(diǎn),進(jìn)行不同的分解
    • 有多個源系統(tǒng)具有來自每個源的不同屬性
    • 要拆分特定的數(shù)據(jù)分類
    • 某些屬性的變化率 (如果比其他屬性慢)
      拆分的各表,統(tǒng)一在一張表中進(jìn)行記錄,如下圖。
pit-added.png
  • 橋接表
    bridge 表還可以更輕松地查詢數(shù)據(jù)庫, 并有助于同時提高性能。對于 bridge 表, 它用于幫助處理涉及多個中心和鏈接的聯(lián)接。
    它實(shí)際上是一個派生的鏈接表。構(gòu)建一張表,連接到各衛(wèi)星表,構(gòu)成一張類似Link功能的表。bridge會保存所有需要的主鍵,從合適的
    衛(wèi)星表中獲取。和PIT表不同的是,橋接表是匯集合并的作用。

為了便于操作和使用,最好是將PIT表和橋接表都計(jì)算,并添加到模型中。

基于Northwind數(shù)據(jù)庫構(gòu)建Data Vault 2.0數(shù)據(jù)倉庫模型

對于 Data Vault 2.0 構(gòu)架的說明

對于企業(yè)級Data Vault模型數(shù)據(jù)倉庫中,構(gòu)架基本分為3層,如下圖所示。

DV2.0_frame.png

除了這3個層次外,Data Vault 2.0還規(guī)定了以下幾個不同的組建:

  • 用于處理大數(shù)據(jù)的Hadoop或者Nosql

  • 流入流出商業(yè)智能生態(tài)系統(tǒng)的實(shí)時信息流。

  • 從回寫功能到主數(shù)據(jù)功能的流程托管式SSBI(自助商業(yè)智能)。

  • 分離軟硬件業(yè)務(wù)規(guī)則,使得企業(yè)數(shù)據(jù)倉庫成為一個面向原始事實(shí)的記錄系統(tǒng),隨著時間推移不斷裝載原始事實(shí)。

  • 將NoSql適用于Data Vault 2.0模型
    現(xiàn)在NoSql平臺實(shí)現(xiàn)有很多種,但很多實(shí)例中,NoSql平臺其核心都是基于Hadoop。對于Hadoop這樣的平臺來說最大的兩個用途是:

    • 作為一個攝入和集結(jié)數(shù)據(jù)的區(qū)域,針對所有可能進(jìn)入數(shù)據(jù)倉庫的數(shù)據(jù)。包括結(jié)構(gòu)化,半結(jié)構(gòu)化,非結(jié)構(gòu)化數(shù)據(jù)。
    • 作為一個執(zhí)行數(shù)據(jù)挖掘任務(wù)的平臺

Northwind 數(shù)據(jù)重構(gòu) Data Vault 2.0模型

相關(guān)處理過程在

github 地址

northwind 關(guān)系數(shù)據(jù)關(guān)系圖 :

northwind-er1.png

重構(gòu)成 DV 2.0 模型

dv.png

數(shù)據(jù)初始化中使用SSIS

ssis_pro.png
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容