數(shù)據(jù)倉(cāng)庫(kù)(05)數(shù)倉(cāng)Kimball與Inmon架構(gòu)的對(duì)比

數(shù)據(jù)倉(cāng)庫(kù)主要有四種架構(gòu),Kimball的DW/BI架構(gòu)、獨(dú)立數(shù)據(jù)集市架構(gòu)、輻射狀企業(yè)信息工廠Inmon架構(gòu)、混合Inmon與Kimball架構(gòu)。不過不管是那種架構(gòu),基本上都會(huì)使用到維度建模。

Kimball的DW/BI架構(gòu),可以參考這篇文章 數(shù)據(jù)倉(cāng)庫(kù)(4)基于維度建模的KimBall架構(gòu)。

獨(dú)立數(shù)據(jù)集市架構(gòu),采用這種架構(gòu)的數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)以部門為基礎(chǔ)來部署,不考慮企業(yè)級(jí)別的信息共享和集成。也就是各個(gè)部門各自按照需要,各自在數(shù)據(jù)源同步數(shù)據(jù),按照各自的標(biāo)準(zhǔn),對(duì)數(shù)據(jù)進(jìn)行處理。這種實(shí)際上就是沒有架構(gòu),會(huì)造成分析數(shù)據(jù)的冗余存儲(chǔ),計(jì)算資源的浪費(fèi),會(huì)導(dǎo)致每一個(gè)統(tǒng)計(jì)部門統(tǒng)計(jì)口徑的不統(tǒng)一,也就會(huì)導(dǎo)致因?yàn)閿?shù)據(jù)口徑不一致導(dǎo)致長(zhǎng)時(shí)間的對(duì)數(shù)據(jù)。

獨(dú)立數(shù)據(jù)集市架構(gòu)

輻射狀企業(yè)信息工廠Inmon架構(gòu),數(shù)據(jù)從操作型數(shù)據(jù)源中獲取,在ETL中進(jìn)行處理,獲得的原子數(shù)據(jù)保存在滿足第三范式的數(shù)據(jù)庫(kù)中,這種規(guī)范化,原子數(shù)據(jù)的倉(cāng)庫(kù)就是企業(yè)信息工廠Inmon架構(gòu)。Inmon架構(gòu)與Kimball架構(gòu)的差別之一就是,Inmon的數(shù)據(jù)倉(cāng)庫(kù)是規(guī)范化的,而Kimball架構(gòu)是基于維度建模的星型模型。

輻射狀企業(yè)信息工廠Inmon架構(gòu)

混合Inmon與Kimball架構(gòu),這種就是將Kimball與Inmon兩種架構(gòu)進(jìn)行嫁接,抽取過來的數(shù)據(jù),存放在規(guī)范化的數(shù)據(jù)倉(cāng)庫(kù)中,然后在這個(gè)的基礎(chǔ)之上抽取基于維度建模的數(shù)據(jù)展現(xiàn),開發(fā)給數(shù)據(jù)分析人員等。

混合Inmon與Kimball架構(gòu)

在經(jīng)典的理論認(rèn)為,混合Inmon與Kimball架構(gòu)是最好的方式。這種方法可以將數(shù)據(jù)規(guī)范化,然后通過維度建模,以一種比較簡(jiǎn)單的方式開發(fā)給分析人員。但是這種方式適合比較傳統(tǒng)的行業(yè),或者政府單位,這種業(yè)務(wù)發(fā)展緩慢的模式,如果是互聯(lián)網(wǎng)企業(yè),特別是創(chuàng)業(yè)型團(tuán)隊(duì),業(yè)務(wù)還在快速的迭代中,使用維度建模需要花費(fèi)很長(zhǎng)的前期準(zhǔn)備工作,而且擴(kuò)展性不好,使用Kimball維度建模是比較合適的。

Kimball 模式從流程上看是是自底向上的,即從數(shù)據(jù)集市到數(shù)據(jù)倉(cāng)庫(kù)再到數(shù)據(jù)源(先有數(shù)據(jù)集市再有數(shù)據(jù)倉(cāng)庫(kù))的一種敏捷開發(fā)方法。對(duì)于Kimball模式,數(shù)據(jù)源每每是給定的若干個(gè)數(shù)據(jù)庫(kù)表,數(shù)據(jù)較為穩(wěn)定可是數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系比較復(fù)雜,須要從這些OLTP中產(chǎn)生的事務(wù)型數(shù)據(jù)結(jié)構(gòu)抽取出分析型數(shù)據(jù)結(jié)構(gòu),再放入數(shù)據(jù)集市中方便下一步的BI與決策支持。所以KimBall是根據(jù)需求來確定需要開發(fā)ETL哪些數(shù)據(jù)。

Inmon 模式從流程上看是自頂向下的,即從數(shù)據(jù)源到數(shù)據(jù)倉(cāng)庫(kù)再到數(shù)據(jù)集市的(先有數(shù)據(jù)倉(cāng)庫(kù)再有數(shù)據(jù)市場(chǎng))一種瀑布流開發(fā)方法。對(duì)于Inmon模式,數(shù)據(jù)源每每是異構(gòu)的,好比從自行定義的爬蟲數(shù)據(jù)就是較為典型的一種,數(shù)據(jù)源是根據(jù)最終目標(biāo)自行定制的。這里主要的數(shù)據(jù)處理工做集中在對(duì)異構(gòu)數(shù)據(jù)的清洗,包括數(shù)據(jù)類型檢驗(yàn),數(shù)據(jù)值范圍檢驗(yàn)以及其余一些復(fù)雜規(guī)則。在這種場(chǎng)景下,數(shù)據(jù)沒法從stage層直接輸出到dm層,必須先經(jīng)過ETL將數(shù)據(jù)的格式清洗后放入dw層,再?gòu)膁w層選擇須要的數(shù)據(jù)組合輸出到dm層。在Inmon模式中,并不強(qiáng)調(diào)事實(shí)表和維度表的概念,由于數(shù)據(jù)源變化的可能性較大,須要更增強(qiáng)調(diào)數(shù)據(jù)的清洗工做,從中抽取實(shí)體-關(guān)系。immon是將整個(gè)數(shù)據(jù)倉(cāng)庫(kù)規(guī)劃好,統(tǒng)一按照范式建模進(jìn)行開發(fā)。

下面是兩種架構(gòu)的優(yōu)劣比較。

Inmon與Kimball優(yōu)劣比較

需要數(shù)據(jù)倉(cāng)庫(kù)資料可以點(diǎn)擊這個(gè)領(lǐng)取數(shù)據(jù)倉(cāng)庫(kù)(13)大數(shù)據(jù)數(shù)倉(cāng)經(jīng)典最值得閱讀書籍推薦

參考文章:數(shù)據(jù)倉(cāng)庫(kù)(5)數(shù)倉(cāng)Kimball與Inmon架構(gòu)的對(duì)比

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容