《大數(shù)據(jù)之路》讀書(shū)筆記:建模綜述

《大數(shù)據(jù)之路-阿里巴巴大數(shù)據(jù)實(shí)踐》,作者阿里巴巴數(shù)據(jù)技術(shù)及產(chǎn)品部,第八章“大數(shù)據(jù)領(lǐng)域建模綜述”

阿里的這本書(shū)之前又翻看過(guò),很多實(shí)踐是很棒的,也學(xué)習(xí)應(yīng)用過(guò)一些規(guī)范,最近比較閑(失業(yè)在家),整理一下。最近搬家,有好多書(shū),哎,有些書(shū)看完就處理掉吧,二手賣(mài)掉,要不搬家太痛苦了。

這一章是概述,主要介紹了關(guān)于建模相關(guān)的一些基礎(chǔ)知識(shí)點(diǎn),下面就總結(jié)下,算是對(duì)知識(shí)的回顧了。

為什么需要數(shù)據(jù)建模

記得面試的時(shí)候,有被問(wèn)到過(guò)這個(gè)問(wèn)題,也問(wèn)過(guò)別人,考慮這個(gè)問(wèn)題,從幾個(gè)點(diǎn)來(lái)看:什么是數(shù)據(jù)建模?用了的話,有什么好處?

  • 數(shù)據(jù)建模就是將數(shù)據(jù)進(jìn)行有序、有結(jié)構(gòu)的分類組織和存儲(chǔ),主要從業(yè)務(wù)、數(shù)據(jù)存取、使用三個(gè)角度考慮

通過(guò)數(shù)據(jù)建模,我們可以

  • 獲得性能的提升,減少I(mǎi)O吞吐
  • 降低存儲(chǔ)成本和計(jì)算成本,減少數(shù)據(jù)冗余,數(shù)據(jù)重用性高
  • 提高使用效率
  • 提高數(shù)據(jù)質(zhì)量,統(tǒng)一數(shù)據(jù)口徑,減少錯(cuò)誤發(fā)生的可能

想寫(xiě)議論文一樣,我們還可以通過(guò)類比來(lái)回答這一問(wèn)題:

  • 數(shù)據(jù)就像圖書(shū)館里的書(shū),圖書(shū)館里的書(shū)分門(mén)別類,查找借閱非常方便,沒(méi)有經(jīng)過(guò)建模的數(shù)據(jù),就像是一堆一堆的書(shū)籍,想象一下,你找一本書(shū)要多久?
  • 數(shù)據(jù)就像一棟一棟建筑,整個(gè)城市的規(guī)劃是需要設(shè)計(jì)的,你會(huì)把機(jī)場(chǎng)建在陸家嘴嗎?
數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)

他們倆名字很像,外行人或者不了解的同學(xué)一開(kāi)始會(huì)容易搞錯(cuò),簡(jiǎn)單來(lái)說(shuō),數(shù)據(jù)庫(kù)是用來(lái)存儲(chǔ)數(shù)據(jù)的,而數(shù)據(jù)倉(cāng)庫(kù)也是需要建立的數(shù)據(jù)庫(kù)之上的,它更多的是一種解決方案。
提到它倆的時(shí)候,興許還會(huì)說(shuō)說(shuō)OLAP和OLTP,書(shū)中提到的一些點(diǎn)還是很好的。

  • OLTP主要是隨機(jī)讀寫(xiě),通常要滿足3NF,需要滿足事務(wù)
  • OLAP主要是批量讀寫(xiě),不關(guān)注事務(wù)
建模方法

面試或者平時(shí)總會(huì)提到說(shuō)怎么建模,用的誰(shuí)誰(shuí)的建模理論,說(shuō)實(shí)話,我一直都記不住幾位大師的名字,傳統(tǒng)的建模方法一個(gè)是基于ER模型的,一個(gè)是基于維度建模的。書(shū)里總結(jié)的不錯(cuò),讓我們來(lái)學(xué)習(xí)下。

  • ER模型
    Bill Inmon,數(shù)據(jù)倉(cāng)庫(kù)之父提出的建模方法。需要從全企業(yè)的高度設(shè)計(jì)一套3NF模型,需要了解企業(yè)業(yè)務(wù)和數(shù)據(jù);實(shí)施周期非常長(zhǎng);對(duì)建模人員的要求非常高。
    該模型主要是將數(shù)據(jù)進(jìn)行整合,并不能直接用戶分析決策

  • 維度模型
    Kimball大師倡導(dǎo)的建模方法。從需求分析角度出發(fā),關(guān)注用戶如何快速完成需求分析,使用星型模型、雪花模型。
    這是目前比較通用的方法,上手也很簡(jiǎn)單。

  • DataVault 模型 & Anchor模型
    這倆模型沒(méi)怎么實(shí)踐過(guò),都是偏數(shù)據(jù)整合的,各有特點(diǎn)。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容