數(shù)據(jù)倉庫 - 3.數(shù)據(jù)倉庫基本概念

一、數(shù)據(jù)倉庫的概念 - 元數(shù)據(jù)

   按照傳統(tǒng)的定義,元數(shù)據(jù)(Metadata)是關(guān)于數(shù)據(jù)的數(shù)據(jù)。在數(shù)據(jù)倉庫系統(tǒng)中,元數(shù)據(jù)可以幫助數(shù)據(jù)倉庫管理員和數(shù)據(jù)倉庫的開發(fā)人員非常方便的找到他們所關(guān)心的數(shù)據(jù);元數(shù)據(jù)是描述數(shù)據(jù)倉庫內(nèi)數(shù)據(jù)的結(jié)構(gòu)和建立方法的數(shù)據(jù),可將其按用途的不同分為兩類:技術(shù)元數(shù)據(jù)和業(yè)務(wù)元數(shù)據(jù)。

  技術(shù)元數(shù)據(jù)是存儲關(guān)于數(shù)據(jù)倉庫系統(tǒng)技術(shù)細節(jié)的數(shù)據(jù),是用于開發(fā)和管理數(shù)據(jù)倉庫使用的數(shù)據(jù),主要包括以下信息:

  1)數(shù)據(jù)倉庫結(jié)構(gòu)的描述,包括倉庫模式、視圖、維、層次結(jié)構(gòu)和導(dǎo)出數(shù)據(jù)的定義,以及數(shù)據(jù)集市的位置和內(nèi)容;

   2)業(yè)務(wù)系統(tǒng)、數(shù)據(jù)倉庫和數(shù)據(jù)集市的體系結(jié)構(gòu)和模式;

   3)匯總用的算法,包括度量和維定義算法,數(shù)據(jù)粒度、主題領(lǐng)域、聚集、匯總、預(yù)定義的查詢與報告;

   4)由操作環(huán)境到數(shù)據(jù)倉庫環(huán)境的映射,包括源數(shù)據(jù)和它們的內(nèi)容、數(shù)據(jù)分割、數(shù)據(jù)抽取、清洗轉(zhuǎn)換規(guī)則和數(shù)據(jù)刷新規(guī)則、安全(用戶授權(quán)和存取控制)。

二、數(shù)據(jù)倉庫的概念 - 聯(lián)機處理分析(OLAP)

簡寫為OLAP,隨著數(shù)據(jù)庫技術(shù)的發(fā)展和應(yīng)用,數(shù)據(jù)庫存儲的數(shù)據(jù)量從20世紀80年代的兆(M)字節(jié)及千兆(G)字節(jié)過渡到現(xiàn)在的兆兆(T)字節(jié)和千兆兆(P)字節(jié),同時,用戶的查詢需求也越來越復(fù)雜,涉及的已不僅是查詢或操縱一張關(guān)系表中的一條或幾條記錄,而且要對多張表中的千萬條記錄的數(shù)據(jù)進行數(shù)據(jù)分析和信息綜合,關(guān)系數(shù)據(jù)庫系統(tǒng)已不能全部滿足這一要求。在國外,不少軟件廠商采取了發(fā)展其前端產(chǎn)品來彌補關(guān)系數(shù)據(jù)庫管理系統(tǒng)的不足,力圖統(tǒng)一分散的公共應(yīng)用邏輯,在短時間內(nèi)響應(yīng)非數(shù)據(jù)處理專業(yè)人員復(fù)雜查詢要求。

數(shù)據(jù)倉庫與OLAP的關(guān)系是互補的,現(xiàn)代OLAP系統(tǒng)一般以數(shù)據(jù)倉庫作為基礎(chǔ),即從數(shù)據(jù)倉庫中抽取詳細數(shù)據(jù)的一個子集并經(jīng)過必要的聚集存儲到OLAP存儲器中供前端分析工具讀取。OLAP系統(tǒng)按照其存儲器的數(shù)據(jù)存儲格式可以分為關(guān)系OLAP(RelationalOLAP,簡稱ROLAP)、多維OLAP(MultidimensionalOLAP,簡稱MOLAP)和混合型OLAP(HHybridOLAP,簡稱HOLAP)三種類型。

1)ROLAP

ROLAP將分析用的多維數(shù)據(jù)存儲在關(guān)系數(shù)據(jù)庫中并根據(jù)應(yīng)用的需要有選擇的定義實視圖作為表也存儲在關(guān)系數(shù)據(jù)庫中。不必要將每一個SQL查詢都作為實視圖保存,只定義那些應(yīng)用頻率比較高、計算工作量比較大的查詢作為實視圖。對每個針對OLAP服務(wù)器的查詢,優(yōu)先利用已經(jīng)計算好的實視圖來生成查詢結(jié)果以提高查詢效率。同時作為ROLAP存儲器的RDBMS也針對ROLAP作相應(yīng)的優(yōu)化,比如并行存儲、并行查詢、并行數(shù)據(jù)管理、基于成本的查詢優(yōu)化、位圖索引、SQL的OLAP擴展(cube,rollup)等等。

2)MOLAP

MLOAP將OLAP分析用到的多維數(shù)據(jù)物理上存儲為多維數(shù)組的形式,形成“立方體”的結(jié)構(gòu)。維的屬性值被映射成多維數(shù)組的下標值或下標的范圍,而總結(jié)數(shù)據(jù)作為多維數(shù)組的值存儲在數(shù)組的單元中。由于MOLAP采用了新的存儲結(jié)構(gòu),從物理層實現(xiàn)起,因此又稱為物理OLAP(PhPhysicalOLAP);而ROLAP主要通過一些軟件工具或中間軟件實現(xiàn),物理層仍采用關(guān)系數(shù)據(jù)庫的存儲結(jié)構(gòu),因為稱為虛擬OLAP(VirVirtualOLAP)。

3)HOLAP

由于MOLAP和ROLAP有著各自的優(yōu)點和缺點(如下表所示),且它們的結(jié)構(gòu)迥然不同,這給分析人員設(shè)計OLAP結(jié)構(gòu)提出了難題。為此一個新的OLAP結(jié)構(gòu)--混合型OLAP(HOLAP)被提出,它能把MOLAP和ROLAP兩個結(jié)構(gòu)的優(yōu)點結(jié)合起來。迄今為止,對HOLAP還沒有一個正式的定義。但很顯然,HOLAP結(jié)構(gòu)不應(yīng)該是MOLAP和ROLAP結(jié)構(gòu)的簡單組合,而是這兩種結(jié)構(gòu)技術(shù)優(yōu)點的有機結(jié)合,能滿足用戶各種復(fù)雜的分析請求。

三、數(shù)據(jù)倉庫的概念 - 維度

管理人員往往希望從不同的角度來審視業(yè)務(wù)的情況,比如從時間、地域、產(chǎn)品、客戶等來看收入、利潤、支出等業(yè)務(wù)統(tǒng)計數(shù)字。每一個分析的角度可以叫做一個維,因此,我們把多角度分析方式稱為多維分析。以前,每一個分析的角度需要制作一張報表。在線多維分析工具的主要功能,是根據(jù)用戶常用的多種分析角度,事先計算好一些輔助結(jié)構(gòu),以便在查詢時能盡快訪問到所要的匯總數(shù)字,并快速地從一維轉(zhuǎn)變到另一維,將不同角度的信息以數(shù)字、直方圖、餅圖、曲線等等方式展現(xiàn)在用戶面前。

四、數(shù)據(jù)倉庫的概念 - 切片/切塊/鉆取/旋轉(zhuǎn)/轉(zhuǎn)軸

1)切片和切塊(Slice and Dice)

在多維數(shù)據(jù)結(jié)構(gòu)中,按二維進行切片,按三維進行切塊,可得到所需要的數(shù)據(jù)。每次都是沿其中一維進行分割稱為分片,每次沿多維進行的分片稱為分塊。

2)鉆?。―rill)

鉆取包括向下鉆?。―rill-down)和向上鉆?。―rill-up),鉆取的深度與維所劃分的層次相對應(yīng)。

3)旋轉(zhuǎn)(Rotate)/轉(zhuǎn)軸(Pivot)

通過旋轉(zhuǎn)可以得到不同視角的數(shù)據(jù)。

五、數(shù)據(jù)倉庫的概念 - 星型/雪花型

1)星形模式

    在不考慮緩慢變換的情況下,大多數(shù)事實表的設(shè)計方式:id  dim1id  dim2id  dim3id  ...measure1  measure2  measure3...

    在不考慮緩慢變換的情況下,大多數(shù)維度表的設(shè)計方式:level1id  level1name level1attributename1,level1attributename2...level2id  level2name level2attributename1,level2attributename2..  levelnid (PK)     levelnname levelnattributename1,levelnattributename2

2)雪花模式

雪花模式是對星型模式維表的進一步層次化,將某些維表擴展成事實表,這樣既可以應(yīng)付不同級別用戶查詢,又可以將源數(shù)據(jù)通過層次間的聯(lián)系向上綜合,最大限度的減少數(shù)據(jù)存儲量,因而提高了查詢功能。雪花模式的維度表是基于范式理論的,因此是介于第三范式和星形模式之間的一種設(shè)計模式,通常是部分數(shù)據(jù)組織采用第三范式的規(guī)范結(jié)構(gòu),部分數(shù)據(jù)組織采用星形模式的事實表和維表結(jié)構(gòu)。在某些情況下,雪花模式的形成是由于星形模式在組織數(shù)據(jù)時,為減少維度層次和處理多對多關(guān)系而對數(shù)據(jù)表進行規(guī)范化處理后形成的。

雪花模式的優(yōu)點是:

在一定程度上減少了存儲空間;
規(guī)范化的結(jié)構(gòu)更容易更新和維護。
  同樣,雪花模式也存在不少缺點:

雪花模式比較復(fù)雜,用戶不容易理解;
瀏覽內(nèi)容相對困難;
額外的連接將使查詢性能下降。
  在數(shù)據(jù)倉庫中,通常不推薦“雪花化”。因為在數(shù)據(jù)倉庫中,查詢性能相對OLTP系統(tǒng)來說更加被重視,而雪花模式會降低數(shù)據(jù)倉庫系統(tǒng)的性能。

轉(zhuǎn)載于:https://www.cnblogs.com/MR-zhang-01/p/9278477.html

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容