一、數(shù)據(jù)倉庫的概念 - 元數(shù)據(jù)
按照傳統(tǒng)的定義,元數(shù)據(jù)(Metadata)是關(guān)于數(shù)據(jù)的數(shù)據(jù)。在數(shù)據(jù)倉庫系統(tǒng)中,元數(shù)據(jù)可以幫助數(shù)據(jù)倉庫管理員和數(shù)據(jù)倉庫的開發(fā)人員非常方便的找到他們所關(guān)心的數(shù)據(jù);元數(shù)據(jù)是描述數(shù)據(jù)倉庫內(nèi)數(shù)據(jù)的結(jié)構(gòu)和建立方法的數(shù)據(jù),可將其按用途的不同分為兩類:技術(shù)元數(shù)據(jù)和業(yè)務(wù)元數(shù)據(jù)。
技術(shù)元數(shù)據(jù)是存儲關(guān)于數(shù)據(jù)倉庫系統(tǒng)技術(shù)細節(jié)的數(shù)據(jù),是用于開發(fā)和管理數(shù)據(jù)倉庫使用的數(shù)據(jù),主要包括以下信息:
1)數(shù)據(jù)倉庫結(jié)構(gòu)的描述,包括倉庫模式、視圖、維、層次結(jié)構(gòu)和導(dǎo)出數(shù)據(jù)的定義,以及數(shù)據(jù)集市的位置和內(nèi)容;
2)業(yè)務(wù)系統(tǒng)、數(shù)據(jù)倉庫和數(shù)據(jù)集市的體系結(jié)構(gòu)和模式;
3)匯總用的算法,包括度量和維定義算法,數(shù)據(jù)粒度、主題領(lǐng)域、聚集、匯總、預(yù)定義的查詢與報告;
4)由操作環(huán)境到數(shù)據(jù)倉庫環(huán)境的映射,包括源數(shù)據(jù)和它們的內(nèi)容、數(shù)據(jù)分割、數(shù)據(jù)抽取、清洗轉(zhuǎn)換規(guī)則和數(shù)據(jù)刷新規(guī)則、安全(用戶授權(quán)和存取控制)。
二、數(shù)據(jù)倉庫的概念 - 聯(lián)機處理分析(OLAP)
簡寫為OLAP,隨著數(shù)據(jù)庫技術(shù)的發(fā)展和應(yīng)用,數(shù)據(jù)庫存儲的數(shù)據(jù)量從20世紀80年代的兆(M)字節(jié)及千兆(G)字節(jié)過渡到現(xiàn)在的兆兆(T)字節(jié)和千兆兆(P)字節(jié),同時,用戶的查詢需求也越來越復(fù)雜,涉及的已不僅是查詢或操縱一張關(guān)系表中的一條或幾條記錄,而且要對多張表中的千萬條記錄的數(shù)據(jù)進行數(shù)據(jù)分析和信息綜合,關(guān)系數(shù)據(jù)庫系統(tǒng)已不能全部滿足這一要求。在國外,不少軟件廠商采取了發(fā)展其前端產(chǎn)品來彌補關(guān)系數(shù)據(jù)庫管理系統(tǒng)的不足,力圖統(tǒng)一分散的公共應(yīng)用邏輯,在短時間內(nèi)響應(yīng)非數(shù)據(jù)處理專業(yè)人員復(fù)雜查詢要求。
數(shù)據(jù)倉庫與OLAP的關(guān)系是互補的,現(xiàn)代OLAP系統(tǒng)一般以數(shù)據(jù)倉庫作為基礎(chǔ),即從數(shù)據(jù)倉庫中抽取詳細數(shù)據(jù)的一個子集并經(jīng)過必要的聚集存儲到OLAP存儲器中供前端分析工具讀取。OLAP系統(tǒng)按照其存儲器的數(shù)據(jù)存儲格式可以分為關(guān)系OLAP(RelationalOLAP,簡稱ROLAP)、多維OLAP(MultidimensionalOLAP,簡稱MOLAP)和混合型OLAP(HHybridOLAP,簡稱HOLAP)三種類型。
1)ROLAP
ROLAP將分析用的多維數(shù)據(jù)存儲在關(guān)系數(shù)據(jù)庫中并根據(jù)應(yīng)用的需要有選擇的定義實視圖作為表也存儲在關(guān)系數(shù)據(jù)庫中。不必要將每一個SQL查詢都作為實視圖保存,只定義那些應(yīng)用頻率比較高、計算工作量比較大的查詢作為實視圖。對每個針對OLAP服務(wù)器的查詢,優(yōu)先利用已經(jīng)計算好的實視圖來生成查詢結(jié)果以提高查詢效率。同時作為ROLAP存儲器的RDBMS也針對ROLAP作相應(yīng)的優(yōu)化,比如并行存儲、并行查詢、并行數(shù)據(jù)管理、基于成本的查詢優(yōu)化、位圖索引、SQL的OLAP擴展(cube,rollup)等等。
2)MOLAP
MLOAP將OLAP分析用到的多維數(shù)據(jù)物理上存儲為多維數(shù)組的形式,形成“立方體”的結(jié)構(gòu)。維的屬性值被映射成多維數(shù)組的下標值或下標的范圍,而總結(jié)數(shù)據(jù)作為多維數(shù)組的值存儲在數(shù)組的單元中。由于MOLAP采用了新的存儲結(jié)構(gòu),從物理層實現(xiàn)起,因此又稱為物理OLAP(PhPhysicalOLAP);而ROLAP主要通過一些軟件工具或中間軟件實現(xiàn),物理層仍采用關(guān)系數(shù)據(jù)庫的存儲結(jié)構(gòu),因為稱為虛擬OLAP(VirVirtualOLAP)。
3)HOLAP
由于MOLAP和ROLAP有著各自的優(yōu)點和缺點(如下表所示),且它們的結(jié)構(gòu)迥然不同,這給分析人員設(shè)計OLAP結(jié)構(gòu)提出了難題。為此一個新的OLAP結(jié)構(gòu)--混合型OLAP(HOLAP)被提出,它能把MOLAP和ROLAP兩個結(jié)構(gòu)的優(yōu)點結(jié)合起來。迄今為止,對HOLAP還沒有一個正式的定義。但很顯然,HOLAP結(jié)構(gòu)不應(yīng)該是MOLAP和ROLAP結(jié)構(gòu)的簡單組合,而是這兩種結(jié)構(gòu)技術(shù)優(yōu)點的有機結(jié)合,能滿足用戶各種復(fù)雜的分析請求。
三、數(shù)據(jù)倉庫的概念 - 維度
管理人員往往希望從不同的角度來審視業(yè)務(wù)的情況,比如從時間、地域、產(chǎn)品、客戶等來看收入、利潤、支出等業(yè)務(wù)統(tǒng)計數(shù)字。每一個分析的角度可以叫做一個維,因此,我們把多角度分析方式稱為多維分析。以前,每一個分析的角度需要制作一張報表。在線多維分析工具的主要功能,是根據(jù)用戶常用的多種分析角度,事先計算好一些輔助結(jié)構(gòu),以便在查詢時能盡快訪問到所要的匯總數(shù)字,并快速地從一維轉(zhuǎn)變到另一維,將不同角度的信息以數(shù)字、直方圖、餅圖、曲線等等方式展現(xiàn)在用戶面前。
四、數(shù)據(jù)倉庫的概念 - 切片/切塊/鉆取/旋轉(zhuǎn)/轉(zhuǎn)軸
1)切片和切塊(Slice and Dice)
在多維數(shù)據(jù)結(jié)構(gòu)中,按二維進行切片,按三維進行切塊,可得到所需要的數(shù)據(jù)。每次都是沿其中一維進行分割稱為分片,每次沿多維進行的分片稱為分塊。
2)鉆?。―rill)
鉆取包括向下鉆?。―rill-down)和向上鉆?。―rill-up),鉆取的深度與維所劃分的層次相對應(yīng)。
3)旋轉(zhuǎn)(Rotate)/轉(zhuǎn)軸(Pivot)
通過旋轉(zhuǎn)可以得到不同視角的數(shù)據(jù)。
五、數(shù)據(jù)倉庫的概念 - 星型/雪花型
1)星形模式
在不考慮緩慢變換的情況下,大多數(shù)事實表的設(shè)計方式:id dim1id dim2id dim3id ...measure1 measure2 measure3...
在不考慮緩慢變換的情況下,大多數(shù)維度表的設(shè)計方式:level1id level1name level1attributename1,level1attributename2...level2id level2name level2attributename1,level2attributename2.. levelnid (PK) levelnname levelnattributename1,levelnattributename2
2)雪花模式
雪花模式是對星型模式維表的進一步層次化,將某些維表擴展成事實表,這樣既可以應(yīng)付不同級別用戶查詢,又可以將源數(shù)據(jù)通過層次間的聯(lián)系向上綜合,最大限度的減少數(shù)據(jù)存儲量,因而提高了查詢功能。雪花模式的維度表是基于范式理論的,因此是介于第三范式和星形模式之間的一種設(shè)計模式,通常是部分數(shù)據(jù)組織采用第三范式的規(guī)范結(jié)構(gòu),部分數(shù)據(jù)組織采用星形模式的事實表和維表結(jié)構(gòu)。在某些情況下,雪花模式的形成是由于星形模式在組織數(shù)據(jù)時,為減少維度層次和處理多對多關(guān)系而對數(shù)據(jù)表進行規(guī)范化處理后形成的。
雪花模式的優(yōu)點是:
在一定程度上減少了存儲空間;
規(guī)范化的結(jié)構(gòu)更容易更新和維護。
同樣,雪花模式也存在不少缺點:
雪花模式比較復(fù)雜,用戶不容易理解;
瀏覽內(nèi)容相對困難;
額外的連接將使查詢性能下降。
在數(shù)據(jù)倉庫中,通常不推薦“雪花化”。因為在數(shù)據(jù)倉庫中,查詢性能相對OLTP系統(tǒng)來說更加被重視,而雪花模式會降低數(shù)據(jù)倉庫系統(tǒng)的性能。
轉(zhuǎn)載于:https://www.cnblogs.com/MR-zhang-01/p/9278477.html