數(shù)據(jù)倉庫
數(shù)據(jù)倉庫(Data Warehouse)是一個面向主題的(Subject Oriented)、集成的Integrate)、相對穩(wěn)定的(Non-Volatile)、反映歷史變化(Time Variant)
的數(shù)據(jù)集合,用于支持管理決策。
數(shù)據(jù)倉庫是在企業(yè)管理和決策中面向主題的、集成的、與時間相關(guān)的、不可修改的數(shù)據(jù)集合。——數(shù)據(jù)倉庫之父--Bill Inmon
數(shù)據(jù)倉庫基本特性
面向主題性
面向主題性表示了數(shù)據(jù)倉庫中數(shù)據(jù)組織的基本原則,數(shù)據(jù)倉庫中的所有數(shù)據(jù)都是圍繞著某一主題組織的。
確定主題以后,需要確定主題應(yīng)該包含的數(shù)據(jù)。
不同的主題之間可能會出現(xiàn)相互重疊的信息。
主題在數(shù)據(jù)倉庫中可以用多維數(shù)據(jù)庫方式進行存儲。
主題的劃分中,必須保證每一個主題的獨立性。
一個主題領(lǐng)域的表來源于多個操作型應(yīng)用(如:客戶主題,來源于:定單處理;應(yīng)收帳目;應(yīng)付帳目;…);
典型的主題領(lǐng)域:客戶;產(chǎn)品;交易;帳目;
主題領(lǐng)域以一組相關(guān)的表來具體實現(xiàn);
相關(guān)的表通過公共的鍵碼聯(lián)系起來(如:顧客標識號Customer ID);
每個鍵碼都有時間元素(從日期到日期;每月累積;單獨日期…);
主題內(nèi)數(shù)據(jù)可以存儲在不同介質(zhì)上(綜合級,細節(jié)級,多粒度);
數(shù)據(jù)集成性
根據(jù)決策分析的要求,將分散于各處的源數(shù)據(jù)進行抽取、篩選、清理、綜合等工作,最終集成到數(shù)據(jù)倉庫中。

數(shù)據(jù)的時變性
數(shù)據(jù)應(yīng)該隨著時間的推移而發(fā)生變化,不斷地生成主題的新快照。

數(shù)據(jù)的非易失性
數(shù)據(jù)的相對穩(wěn)定性。
數(shù)據(jù)倉庫中的數(shù)據(jù)只進行刷新,從不進行更新處理。
反映歷史變化。

商務(wù)智能
簡單定義:綜合企業(yè)所有沉淀下來的信息,用科學的分析方法,為企業(yè)領(lǐng)導提供科學決策信息的過程。
完整定義:基于數(shù)據(jù)倉庫技術(shù)的決策支持系統(tǒng)(DSS)。它 以數(shù)據(jù)倉庫(DW)技術(shù)為基礎(chǔ),通過抽取、轉(zhuǎn)換和清洗將分散在企業(yè)各處的數(shù)據(jù)整合在一起,轉(zhuǎn)化為信息;進而以聯(lián)機分析處理(OLAP)工具、數(shù)據(jù)挖掘(DM)工具、報表工具為手段將信息提升為知識;最后運用可視化技術(shù)以快捷直觀的方式將探察分析結(jié)果呈現(xiàn)給最終用戶,為管理決策層提供量化依據(jù)的過程。
數(shù)據(jù)挖掘
數(shù)據(jù)挖掘使您得以定義包含分組和預測規(guī)則的模型,以便應(yīng)用于關(guān)系數(shù)據(jù)庫或多維 OLAP 數(shù)據(jù)集中的數(shù)據(jù)。之后,這些預測模型便可用于自動執(zhí)行復雜的數(shù)據(jù)分析,以找出幫助識別新機會并選擇有獲勝把握的機會的趨勢。
聯(lián)機事務(wù)處理(OLTP)
OLTP系統(tǒng)是設(shè)計用來允許高并發(fā)性的,這樣很多用戶就能夠訪問同一個數(shù)據(jù)源并進行所需的處理。
OLTP系統(tǒng)是面向在數(shù)據(jù)庫上進行事務(wù)處理的理念的。而事務(wù)則進一步蘊含著發(fā)生在表中數(shù)據(jù)上的受控的變更,這些變更包括在商務(wù)運作過程中發(fā)生的插入、更新和刪除操作。通常,一個OLTP系統(tǒng)將會有大量的客戶端應(yīng)用程序通過各種各樣的方式(插入、更新、刪除--實際上可以是任何操作)訪問數(shù)據(jù)庫以查詢一小塊信息。
OLTP系統(tǒng)的實例包括數(shù)據(jù)輸入程序,如銀行處理、訂票、聯(lián)機銷售和庫存管理系統(tǒng)。
聯(lián)機分析處理(OLAP)
聯(lián)機分析處理(或OLAP)是一種廣義上的決策支持系統(tǒng)(DSS),或者最近越來越流行的商業(yè)智能(BI)。BI系統(tǒng)的目標是分析海量數(shù)據(jù),然后以很多不同的方式(包括每天、每周、每季和年度報告)生成小結(jié)和總結(jié)以把精力高度集中在記分卡和儀表盤上,它們通常用于幫助那些準備好根據(jù)這些數(shù)據(jù)采取一定的措施的特定用戶來獲取競爭優(yōu)勢。
一旦數(shù)據(jù)進入數(shù)據(jù)倉庫之后就很少會發(fā)生變化。數(shù)據(jù)被保存在那里用于查詢和生成報表,以便幫助決策者規(guī)劃企業(yè)的未來。它不需要關(guān)心插入、更新和刪除操作。因此與高度規(guī)范的事務(wù)數(shù)據(jù)庫不同,在這種情況下通常會使用所謂的維度數(shù)據(jù)庫 (dimensional database),它將遵循特定的結(jié)構(gòu)或模式。
維度數(shù)據(jù)庫可以用來構(gòu)建數(shù)據(jù)立方體,數(shù)據(jù)立方體是數(shù)據(jù)的多維表示,用來方便聯(lián)機業(yè)務(wù)分析和提高查詢性能。立方體中的每一維都表示業(yè)務(wù)數(shù)據(jù)中的一個不同的分析類別。
維度數(shù)據(jù)庫
在OLTP系統(tǒng)中進行復雜查詢存在一些固有的問題,對這些問題的解決方案是構(gòu)建一個單獨的數(shù)據(jù)庫來更簡潔地表示業(yè)務(wù)事實(fact)。這個數(shù)據(jù)庫的結(jié)構(gòu)不是關(guān)系型的,相反,它是維度化的。
ETL
數(shù)據(jù)抽取(Extract)、轉(zhuǎn)換(Transform)、清洗(Cleansing)、裝載(Load)的過程。是構(gòu)建數(shù)據(jù)倉庫的重要一環(huán),用戶從數(shù)據(jù)源抽取出所需的數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗,最終按照預先定義好的數(shù)據(jù)倉庫模型,將數(shù)據(jù)加載到數(shù)據(jù)倉庫中去。
元數(shù)據(jù)(Meta Data)
關(guān)于數(shù)據(jù)倉庫的數(shù)據(jù),指在數(shù)據(jù)倉庫建設(shè)過程中所產(chǎn)生的有關(guān)數(shù)據(jù)源定義,目標定義,轉(zhuǎn)換規(guī)則等相關(guān)的關(guān)鍵數(shù)據(jù)。同時元數(shù)據(jù)還包含關(guān)于數(shù)據(jù)含義的商業(yè)信息,所有這些信息都應(yīng)當妥善保存,并很好地管理。為數(shù)據(jù)倉庫的發(fā)展和使用提供方便。
關(guān)于數(shù)據(jù)的數(shù)據(jù),用于構(gòu)造、維持、管理、和使用數(shù)據(jù)倉庫,在數(shù)據(jù)倉庫中尤為重要。
不同 OLAP 組件中的數(shù)據(jù)和應(yīng)用程序的結(jié)構(gòu)模型。元數(shù)據(jù)描述 OLTP 數(shù)據(jù)庫中的表、數(shù)據(jù)倉庫和數(shù)據(jù)集市中的多維數(shù)據(jù)集這類對象,還記錄哪些應(yīng)用程序引用不同的記錄塊。
數(shù)據(jù)集市(Data mart)
** **數(shù)據(jù)集市 -- 小型的,面向部門或工作組級數(shù)據(jù)倉庫。
即”小數(shù)據(jù)倉庫”。如果說數(shù)據(jù)倉庫是建立在企業(yè)級的數(shù)據(jù)模型之上的話。那么數(shù)據(jù)集市就是企業(yè)級數(shù)據(jù)倉庫的一個子集,他主要面向部門級業(yè)務(wù),并且只是面向某個特定的主題。數(shù)據(jù)集市可以在一定程度上緩解訪問數(shù)據(jù)倉庫的瓶頸。
ODS
Operation Data Store,操作數(shù)據(jù)存儲 — ODS是能支持企業(yè)日常的全局應(yīng)用的數(shù)據(jù)集合,是不同于DB的一種新的數(shù)據(jù)環(huán)境, 是DW 擴展后得到的一個混合形式。四個基本特點:面向主題的(Subject -Oriented)、集成的、可變的、 當前或接近當前的。
主題(SUBJECT)
是一個在較高層次將數(shù)據(jù)歸類的標準,每一個主題對應(yīng)一個宏觀的分析領(lǐng)域,針對具體決策需求可細化為多個主題表,具體來說就是確定決策涉及的范圍和所要解決的問題。
多維數(shù)據(jù)集
多維數(shù)據(jù)集是聯(lián)機分析處理 (OLAP) 中的主要對象,是一項可對數(shù)據(jù)倉庫中的數(shù)據(jù)進行快速訪問的技術(shù)。多維數(shù)據(jù)集是一個數(shù)據(jù)集合,通常從數(shù)據(jù)倉庫的子集構(gòu)造,并組織和匯總成一個由一組維度和度量值定義的多維結(jié)構(gòu)。
維度(DIMENSION)
是人們觀察數(shù)據(jù)的特定角度,是考慮問題時的一類屬性,屬性集合構(gòu)成一個維(時間維、地理維等)。
是多維數(shù)據(jù)集的結(jié)構(gòu)性特性。它們是事實數(shù)據(jù)表中用來描述數(shù)據(jù)的分類的有組織層次結(jié)構(gòu)(級別)
。這些分類和級別描述了一些相似的成員集合,用戶將基于這些成員集合進行分析。
這詞,英國著名物理學家史蒂芬·霍金教授有這樣的解釋:這就像一根頭發(fā),遠看是一維的線,在放大鏡下,它確實是三維的;如果面對時空,如果有足夠高倍的放大鏡的話,也應(yīng)該能揭示出其它可能存在的4維、5維空間,直至11維空間。因此,維度是指一種視角,而不是一個固定的數(shù)字;是一個判斷、說明、評價和確定一個事物的多方位、多角度、多層次的條件和概念
事實表
每個數(shù)據(jù)倉庫都包含一個或者多個事實數(shù)據(jù)表。事實數(shù)據(jù)表可能包含業(yè)務(wù)銷售數(shù)據(jù),如現(xiàn)金登記事務(wù)
所產(chǎn)生的數(shù)據(jù),事實數(shù)據(jù)表通常包含大量的行。事實數(shù)據(jù)表的主要特點是包含數(shù)字數(shù)據(jù)(事實),并且這些數(shù)字信息可以匯總,以提供有關(guān)單位作為歷史的數(shù)據(jù),每個事實數(shù)據(jù)表包含一個由多個部分組成的索引,該索引包含作為外鍵的相關(guān)性緯度表的主鍵,而維度表包含事實記錄的特性。事實數(shù)據(jù)表不應(yīng)該包含描述性的信息,也不應(yīng)該包含除數(shù)字度量字段及使事實與緯度表中對應(yīng)項的相關(guān)索引字段之外的任何數(shù)據(jù)。
包含在事實數(shù)據(jù)表中的“度量值”有兩中:一種是可以累計的度量值,另一種是非累計的度量值。最有用的度量值是可累計的度量值,其累計起來的數(shù)字是非常有意義的。用戶可以通過累計度量值獲得匯總信息,例如??梢詤R總具體時間段內(nèi)一組商店的特定商品的銷售情況。非累計的度量值也可以用于事實數(shù)據(jù)表,單匯總結(jié)果一般是沒有意義的,例如,在一座大廈的不同位置測量溫度時,如果將大廈中所有不同位置的溫度累加是沒有意義的,但是求平均值是有意義的。
一般來說,一個事實數(shù)據(jù)表都要和一個或多個緯度表相關(guān)聯(lián),用戶在利用事實數(shù)據(jù)表創(chuàng)建多維數(shù)據(jù)集時,可以使用一個或多個維度表。
從用途的不同來說,事實表可以分為三類,分別是原子事實表,聚集事實表和合并事實表。
原子事實表(Atom Fact Table)是保存最細粒度數(shù)據(jù)的事實表,也是數(shù)據(jù)倉庫中保存原子信息的場所。
聚集事實表(Aggregated Fact Table)是原子事實表上的匯總數(shù)據(jù),也稱為匯總事實表。即新建立一個事實表,它的維度表是比原維度表要少,或者某些維度表是原維度表的子集,如用月份維度表代替日期維度表;事實數(shù)據(jù)是相應(yīng)事實的匯總,即求和或求平均值等。在做數(shù)據(jù)遷移時,當相關(guān)的維度數(shù)據(jù)和事實數(shù)據(jù)發(fā)生變化時,聚集事實表需要做相應(yīng)的刷新。物化視圖是實現(xiàn)聚集事實表的一種有效方式,可以設(shè)定刷新方式,具體功能由DBMS來實現(xiàn)。
合并事實表(Consolidated Fact Table)是指將位于不同事實表中處于相同粒度的事實進行組合建模而成的一種事實表。即新建立一個事實表,它的維度是兩個或多個事實表的相同維度的集合;事實是幾個事實表中感興趣的事實。在Kimball的總線架構(gòu)中,由合并事實表為主組成的合并數(shù)據(jù)集市稱為二級數(shù)據(jù)集市。合并事實表的粒度可以是原子粒度也可以是聚集粒度。在做數(shù)據(jù)遷移時,當相關(guān)的原子事實表的數(shù)據(jù)有改變時,合并事實表的數(shù)據(jù)需要重新刷新。合并事實表和交叉探察是兩個互補的操作。
聚集事實表和合并事實表的主要差別是合并事實表一般是從多個事實表合并而來。但是它們的差別不是絕對的,一個事實表既是聚集事實表又是合并事實表是很有可能的。因為一般合并事實表需要按相同的維度合并,所以很可能在做合并的同時需要進行聚集,即粒度變粗。
維度表
維度表可以看作是用戶來分析數(shù)據(jù)的窗口
,緯度表中包含事實數(shù)據(jù)表中事實記錄的特性,有些特性提供描述性信息,有些特性指定如何匯總事實數(shù)據(jù)表數(shù)據(jù),以便為分析者提供有用的信息,維度表包含幫助匯總數(shù)據(jù)的特性的層次結(jié)構(gòu)。例如,包含產(chǎn)品信息的維度表通常包含將產(chǎn)品分為食品、飲料、非消費品等若干類的層次結(jié)構(gòu),這些產(chǎn)品中的每一類進一步多次細分,直到各產(chǎn)品達到最低級別。
在維度表中,每個表都包含獨立于其他維度表的事實 特性,例如,客戶維度表包含有關(guān)客戶的數(shù)據(jù)。維度表中的列字段可以將信息分為不同層次的結(jié)構(gòu)級。
結(jié)論:
1、事實表就是你要關(guān)注的內(nèi)容;
2、維度表就是你觀察該事務(wù)的角度,是從哪個角度去觀察這個內(nèi)容的。
例如,某地區(qū)商品的銷量,是從地區(qū)這個角度觀察商品銷量的。事實表就是銷量表,維度表就是地區(qū)表。
度量值
在多維數(shù)據(jù)集中,度量值是一組值,這些值基于多維數(shù)據(jù)集的事實數(shù)據(jù)表中的一列,而且通常為數(shù)字
。此外,度量值是所分析的多維數(shù)據(jù)集的中心值。即,度量值是最終用戶瀏覽多維數(shù)據(jù)集時重點查看的數(shù)字數(shù)據(jù)。您所選擇的度量值取決于最終用戶所請求的信息類型。一些常見的度量值有 sales、cost、expenditures 和 production count 等。
“度量值”是來自事實數(shù)據(jù)表的值
,也稱為“事實數(shù)據(jù)”。度量值維度的值有時也通稱為“成員”。度量值通常是數(shù)值,但也可以是字符串值。
Measures 維度 (Measures dimension)
“度量值維度”是包含多維數(shù)據(jù)集中所有度量值的維度。度量值維度是一種特殊的維度,其中的成員通常是根據(jù)各個維度屬性(存在指定的度量值)的當前成員(通常采用求和或計數(shù)方式)進行聚合。
度量值組 (Measure Group)
“度量值組”是 SQL Server 2005 Analysis Services 多維數(shù)據(jù)集中的相關(guān)度量值集合(通常是來自同一事實數(shù)據(jù)表的度量值)。在 SQL Server 2005 Analysis Services 中,一個多維數(shù)據(jù)集可包含多個度量值組。
級別
級別是維度層次結(jié)構(gòu)的一個元素。級別描述了數(shù)據(jù)的層次結(jié)構(gòu),從數(shù)據(jù)的最高(匯總程度最大)級別直到最低(最詳細)級別。
多維 OLAP (MOLAP):MOLAP 存儲模式使得分區(qū)的聚合和其源數(shù)據(jù)的復本以多維結(jié)構(gòu)存儲在分析服務(wù)器計算機上。根據(jù)分區(qū)聚合的百分比和設(shè)計,MOLAP 存儲模式為達到最快查詢響應(yīng)時間提供了潛在可能性??偠灾琈OLAP 更加適合于頻繁使用的多維數(shù)據(jù)集中的分區(qū)和對快速查詢響應(yīng)的需要。
關(guān)系 OLAP (ROLAP):ROLAP 存儲模式使得分區(qū)的聚合存儲在關(guān)系數(shù)據(jù)庫的表(在分區(qū)數(shù)據(jù)源中指定)中。但是,可為分區(qū)數(shù)據(jù)使用 ROLAP 存儲模式,而不在關(guān)系數(shù)據(jù)庫中創(chuàng)建聚合。
混合 OLAP (HOLAP):HOLAP 存儲模式結(jié)合了 MOLAP 和 ROLAP 二者的特性。
粒度
數(shù)據(jù)匯總的層次或深度。數(shù)據(jù)倉庫的數(shù)據(jù)單位中保存數(shù)據(jù)的細化或綜合程度的級別。細化程度越高,粒度越小。
聚合|聚集:聚合是預先計算好的數(shù)據(jù)匯總,由于在問題提出之前已經(jīng)準備了答案,聚合可以改進查詢響應(yīng)時間。
分割
數(shù)據(jù)分散到各自的物理單元中去,它們能獨立地處理。
切塊:由多個維的多個成員限定的分區(qū)數(shù)據(jù),稱為一個切塊。
切片:由一個維的一個成員限定的分區(qū)數(shù)據(jù),稱為一個切片。
數(shù)據(jù)鉆取:最終用戶從常規(guī)多維數(shù)據(jù)集、虛擬多維數(shù)據(jù)集或鏈接多維數(shù)據(jù)集中選擇單個單元,并從該單元的源數(shù)據(jù)中檢索結(jié)果集以獲得更詳細的信息,這個操作過程就是數(shù)據(jù)鉆取。
數(shù)據(jù)挖掘模型:數(shù)據(jù)挖掘使您得以定義包含分組和預測規(guī)則的模型,以便應(yīng)用于關(guān)系數(shù)據(jù)庫或多維 OLAP 數(shù)據(jù)集中的數(shù)據(jù)。之后,這些預測模型便可用于自動執(zhí)行復雜的數(shù)據(jù)分析,以找出幫助識別新機會并選擇有獲勝把握的機會的趨勢。
數(shù)據(jù)庫維度 (Database dimension)
“數(shù)據(jù)庫維度”是與某個鍵屬性相關(guān)的維度屬性的集合,而該鍵屬性又與度量值維度中的事實數(shù)據(jù)相關(guān)。
維度屬性 (Dimension attribute)
“維度屬性”被綁定到維度表中的一個或多個列并包含成員。維度屬性可以包含客戶名稱、月份名稱和產(chǎn)品名稱。
成員 (Member)
“成員”是維度屬性(包括度量值維度)的值。層次結(jié)構(gòu)中的成員可以是葉成員、父成員、數(shù)據(jù)成員或“(全部)”成員。
“(全部)”成員 ((All) member)
“(全部)”成員是屬性層次結(jié)構(gòu)或用戶定義的層次結(jié)構(gòu)中的所有成員的計算值。
計算成員 (Calculated member)
“計算成員”是在查詢時定義和計算的維度成員??梢栽谟脩舨樵兓?MDX 計算腳本中定義計算成員,并將其存儲在服務(wù)器上。 一個計算成員對應(yīng)于定義它們的維度中的多個維度表行。
數(shù)據(jù)成員 (Data member)
“數(shù)據(jù)成員”是在父子層次結(jié)構(gòu)中與父成員相關(guān)聯(lián)的子成員。數(shù)據(jù)成員包含其父成員的數(shù)據(jù)值,而不是該父成員的子級的聚合值。
父成員 (Parent member)
“父成員”是父子層次結(jié)構(gòu)中的成員,包含其子級的聚合值。
葉成員 (leaf member)
“葉成員”是層次結(jié)構(gòu)中不包含子級的成員。
子成員 (Child member)
“子成員”是層次結(jié)構(gòu)中位于頂層下面的成員。
鍵屬性 (Key attribute)
數(shù)據(jù)庫維度的“鍵屬性”是維度中的所有非鍵屬性(以直接或間接方式)所鏈接到的屬性。鍵屬性通常也是粒度屬性。
粒度屬性 (Granularity attribute)
多維數(shù)據(jù)集維度的屬性,它將維度鏈接到度量值維度內(nèi)度量值組中的事實數(shù)據(jù)。如果粒度屬性和鍵屬性為不同的屬性,則非鍵屬性必須直接或間接地鏈接到粒度屬性。在多維數(shù)據(jù)集中,粒度屬性定義維度的粒度。
多維數(shù)據(jù)集維度 (Cube dimension)
“多維數(shù)據(jù)集維度”是多維數(shù)據(jù)集中的數(shù)據(jù)庫維度實例。
屬性層次結(jié)構(gòu) (Attribute hierarchy)
“屬性層次結(jié)構(gòu)”是包含以下級別的屬性成員層次結(jié)構(gòu):
數(shù)據(jù)倉庫建模 — 星型模式
Example of Star Schema
在多維分析的商業(yè)智能解決方案中,根據(jù)事實表和維度表的關(guān)系,又可將常見的模型分為星型模型和雪花型模型。在設(shè)計邏輯型數(shù)據(jù)的模型的時候,就應(yīng)考慮數(shù)據(jù)是按照星型模型還是雪花型模型進行組織。
當所有維表都直接連接到“ 事實表”上時,整個圖解就像星星一樣,故將該模型稱為星型模型,星型架構(gòu)是一種非正規(guī)化的結(jié)構(gòu),多維數(shù)據(jù)集的每一個維度都直接與事實表相連接,不存在漸變維度,所以數(shù)據(jù)有一定的冗余,如在地域維度表中,存在國家 A 省 B 的城市 C 以及國家 A 省 B 的城市 D 兩條記錄,那么國家 A 和省 B 的信息分別存儲了兩次,即存在冗余。
數(shù)據(jù)倉庫建模 — 雪片模式
Example of Snowflake Schema
當有一個或多個維表沒有直接連接到事實表上,而是通過其他維表連接到事實表上時,其圖解就像多個雪花連接在一起,故稱雪花模型。雪花模型是對星型模型的擴展。它對星型模型的維表進一步層次化,原有的各維表可能被擴展為小的事實表,形成一些局部的 " 層次 " 區(qū)域,這些被分解的表都連接到主維度表而不是事實表。將地域維表又分解為國家,省份,城市等維表。它的優(yōu)點是 : 通過最大限度地減少數(shù)據(jù)存儲量以及聯(lián)合較小的維表來改善查詢性能。雪花型結(jié)構(gòu)去除了數(shù)據(jù)冗余。