數(shù)據(jù)倉庫簡介
一:什么是數(shù)據(jù)倉庫
數(shù)據(jù)倉庫,英文名稱為Data Warehouse,可簡寫為DW或DWH。數(shù)據(jù)倉庫,是為企業(yè)所有級別的決策制定過程,提供所有類型數(shù)據(jù)支持的戰(zhàn)略集合。它出于分析性報告和決策支持目的而創(chuàng)建。 為需要業(yè)務智能的企業(yè),提供指導業(yè)務流程改進、監(jiān)視時間、成本、質(zhì)量以及控制。
二:數(shù)據(jù)倉庫的特點
1.數(shù)據(jù)倉庫的數(shù)據(jù)是面向主題的
與傳統(tǒng)數(shù)據(jù)庫面向應用進行數(shù)據(jù)組織的特點相對應,數(shù)據(jù)倉庫中的數(shù)據(jù)是面向主題進行組織的。什么是主題呢?首先,主題是一個抽象的概念,是較高層次上企業(yè)信息系統(tǒng)中的數(shù)據(jù)綜合、歸類并進行分析利用的抽象。在邏輯意義上,它是對應企業(yè)中某一宏觀分析領域所涉及的分析對象。面向主題的數(shù)據(jù)組織方式,就是在較高層次上對分析對象的數(shù)據(jù)的一個完整、一致的描述,能完整、統(tǒng)一地刻劃各個分析對象所涉及的企業(yè)的各項數(shù)據(jù),以及數(shù)據(jù)之間的聯(lián)系。所謂較高層次是相對面向應用的數(shù)據(jù)組織方式而言的,是指按照主題進行數(shù)據(jù)組織的方式具有更高的數(shù)據(jù)抽象級別。
???2.數(shù)據(jù)倉庫的數(shù)據(jù)是集成的
數(shù)據(jù)倉庫的數(shù)據(jù)是從原有的分散的數(shù)據(jù)庫數(shù)據(jù)抽取來的。操作型數(shù)據(jù)與DSS分析型數(shù)據(jù)之間差別甚大。
第一,數(shù)據(jù)倉庫的每一個主題所對應的源數(shù)據(jù)在原有的各分散數(shù)據(jù)庫中有許多重復和不一致的地方,且來源于不同的聯(lián)機系統(tǒng)的數(shù)據(jù)都和不同的應用邏輯捆綁在一起;
第二,數(shù)據(jù)倉庫中的綜合數(shù)據(jù)不能從原有的數(shù)據(jù)庫系統(tǒng)直接得到。因此在數(shù)據(jù)進入數(shù)據(jù)倉庫之前,必然要經(jīng)過統(tǒng)一與綜合,這一步是數(shù)據(jù)倉庫建設中最關鍵、最復雜的一步,所要完成的工作有:
? ? (1)要統(tǒng)一源數(shù)據(jù)中所有矛盾之處,如字段的同名異義、異名同義、單位不統(tǒng)一、字長不一致,等等。
? ? (2)進行數(shù)據(jù)綜合和計算。數(shù)據(jù)倉庫中的數(shù)據(jù)綜合工作可以在從原有數(shù)據(jù)庫抽取 數(shù)據(jù)時生成,但許多是在數(shù)據(jù)倉庫內(nèi)部生成的,即進入數(shù)據(jù)倉庫以后進行綜合生成的。
???3.數(shù)據(jù)倉庫的數(shù)據(jù)是不可更新的
數(shù)據(jù)倉庫的數(shù)據(jù)主要供企業(yè)決策分析之用,所涉及的數(shù)據(jù)操作主要是數(shù)據(jù)查詢,一般情況下并不進行修改操作。數(shù)據(jù)倉庫的數(shù)據(jù)反映的是一段相當長的時間內(nèi)歷史數(shù)據(jù)的內(nèi)容,是不同時點的數(shù)據(jù)庫快照的集合,以及基于這些快照進行統(tǒng)計、綜合和重組的導出數(shù)據(jù),而不是聯(lián)機處理的數(shù)據(jù)。數(shù)據(jù)庫中進行聯(lián)機處理的數(shù)據(jù)經(jīng)過集成輸入到數(shù)據(jù)倉庫中,一旦數(shù)據(jù)倉庫存放的數(shù)據(jù)已經(jīng)超過數(shù)據(jù)倉庫的數(shù)據(jù)存儲期限,這些數(shù)據(jù)將從當前的數(shù)據(jù)倉庫中刪去。因為數(shù)據(jù)倉庫只進行數(shù)據(jù)查詢操作,所以數(shù)據(jù)倉庫管理系統(tǒng)相比數(shù)據(jù)庫管理系統(tǒng)而言要簡單得多。數(shù)據(jù)庫管理系統(tǒng)中許多技術(shù)難點,如完整性保護、并發(fā)控制等等,在數(shù)據(jù)倉庫的管理中幾乎可以省去。但是由于數(shù)據(jù)倉庫的查詢數(shù)據(jù)量往往很大,所以就對數(shù)據(jù)查詢提出了更高的要求,它要求采用各種復雜的索引技術(shù);同時由于數(shù)據(jù)倉庫面向的是商業(yè)企業(yè)的高層管理者,他們會對數(shù)據(jù)查詢的界面友好性和數(shù)據(jù)表示提出更高的要求。
????4.數(shù)據(jù)倉庫的數(shù)據(jù)是隨時間不斷變化的
?? 數(shù)據(jù)倉庫中的數(shù)據(jù)不可更新是針對應用來說的,也就是說,數(shù)據(jù)倉庫的用戶進行分析處理時是不進行數(shù)據(jù)更新操作的。但并不是說,在從數(shù)據(jù)集成輸入數(shù)據(jù)倉庫開始到最終被刪除的整個數(shù)據(jù)生存周期中,所有的數(shù)據(jù)倉庫數(shù)據(jù)都是永遠不變的。數(shù)據(jù)倉庫的數(shù)據(jù)是隨時間的變化而不斷變化的,這是數(shù)據(jù)倉庫數(shù)據(jù)的第四個特征。這一特征表現(xiàn)在以下3方面:(1)數(shù)據(jù)倉庫隨時間變化不斷增加新的數(shù)據(jù)內(nèi)容。數(shù)據(jù)倉庫系統(tǒng)必須不斷捕捉OLTP數(shù)據(jù)庫中變化的數(shù)據(jù),追加到數(shù)據(jù)倉庫中去,也就是要不斷地生成OLTP數(shù)據(jù)庫的快照,經(jīng)統(tǒng)一集成后增加到數(shù)據(jù)倉庫中去;但對于確實不再變化的數(shù)據(jù)庫快照,如果捕捉到新的變化數(shù)據(jù),則只生成一個新的數(shù)據(jù)庫快照增加進去,而不會對原有的數(shù)據(jù)庫快照進行修改。(2)數(shù)據(jù)倉庫隨時間變化不斷刪去舊的數(shù)據(jù)內(nèi)容。數(shù)據(jù)倉庫的數(shù)據(jù)也有存儲期限,一旦超過了這一期限,過期數(shù)據(jù)就要被刪除。只是數(shù)據(jù)倉庫內(nèi)的數(shù)據(jù)時限要遠遠長于操作型環(huán)境中的數(shù)據(jù)時限。在操作型環(huán)境中一般只保存有60~90天的數(shù)據(jù),而在數(shù)據(jù)倉庫中則需要保存較長時限的數(shù)據(jù)(如5~10年),以適應DSS進行趨勢分析的要求。(3)數(shù)據(jù)倉庫中包含有大量的綜合數(shù)據(jù),這些綜合數(shù)據(jù)中很多跟時間有關,如數(shù)據(jù)經(jīng)常按照時間段進行綜合,或隔一定的時間片進行抽樣等等。這些數(shù)據(jù)要隨著時間的變化不斷地進行重新綜合。因此,數(shù)據(jù)倉庫的數(shù)據(jù)特征都包含時間項,以標明數(shù)據(jù)的歷史時期。
三:數(shù)據(jù)倉庫發(fā)展歷程
數(shù)據(jù)倉庫的發(fā)展大致經(jīng)歷了這樣的三個過程:
1、簡單報表階段:這個階段,系統(tǒng)的主要目標是解決一些日常的工作中業(yè)務人員需要的報表,以及生成一些簡單的能夠幫助領導進行決策所需要的匯總數(shù)據(jù)。這個階段的大部分表現(xiàn)形式為數(shù)據(jù)庫和前端報表工具。
2、數(shù)據(jù)集市階段:這個階段,主要是根據(jù)某個業(yè)務部門的需要,進行一定的數(shù)據(jù)的采集,整理,按照業(yè)務人員的需要,進行多維報表的展現(xiàn),能夠提供對特定業(yè)務指導的數(shù)據(jù),并且能夠提供特定的領導決策數(shù)據(jù)。
3、數(shù)據(jù)倉庫階段:這個階段,主要是按照一定的數(shù)據(jù)模型,對整個企業(yè)的數(shù)據(jù)進行采集,整理,并且能夠按照各個業(yè)務部門的需要,提供跨部門的,完全一致的業(yè)務報表數(shù)據(jù),能夠通過數(shù)據(jù)倉庫生成對對業(yè)務具有指導性的數(shù)據(jù),同時,為領導決策提供全面的數(shù)據(jù)支持。
通過數(shù)據(jù)倉庫建設的發(fā)展階段,我們能夠看出,數(shù)據(jù)倉庫的建設和數(shù)據(jù)集市的建設的重要區(qū)別就在于數(shù)據(jù)模型的支持。因此,數(shù)據(jù)模型的建設,對于我們數(shù)據(jù)倉庫的建設,有著決定性的意義。
四:數(shù)據(jù)庫與數(shù)據(jù)倉庫的區(qū)別
了解數(shù)據(jù)庫與數(shù)據(jù)倉庫的區(qū)別之前,首先掌握三個概念。數(shù)據(jù)庫軟件、數(shù)據(jù)庫、數(shù)據(jù)倉庫。
數(shù)據(jù)庫軟件:是一種軟件,可以看得見,可以操作。用來實現(xiàn)數(shù)據(jù)庫邏輯功能。屬于物理層。
數(shù)據(jù)庫:是一種邏輯概念,用來存放數(shù)據(jù)的倉庫。通過數(shù)據(jù)庫軟件來實現(xiàn)。數(shù)據(jù)庫由很多表組成,表是二維的,一張表里可以有很多字段。字段一字排開,對應的數(shù)據(jù)就一行一行寫入表中。數(shù)據(jù)庫的表,在于能夠用二維表現(xiàn)多維關系。目前市面上流行的數(shù)據(jù)庫都是二維數(shù)據(jù)庫。如:Oracle、DB2、MySQL、Sybase、MS SQL Server等。
數(shù)據(jù)倉庫:是數(shù)據(jù)庫概念的升級。從邏輯上理解,數(shù)據(jù)庫和數(shù)據(jù)倉庫沒有區(qū)別,都是通過數(shù)據(jù)庫軟件實現(xiàn)的存放數(shù)據(jù)的地方,只不過從數(shù)據(jù)量來說,數(shù)據(jù)倉庫要比數(shù)據(jù)庫更龐大得多。數(shù)據(jù)倉庫主要用于數(shù)據(jù)挖掘和數(shù)據(jù)分析,輔助領導做決策。
在IT的架構(gòu)體系中,數(shù)據(jù)庫是必須存在的。必須要有地方存放數(shù)據(jù)。比如現(xiàn)在的網(wǎng)購,淘寶,京東等等。物品的存貨數(shù)量,貨品的價格,用戶的賬戶余額之類的。這些數(shù)據(jù)都是存放在后臺數(shù)據(jù)庫中?;蛘咦詈唵卫斫?,我們現(xiàn)在微博,QQ等賬戶的用戶名和密碼。在后臺數(shù)據(jù)庫必然有一張user表,字段起碼有兩個,即用戶名和密碼,然后我們的數(shù)據(jù)就一行一行的存在表上面。當我們登錄的時候,我們填寫了用戶名和密碼,這些數(shù)據(jù)就會被傳回到后臺去,去跟表上面的數(shù)據(jù)匹配,匹配成功了,你就能登錄了。匹配不成功就會報錯說密碼錯誤或者沒有此用戶名等。這個就是數(shù)據(jù)庫,數(shù)據(jù)庫在生產(chǎn)環(huán)境就是用來干活的。凡是跟業(yè)務應用掛鉤的,我們都使用數(shù)據(jù)庫。
數(shù)據(jù)倉庫則是BI下的其中一種技術(shù)。由于數(shù)據(jù)庫是跟業(yè)務應用掛鉤的,所以一個數(shù)據(jù)庫不可能裝下一家公司的所有數(shù)據(jù)。數(shù)據(jù)庫的表設計往往是針對某一個應用進行設計的。比如剛才那個登錄的功能,這張user表上就只有這兩個字段,沒有別的字段了。但是這張表符合應用,沒有問題。但是這張表不符合分析。比如我想知道在哪個時間段,用戶登錄的量最多?哪個用戶一年購物最多?諸如此類的指標。那就要重新設計數(shù)據(jù)庫的表結(jié)構(gòu)了。對于數(shù)據(jù)分析和數(shù)據(jù)挖掘,我們引入數(shù)據(jù)倉庫概念。數(shù)據(jù)倉庫的表結(jié)構(gòu)是依照分析需求,分析維度,分析指標進行設計的。
數(shù)據(jù)庫與數(shù)據(jù)倉庫的區(qū)別實際講的是OLTP與OLAP的區(qū)別。
操作型處理,叫聯(lián)機事務處理OLTP(On-Line Transaction Processing,),也可以稱面向交易的處理系統(tǒng),它是針對具體業(yè)務在數(shù)據(jù)庫聯(lián)機的日常操作,通常對少數(shù)記錄進行查詢、修改。用戶較為關心操作的響應時間、數(shù)據(jù)的安全性、完整性和并發(fā)支持的用戶數(shù)等問題。傳統(tǒng)的數(shù)據(jù)庫系統(tǒng)作為數(shù)據(jù)管理的主要手段,主要用于操作型處理。
分析型處理,叫聯(lián)機分析處理OLAP(On-Line Analytical Processing)一般針對某些主題的歷史數(shù)據(jù)進行分析,支持管理決策。

五:數(shù)據(jù)倉庫架構(gòu)分層
數(shù)據(jù)倉庫標準上可以分為四層:ODS(臨時存儲層)、PDW(數(shù)據(jù)倉庫層)、DM(數(shù)據(jù)集市層)、APP(應用層)。

ODS層:
為臨時存儲層,是接口數(shù)據(jù)的臨時存儲區(qū)域,為后一步的數(shù)據(jù)處理做準備。一般來說ODS層的數(shù)據(jù)和源系統(tǒng)的數(shù)據(jù)是同構(gòu)的,主要目的是簡化后續(xù)數(shù)據(jù)加工處理的工作。從數(shù)據(jù)粒度上來說ODS層的數(shù)據(jù)粒度是最細的。ODS層的表通常包括兩類,一個用于存儲當前需要加載的數(shù)據(jù),一個用于存儲處理完后的歷史數(shù)據(jù)。歷史數(shù)據(jù)一般保存3-6個月后需要清除,以節(jié)省空間。但不同的項目要區(qū)別對待,如果源系統(tǒng)的數(shù)據(jù)量不大,可以保留更長的時間,甚至全量保存;
PDW層:
為數(shù)據(jù)倉庫層,PDW層的數(shù)據(jù)應該是一致的、準確的、干凈的數(shù)據(jù),即對源系統(tǒng)數(shù)據(jù)進行了清洗(去除了雜質(zhì))后的數(shù)據(jù)。這一層的數(shù)據(jù)一般是遵循數(shù)據(jù)庫第三范式的,其數(shù)據(jù)粒度通常和ODS的粒度相同。在PDW層會保存BI系統(tǒng)中所有的歷史數(shù)據(jù),例如保存10年的數(shù)據(jù)。
DM層:
為數(shù)據(jù)集市層,這層數(shù)據(jù)是面向主題來組織數(shù)據(jù)的,通常是星形或雪花結(jié)構(gòu)的數(shù)據(jù)。從數(shù)據(jù)粒度來說,這層的數(shù)據(jù)是輕度匯總級的數(shù)據(jù),已經(jīng)不存在明細數(shù)據(jù)了。從數(shù)據(jù)的時間跨度來說,通常是PDW層的一部分,主要的目的是為了滿足用戶分析的需求,而從分析的角度來說,用戶通常只需要分析近幾年(如近三年的數(shù)據(jù))的即可。從數(shù)據(jù)的廣度來說,仍然覆蓋了所有業(yè)務數(shù)據(jù)。
APP層:
為應用層,這層數(shù)據(jù)是完全為了滿足具體的分析需求而構(gòu)建的數(shù)據(jù),也是星形或雪花結(jié)構(gòu)的數(shù)據(jù)。從數(shù)據(jù)粒度來說是高度匯總的數(shù)據(jù)。從數(shù)據(jù)的廣度來說,則并不一定會覆蓋所有業(yè)務數(shù)據(jù),而是DM層數(shù)據(jù)的一個真子集,從某種意義上來說是DM層數(shù)據(jù)的一個重復。從極端情況來說,可以為每一張報表在APP層構(gòu)建一個模型來支持,達到以空間換時間的目的數(shù)據(jù)倉庫的標準分層只是一個建議性質(zhì)的標準,實際實施時需要根據(jù)實際情況確定數(shù)據(jù)倉庫的分層,不同類型的數(shù)據(jù)也可能采取不同的分層方法。
為什么要對數(shù)據(jù)倉庫分層:
1、用空間換時間,通過大量的預處理來提升應用系統(tǒng)的用戶體驗(效率),因此數(shù)據(jù)倉庫會存在大量冗余的數(shù)據(jù);
2、如果不分層的話,如果源業(yè)務系統(tǒng)的業(yè)務規(guī)則發(fā)生變化將會影響整個數(shù)據(jù)清洗過程,工作量巨大
3、通過數(shù)據(jù)分層管理可以簡化數(shù)據(jù)清洗的過程,因為把原來一步的工作分到了多個步驟去完成,相當于把一個復雜的工作拆成了多個簡單的工作,把一個大的黑盒變成了一個白盒,每一層的處理邏輯都相對簡單和容易理解,這樣我們比較容易保證每一個步驟的正確性,當數(shù)據(jù)發(fā)生錯誤的時候,往往我們只需要局部調(diào)整某個步驟即可。
六:元數(shù)據(jù)介紹
當需要了解某地企業(yè)及其提供的服務時,電話黃頁的重要性就體現(xiàn)出來了。元數(shù)據(jù)(Metadata)類似于這樣的電話黃頁。

1.元數(shù)據(jù)的定義
數(shù)據(jù)倉庫的元數(shù)據(jù)是關于數(shù)據(jù)倉庫中數(shù)據(jù)的數(shù)據(jù)。它的作用類似于數(shù)據(jù)庫管理系統(tǒng)的數(shù)據(jù)字典,保存了邏輯數(shù)據(jù)結(jié)構(gòu)、文件、地址和索引等信息。廣義上講,在數(shù)據(jù)倉庫中,元數(shù)據(jù)描述了數(shù)據(jù)倉庫內(nèi)數(shù)據(jù)的結(jié)構(gòu)和建立方法的數(shù)據(jù)。
元數(shù)據(jù)是數(shù)據(jù)倉庫管理系統(tǒng)的重要組成部分,元數(shù)據(jù)管理器是企業(yè)級數(shù)據(jù)倉庫中的關鍵組件,貫穿數(shù)據(jù)倉庫構(gòu)建的整個過程,直接影響著數(shù)據(jù)倉庫的構(gòu)建、使用和維護。
(1)構(gòu)建數(shù)據(jù)倉庫的主要步驟之一是ETL。這時元數(shù)據(jù)將發(fā)揮重要的作用,它定義了源數(shù)據(jù)系統(tǒng)到數(shù)據(jù)倉庫的映射、數(shù)據(jù)轉(zhuǎn)換的規(guī)則、數(shù)據(jù)倉庫的邏輯結(jié)構(gòu)、數(shù)據(jù)更新的規(guī)則、數(shù)據(jù)導入歷史記錄以及裝載周期等相關內(nèi)容。數(shù)據(jù)抽取和轉(zhuǎn)換的專家以及數(shù)據(jù)倉庫管理員正是通過元數(shù)據(jù)高效地構(gòu)建數(shù)據(jù)倉庫。
(2)用戶在使用數(shù)據(jù)倉庫時,通過元數(shù)據(jù)訪問數(shù)據(jù),明確數(shù)據(jù)項的含義以及定制報表。
(3)數(shù)據(jù)倉庫的規(guī)模及其復雜性離不開正確的元數(shù)據(jù)管理,包括增加或移除外部數(shù)據(jù)源,改變數(shù)據(jù)清洗方法,控制出錯的查詢以及安排備份等。
元數(shù)據(jù)可分為技術(shù)元數(shù)據(jù)和業(yè)務元數(shù)據(jù)。技術(shù)元數(shù)據(jù)為開發(fā)和管理數(shù)據(jù)倉庫的IT人員使用,它描述了與數(shù)據(jù)倉庫開發(fā)、管理和維護相關的數(shù)據(jù),包括數(shù)據(jù)源信息、數(shù)據(jù)轉(zhuǎn)換描述、數(shù)據(jù)倉庫模型、數(shù)據(jù)清洗與更新規(guī)則、數(shù)據(jù)映射和訪問權(quán)限等。而業(yè)務元數(shù)據(jù)為管理層和業(yè)務分析人員服務,從業(yè)務角度描述數(shù)據(jù),包括商務術(shù)語、數(shù)據(jù)倉庫中有什么數(shù)據(jù)、數(shù)據(jù)的位置和數(shù)據(jù)的可用性等,幫助業(yè)務人員更好地理解數(shù)據(jù)倉庫中哪些數(shù)據(jù)是可用的以及如何使用。
由上可見,元數(shù)據(jù)不僅定義了數(shù)據(jù)倉庫中數(shù)據(jù)的模式、來源、抽取和轉(zhuǎn)換規(guī)則等,而且是整個數(shù)據(jù)倉庫系統(tǒng)運行的基礎,元數(shù)據(jù)把數(shù)據(jù)倉庫系統(tǒng)中各個松散的組件聯(lián)系起來,組成了一個有機的整體,如圖3.5所示
2.元數(shù)據(jù)的存儲方式
元數(shù)據(jù)有兩種常見存儲方式:一種是以數(shù)據(jù)集為基礎,每一個數(shù)據(jù)集有對應的元數(shù)據(jù)文件,每一個元數(shù)據(jù)文件包含對應數(shù)據(jù)集的元數(shù)據(jù)內(nèi)容;另一種存儲方式是以數(shù)據(jù)庫為基礎,即元數(shù)據(jù)庫。其中元數(shù)據(jù)文件由若干項組成,每一項表示元數(shù)據(jù)的一個要素,每條記錄為數(shù)據(jù)集的元數(shù)據(jù)內(nèi)容。上述存儲方式各有優(yōu)缺點,第一種存儲方式的優(yōu)點是調(diào)用數(shù)據(jù)時相應的元數(shù)據(jù)也作為一個獨立的文件被傳輸,相對數(shù)據(jù)庫有較強的獨立性,在對元數(shù)據(jù)進行檢索時可以利用數(shù)據(jù)庫的功能實現(xiàn),也可以把元數(shù)據(jù)文件調(diào)到其他數(shù)據(jù)庫系統(tǒng)中操作;不足是如果每一數(shù)據(jù)集都對應一個元數(shù)據(jù)文檔,在規(guī)模巨大的數(shù)據(jù)庫中則會有大量的元數(shù)據(jù)文件,管理不方便。第二種存儲方式下,元數(shù)據(jù)庫中只有一個元數(shù)據(jù)文件,管理比較方便,添加或刪除數(shù)據(jù)集,只要在該文件中添加或刪除相應的記錄項即可。在獲取某數(shù)據(jù)集的元數(shù)據(jù)時,因為實際得到的只是關系表格數(shù)據(jù)的一條記錄,所以要求用戶系統(tǒng)可以接受這種特定形式的數(shù)據(jù)。因此推薦使用元數(shù)據(jù)庫的方式。
元數(shù)據(jù)庫用于存儲元數(shù)據(jù),因此元數(shù)據(jù)庫最好選用主流的關系數(shù)據(jù)庫管理系統(tǒng)。元數(shù)據(jù)庫還包含用于操作和查詢元數(shù)據(jù)的機制。建立元數(shù)據(jù)庫的主要好處是提供統(tǒng)一的數(shù)據(jù)結(jié)構(gòu)和業(yè)務規(guī)則,易于把企業(yè)內(nèi)部的多個數(shù)據(jù)集市有機地集成起來。目前,一些企業(yè)傾向建立多個數(shù)據(jù)集市,而不是一個集中的數(shù)據(jù)倉庫,這時可以考慮在建立數(shù)據(jù)倉庫(或數(shù)據(jù)集市)之前,先建立一個用于描述數(shù)據(jù)、服務應用集成的元數(shù)據(jù)庫,做好數(shù)據(jù)倉庫實施的初期支持工作,對后續(xù)開發(fā)和維護有很大的幫助。元數(shù)據(jù)庫保證了數(shù)據(jù)倉庫數(shù)據(jù)的一致性和準確性,為企業(yè)進行數(shù)據(jù)質(zhì)量管理提供基礎。
3.元數(shù)據(jù)的作用
在數(shù)據(jù)倉庫中,元數(shù)據(jù)的主要作用如下。
(1)描述哪些數(shù)據(jù)在數(shù)據(jù)倉庫中,幫助決策分析者對數(shù)據(jù)倉庫的內(nèi)容定位。
(2)定義數(shù)據(jù)進入數(shù)據(jù)倉庫的方式,作為數(shù)據(jù)匯總、映射和清洗的指南。
(3)記錄業(yè)務事件發(fā)生而隨之進行的數(shù)據(jù)抽取工作時間安排。
(4)記錄并檢測系統(tǒng)數(shù)據(jù)一致性的要求和執(zhí)行情況。
(5)評估數(shù)據(jù)質(zhì)量。