數(shù)據(jù)倉(cāng)庫(kù)第三章整理——數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)

一、數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)方法概述

(一)DW設(shè)計(jì)與DB設(shè)計(jì)方法的比較

1.處理類(lèi)型不同

(1)DB:操作型數(shù)據(jù)環(huán)境,面向業(yè)務(wù)

(2)DW:面向主題的分析型數(shù)據(jù)環(huán)境,面向分析,從基本主題開(kāi)始,不斷發(fā)展新主題

2.面向需求不同

(1)DB:一組較確定的應(yīng)用(業(yè)務(wù)處理)需求,較確定的數(shù)據(jù)流

(2)DW:需求不確切;分析處理需求靈活;沒(méi)有固定模式;用戶(hù)對(duì)分析處理需求不甚明了;其設(shè)計(jì)很難以需求為基礎(chǔ)

3.設(shè)計(jì)目標(biāo)不同:

(1)DB:事務(wù)處理的性能(OLTP),支持多用戶(hù)并發(fā)訪(fǎng)問(wèn),高效的增、刪、改操作

(2)DW:建立DSS的數(shù)據(jù)環(huán)境,全局的分析環(huán)境,支持用戶(hù)快速的分析和查詢(xún)

4.數(shù)據(jù)來(lái)源不同

(1)DB:企業(yè)的業(yè)務(wù)流中產(chǎn)生的數(shù)據(jù)

(2)DW:系統(tǒng)內(nèi)部,主要從OLTP系統(tǒng)中獲取,經(jīng)過(guò)轉(zhuǎn)換、重組、綜合;同時(shí)包括部分外部信息

5.設(shè)計(jì)方法不同:

(1)DB:SDLC——應(yīng)用需求驅(qū)動(dòng)

(2)DW:CLDS——數(shù)據(jù)驅(qū)動(dòng)+需求驅(qū)動(dòng)

(二)數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)方法

1.在數(shù)據(jù)倉(cāng)庫(kù)建設(shè)過(guò)程中明確需求

(1)數(shù)據(jù)倉(cāng)庫(kù)建造過(guò)程中,如果開(kāi)發(fā)者等完全明確需求中之后開(kāi)始工作,那么這個(gè)倉(cāng)庫(kù)永遠(yuǎn)見(jiàn)不起來(lái)

(2)開(kāi)發(fā)人員與DSS分析員的反饋循環(huán)十分重要

2.數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)原則

(1)堅(jiān)持“以數(shù)據(jù)驅(qū)動(dòng)為中心,數(shù)據(jù)驅(qū)動(dòng)和需求驅(qū)動(dòng)相結(jié)合”的原則

? 【1】數(shù)據(jù)驅(qū)動(dòng)是指根據(jù)當(dāng)前數(shù)據(jù)基礎(chǔ)和質(zhì)量等情況,進(jìn)行數(shù)據(jù)源分析

? 【2】需求驅(qū)動(dòng)是指根據(jù)業(yè)務(wù)方向性需求、業(yè)務(wù)問(wèn)題等,確定系統(tǒng)范圍和需求框架

(2)堅(jiān)持“統(tǒng)一規(guī)劃、分步實(shí)施、步步見(jiàn)效、逐步完善的原則”

(3)開(kāi)發(fā)模型:演化模型(快速原型法)

(4)企業(yè)數(shù)據(jù)倉(cāng)庫(kù)的建設(shè)需要領(lǐng)域展架和數(shù)據(jù)倉(cāng)庫(kù)技術(shù)專(zhuān)家之間的相互協(xié)作

3.在實(shí)際工程中的設(shè)計(jì)方法

(1)數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)和實(shí)現(xiàn)是一項(xiàng)工程,是不斷建立、發(fā)展和完善、循環(huán)求精的過(guò)程,并不是一個(gè)可以簡(jiǎn)單購(gòu)買(mǎi)的產(chǎn)品

(2)確定范圍與項(xiàng)目定義

? 【1】主要任務(wù):系統(tǒng)邊界的界定;定義并描述項(xiàng)目

? 【2】步驟: 了解用戶(hù)方向性需求,發(fā)現(xiàn)業(yè)務(wù)問(wèn)題,確定范圍;

? ? ? ? ? ? ? ? ? ? 對(duì)業(yè)務(wù)問(wèn)題進(jìn)行排序,選擇高優(yōu)先級(jí)業(yè)務(wù)問(wèn)題,界定系統(tǒng)邊界;

? ? ? ? ? ? ? ? ? ? 定義和識(shí)別項(xiàng)目的目的、范圍、前景、價(jià)值、約束、風(fēng)險(xiǎn)、障礙等,制定質(zhì)量管理、配置管理等計(jì)劃,形成

? ? ? ? ? ? ? ? ? ? 項(xiàng)目定義文檔 ;

? ? ? ? ? ? ? ? ? ? 確定主題域,建立概念模型

(3)應(yīng)用系統(tǒng)及其數(shù)據(jù)的調(diào)研與分析

? 【1】目標(biāo):為數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)發(fā)現(xiàn)運(yùn)行穩(wěn)定、數(shù)據(jù)可靠的源系統(tǒng),并考察其數(shù)據(jù)情況

? 【2】主要任務(wù):對(duì)系統(tǒng)邊界內(nèi)的應(yīng)用系統(tǒng)進(jìn)行調(diào)研和分析,制定高層應(yīng)用系統(tǒng)流程圖,識(shí)別所有主要的應(yīng)用系統(tǒng)及其主要

? ? ? ? ? ? ? ? ? ? ? ? 內(nèi)容;

? ? ? ? ? ? ? ? ? ? ? ? 分析主要應(yīng)用系統(tǒng)的數(shù)據(jù),形成應(yīng)用系統(tǒng)數(shù)據(jù)分析文檔;

(4)數(shù)據(jù)驅(qū)動(dòng)系統(tǒng)設(shè)計(jì)方法的基本思路

? 【1】從源數(shù)據(jù)出發(fā),分析數(shù)據(jù),為新應(yīng)用(分析處理)所用

? 【2】根據(jù)分析處理的特點(diǎn)重新考察數(shù)據(jù)間聯(lián)系,重組數(shù)據(jù)

? 【3】數(shù)據(jù)(結(jié)構(gòu))具有相對(duì)的穩(wěn)定性,而處理變化很快,強(qiáng)調(diào)具有相對(duì)的穩(wěn)定性,二處理變化很快,強(qiáng)調(diào)數(shù)據(jù)模型的作用,支持識(shí)別DB與DW中數(shù)據(jù)的“共同性”

(三)DW設(shè)計(jì)的三級(jí)數(shù)據(jù)模型

1.DB與DW三級(jí)數(shù)據(jù)模型的區(qū)別:

(1)DW的數(shù)據(jù)模型中擴(kuò)充了碼結(jié)構(gòu),包含時(shí)間元素

(2)DW的數(shù)據(jù)模型中不包含純操作型數(shù)據(jù);但包含一些導(dǎo)出數(shù)據(jù)? ? ? ? ? ? ? ? ? ? ?

2.DW設(shè)計(jì)的三級(jí)數(shù)據(jù)模型

(1)概念模型:“信息世界”中的信息結(jié)構(gòu),用E-R方法,以主題替代實(shí)體

(2)邏輯模型:一般采用關(guān)系模型

(3)物理模型:物理存儲(chǔ)結(jié)構(gòu)、存儲(chǔ)方法? 如建立數(shù)據(jù)分片、合并表、建立包括廣義索引在內(nèi)的各種索引機(jī)制

3.Inmon的三級(jí)數(shù)據(jù)模型

(1)高級(jí)數(shù)據(jù)模型:采用E-R方法,E-R圖中的每個(gè)實(shí)體都有預(yù)期對(duì)應(yīng)的DIS進(jìn)一步定義

(2)中級(jí)數(shù)據(jù)模型:稱(chēng)為dis(Data ItemSet)一個(gè)dis與E-R中的一個(gè)主題域?qū)?yīng)

? 【1】dis的基本結(jié)構(gòu)

? ? ? 基本數(shù)據(jù)組:應(yīng)包括主題的碼和屬性,一個(gè)主題只存在一個(gè)基本數(shù)據(jù)組

? ? ? 連接數(shù)據(jù)組:反映主題之間的聯(lián)系,往往是一個(gè)主題的公共碼鍵;在ER圖中表明的關(guān)系在DIS中由連接數(shù)據(jù)組體現(xiàn)

? ? ? 二級(jí)數(shù)據(jù)組:相對(duì)穩(wěn)定的數(shù)據(jù)組

? ? ? 類(lèi)型數(shù)據(jù)組:頻繁變動(dòng)的數(shù)據(jù)組? ? ? ? ? ? ? ? 穩(wěn)定性:基本數(shù)據(jù)組 > 二維數(shù)據(jù)組 > 類(lèi)型數(shù)據(jù)組? ? ?

(3)低級(jí)數(shù)據(jù)模型:物理模型

4.確定集成范圍和穩(wěn)定性分析

(1)確定集成范圍:定義數(shù)據(jù)模型的邊界,確定實(shí)體屬于或不屬于模型范圍

? 【1】集成范圍需要在建模之前進(jìn)行定義

? 【2】集成范圍由系統(tǒng)的建模者、管理人員和最終用戶(hù)共同確定

(2)穩(wěn)定性分析:

? 【1】根據(jù)各個(gè)數(shù)據(jù)屬性是否經(jīng)常變化的特性將這些屬性分組

? 【2】按這些屬性分組進(jìn)行表的劃分

(四)性能問(wèn)題

提高系統(tǒng)新能,主要是提高系統(tǒng)的物理I/O性能

在數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)中,應(yīng)盡量減少每次查詢(xún)處理要求的I/O次數(shù),而使每次I/O又能返回盡量多的記錄

提高數(shù)據(jù)倉(cāng)庫(kù)性能的主要途徑:

1.粒度劃分

(1)粒度:數(shù)據(jù)的綜合程度? 細(xì)節(jié)——輕度綜合——高度綜合

? 【1】一張表的數(shù)據(jù)量很大時(shí),就需要兩個(gè)級(jí)別的粒度

? 【2】粒度的劃分,主要考慮行數(shù)。因?yàn)榘葱薪M織索引,索引依賴(lài)于行數(shù),索引大小直接影響I/O次數(shù)

? 【3】提高粒度的方法:當(dāng)源數(shù)據(jù)放入數(shù)據(jù)倉(cāng)庫(kù)時(shí),對(duì)它進(jìn)行匯總;

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 當(dāng)源數(shù)據(jù)放入數(shù)據(jù)倉(cāng)庫(kù)時(shí),對(duì)它求平均或進(jìn)行計(jì)算;

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 把最大/最小的一組值放入數(shù)據(jù)倉(cāng)庫(kù);

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 只把顯然需要的數(shù)據(jù)放入數(shù)據(jù)倉(cāng)庫(kù);

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 用條件邏輯選取記錄的一個(gè)子集放入數(shù)據(jù)倉(cāng)庫(kù);

? 【4】主要目的是:減少索引時(shí)所需要的I/O次數(shù),通過(guò)增加中間值或者選取一部分?jǐn)?shù)據(jù)使查詢(xún)某一數(shù)據(jù)時(shí)不用遍歷全表

2.數(shù)據(jù)分片

(1)分片:把邏輯上統(tǒng)一的數(shù)據(jù)分割成較小的、可以獨(dú)立物理的物理單元(分片)進(jìn)行存儲(chǔ)

(2)為什么需要數(shù)據(jù)分片

在OLTP環(huán)境中,修改操作較為頻繁,采用數(shù)據(jù)分片技術(shù)容易導(dǎo)致記錄在分片之間的轉(zhuǎn)移,轉(zhuǎn)移代價(jià)較高;在OLAP環(huán)境中,數(shù)據(jù)極少更新,利用數(shù)據(jù)分片拘束可以大大提高性能

? 【1】減少內(nèi)存的使用空間:系統(tǒng)僅需要將用戶(hù)查詢(xún)所涉及的數(shù)據(jù)調(diào)入內(nèi)存

? 【2】Join操作代價(jià)較低:將一個(gè)大的Join擦歐總分解為若干個(gè)小Join操作之和

? 【3】數(shù)據(jù)分片后,可以利用并行操作提升查詢(xún)的效率

? 【4】增加靈活性。

(3)數(shù)據(jù)分片的標(biāo)準(zhǔn)

? 【1】數(shù)據(jù)量的大小

? 【2】數(shù)據(jù)分片處理的對(duì)象的特征以及屬性之間的相關(guān)性

? 【3】易于實(shí)現(xiàn)

? 【4】與粒度劃分策略統(tǒng)一起來(lái)

例如:按時(shí)間與商品類(lèi)對(duì)銷(xiāo)售數(shù)據(jù)進(jìn)行綜合(粒度劃分)

? ? ? ? 每一粒度再按時(shí)間與商品類(lèi)進(jìn)行分片,分片后仍便于做高度綜合

(4)數(shù)據(jù)分片策略

對(duì)于給定的磁盤(pán)個(gè)數(shù),進(jìn)行數(shù)據(jù)分片的方法

? 【1】范圍分片:利用屬性值的范圍進(jìn)行數(shù)據(jù)分片

? ? ? ? 優(yōu)點(diǎn):數(shù)據(jù)邏輯比較清楚

? ? ? ? 缺點(diǎn):導(dǎo)致數(shù)據(jù)分配的不平衡

? 【2】循環(huán)輪轉(zhuǎn)法:按照一定順序,一次存放各個(gè)數(shù)據(jù)。數(shù)據(jù)分配均勻。

? 【3】Hashing方法:利用Hash函數(shù)。數(shù)據(jù)分配均勻

3.合并表

當(dāng)有許多表時(shí),動(dòng)態(tài)連接需要進(jìn)行大量的I/O,表在物理上合并之后,只需要較少的I/O

(1)數(shù)據(jù)數(shù)組

在合適的情況下,創(chuàng)建數(shù)據(jù)數(shù)組可以提高性能,節(jié)約資源

【1】數(shù)列中值的數(shù)量穩(wěn)定

【2】數(shù)值按順序訪(fǎng)問(wèn)

【3】創(chuàng)建于修改有規(guī)律

4.選擇冗余

一項(xiàng)數(shù)據(jù)屬性(主外碼不算此類(lèi))存在于多個(gè)關(guān)系模式中,提高了性能,省去了Join操作

5.進(jìn)一步分離數(shù)據(jù)

根據(jù)訪(fǎng)問(wèn)概率的巨大差異進(jìn)一步分離數(shù)據(jù)

6.導(dǎo)出數(shù)據(jù)

事先在源數(shù)據(jù)基礎(chǔ)上,進(jìn)行匯總或計(jì)算,生成導(dǎo)出數(shù)據(jù),導(dǎo)出數(shù)據(jù),只計(jì)算一次就可以永久使用

7.建立廣義索引

(1)位圖索引

? 【1】針對(duì)一些特殊的列建立索引

? 【2】列中的每一個(gè)值對(duì)應(yīng)一個(gè)向量中的一位

? 【3】向量的長(zhǎng)度對(duì)應(yīng)于記錄的條數(shù)

? 【4】不適合列中值的個(gè)數(shù)太多的情況

(2)連接索引

一個(gè)表對(duì)另一個(gè)表中包含本表中相關(guān)列內(nèi)容進(jìn)行索引

(3)建立廣義(創(chuàng)造性)索引

? 【1】用于處理最大(小)值問(wèn)題

? 【2】當(dāng)數(shù)據(jù)裝入到DW時(shí),生成“廣義索引”內(nèi)容

? 【3】廣義索引隨著數(shù)據(jù)倉(cāng)庫(kù)的發(fā)展,數(shù)目會(huì)增加,但每個(gè)索引的規(guī)模小,需要在元數(shù)據(jù)中定義“廣義索引”

? ? ? ? 元數(shù)據(jù):關(guān)于數(shù)據(jù)的數(shù)據(jù);描述數(shù)據(jù)結(jié)構(gòu)、內(nèi)容、碼、索引等信息

? ? ? ? 元數(shù)據(jù)的重要性:管理人員做分析時(shí),往往先從元數(shù)據(jù)入手。例如:從元數(shù)據(jù)中查找廣義索引,在進(jìn)一步搜索

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 支持?jǐn)?shù)據(jù)轉(zhuǎn)換:DB環(huán)境的數(shù)據(jù) DW環(huán)境的數(shù)據(jù)

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 元數(shù)據(jù)描述“轉(zhuǎn)換”;元數(shù)據(jù)本身具有良好的靈活性,適應(yīng)變化。

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 支持對(duì)數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的理解,例如:結(jié)構(gòu)、粒度層次、分片策略、索引等

二、數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)步驟

基本思路:

? 數(shù)據(jù)驅(qū)動(dòng):

? ? 從現(xiàn)存數(shù)據(jù)庫(kù)系統(tǒng)基礎(chǔ)上進(jìn)行開(kāi)發(fā):抽取、綜合、集成

? ? 服務(wù)管理決策分析

? 原型法:

? ? 不斷反饋、循環(huán)、理解需求,使系統(tǒng)增長(zhǎng)、完善

? ? 步驟是大體上的,不是絕對(duì)的順序

? ? 決策人員的參與極其重要

? 大體步驟:

? ? 概念模型設(shè)計(jì)? 邏輯模型設(shè)計(jì)? 物理模型設(shè)計(jì)

? ? 數(shù)據(jù)倉(cāng)庫(kù)生成? 數(shù)據(jù)倉(cāng)庫(kù)運(yùn)行與維護(hù)

(一)概念模型設(shè)計(jì)

1.任務(wù):

(1)確定系統(tǒng)邊界

? 【1】深入了解目前擁有的操作型數(shù)據(jù)

? 【2】了解方向性需求

? 【3】確定信息需求,確定數(shù)據(jù)覆蓋范圍

? 【4】了解源數(shù)據(jù)的狀況? ? 例如“涉及的信息”包含DB中哪些部分

(2)確定主題域

? 【1】確定系統(tǒng)所包含的主題域

? 【2】確定主題域的內(nèi)容:公共碼鍵,代表主題的屬性組

? 【3】主題域之間的聯(lián)系

(二)邏輯模型設(shè)計(jì)任務(wù)

1.對(duì)主題域中所包含的內(nèi)容進(jìn)行進(jìn)一步的細(xì)化,每一主題域包含若干個(gè)數(shù)據(jù)組

2.消除純粹是操作型的數(shù)據(jù):如操作人員、校對(duì)人員、客戶(hù)電話(huà)號(hào)碼等

3.對(duì)主題域之間的關(guān)系進(jìn)一步細(xì)化為表與表之間的關(guān)系,對(duì)多對(duì)多的關(guān)系進(jìn)行有效分析

4.增加時(shí)間屬性:數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)反映歷史變化的過(guò)程,它是一定時(shí)間的數(shù)據(jù)快照,因此必須包含時(shí)間主鍵。

(三)邏輯模型具體任務(wù)

1.分析主題域

(1)對(duì)E-R概念模型中的主題進(jìn)行選取,選取當(dāng)前實(shí)施的主題域

(2)選取主題域大(足以建立一個(gè)可應(yīng)用系統(tǒng))?。▽?shí)施快、方便)合適

2.粒度層次的劃分

(1)數(shù)據(jù)量很大,宜采用多重粒度

(2)對(duì)商品銷(xiāo)售記錄

3.數(shù)據(jù)分片策略

(1)數(shù)據(jù)量大小

(2)數(shù)據(jù)分析處理要求:與分析處理的對(duì)象有關(guān)

(3)分片標(biāo)準(zhǔn):盡量自然、易實(shí)施

(4)與粒度層次劃分相適應(yīng)

4.引入冗余

(1)提高查詢(xún)效率,減少Join操作

5.增加導(dǎo)出數(shù)據(jù)

(1)增加派生數(shù)據(jù):對(duì)于用戶(hù)經(jīng)常需要分析的數(shù)據(jù),或者未來(lái)提供系統(tǒng)訪(fǎng)問(wèn)的效率,可以適當(dāng)增加派生數(shù)據(jù)

6.簡(jiǎn)要記錄

(1)把操作型數(shù)據(jù)中許多不同的、詳細(xì)記錄組合一起;以聚集形式代表許多條操作型記錄

(2)優(yōu)點(diǎn):

? 【1】為最終用戶(hù)的訪(fǎng)問(wèn)和分析提供了一種緊湊方便的數(shù)據(jù)組織形式

? 【2】使數(shù)據(jù)量降低2-3個(gè)數(shù)量級(jí)

(3)缺點(diǎn):信息的細(xì)節(jié)程度降低

7.關(guān)系模式定義——實(shí)質(zhì)就是對(duì)表的定義,確定各個(gè)表和表的公共鍵

(1)由多個(gè)表來(lái)實(shí)現(xiàn)主題,各表之間安依靠公共碼鍵相聯(lián)系

(2)表的劃分,各個(gè)表的關(guān)系模式,細(xì)節(jié)數(shù)據(jù)用表來(lái)組織;綜合數(shù)據(jù)也用表來(lái)組織

8.定義記錄系統(tǒng)——從現(xiàn)有系統(tǒng)環(huán)境中選取與主題域最貼切的數(shù)據(jù)作為定義記錄系統(tǒng)

(1)根據(jù)DW中多個(gè)表的關(guān)系模式,從源數(shù)據(jù)中選擇最合適的數(shù)據(jù)作為記錄系統(tǒng)

(2)所選數(shù)據(jù)所在表的關(guān)系模式最接近DW中多個(gè)表的關(guān)系模式

(3)記錄系統(tǒng)定義,計(jì)入DW的元數(shù)據(jù)中

(4)表述數(shù)據(jù)模型的最好數(shù)據(jù):最實(shí)時(shí)、最準(zhǔn)確、最完備、與輸入現(xiàn)存系統(tǒng)環(huán)境的數(shù)據(jù)源最近、具有結(jié)構(gòu)兼容性

9.重建操作型處理環(huán)境

(1)原因:操作型環(huán)境處于一種“混亂”狀態(tài):系統(tǒng)老化、技術(shù)老化、組織上的巨變、大幅度改變了需求

(2)數(shù)據(jù)體系結(jié)構(gòu)設(shè)計(jì)人員得將變化動(dòng)因與體系結(jié)構(gòu)的鈣奶呢結(jié)合起來(lái),實(shí)現(xiàn)操作型處理環(huán)境的重建

? 【1】差異列表:該數(shù)據(jù)模型與現(xiàn)存系統(tǒng)不同之處

? 【2】影響分析:每一個(gè)差異項(xiàng)目是如何表明差異的

? 【3】資源估計(jì):修復(fù)差異項(xiàng)目需要多少費(fèi)用

? 【4】給管理層的報(bào)告:需要修復(fù)什么、估計(jì)需要什么資源、工序、損失分析

(三)物理模型設(shè)計(jì)

1.確定數(shù)據(jù)的存儲(chǔ)結(jié)構(gòu)

選擇合適的存儲(chǔ)結(jié)構(gòu)時(shí)的主要因素:

(1)存取時(shí)間

(2)存儲(chǔ)空間利用率

(3)維護(hù)代價(jià)

2.確定索引策略

根據(jù)DW中數(shù)據(jù)不可更新的特點(diǎn),可以設(shè)計(jì)多種索引,如廣義索引,放在元數(shù)據(jù)中

3.確定數(shù)據(jù)的存放位置

(1)根據(jù)重要程度、使用頻繁和響應(yīng)時(shí)間對(duì)數(shù)據(jù)進(jìn)行分類(lèi),不同類(lèi)的數(shù)據(jù)可以存放在不同的存儲(chǔ)設(shè)備中

(2)考慮冗余存儲(chǔ)、數(shù)據(jù)序列等方法

4.確定存儲(chǔ)分配

選擇存儲(chǔ)分配的參數(shù)(設(shè)定),進(jìn)行優(yōu)化,如:存儲(chǔ)開(kāi)的大小、緩沖區(qū)的大小和個(gè)數(shù)

(四)數(shù)據(jù)倉(cāng)庫(kù)的生成

1.轉(zhuǎn)換和集成的復(fù)雜性

(1)遷移時(shí)的技術(shù)難度:

? 【1】DBMS的變化,即記錄系統(tǒng)是在一個(gè)DBMS中,而數(shù)據(jù)倉(cāng)庫(kù)在另一個(gè)DBMS中

? 【2】操作系統(tǒng)的變化,記錄系統(tǒng)在一個(gè)操作系統(tǒng)中,而數(shù)據(jù)倉(cāng)庫(kù)在另一個(gè)操作系統(tǒng)中

? 【3】記錄系統(tǒng)涉及多個(gè)DBMS和/或操作系統(tǒng)時(shí),需要將源自不同DBMS和操作系統(tǒng)的數(shù)據(jù)合并起來(lái)

? 【4】在Web記錄中獲取基于Web的數(shù)據(jù),一旦捕獲到數(shù)據(jù)以后如何將數(shù)據(jù)放入數(shù)據(jù)倉(cāng)庫(kù)中使用

? 【5】基本數(shù)據(jù)格式的變化,如某個(gè)環(huán)節(jié)難過(guò)中的數(shù)據(jù)是用ASCII碼存儲(chǔ)的,而數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是用EBCDIC存儲(chǔ)

(2)選擇數(shù)據(jù)十分復(fù)雜,為判定一個(gè)記錄是否需要抽取,需要針對(duì)其他文件記錄進(jìn)行協(xié)調(diào)查詢(xún)

(3)輸入關(guān)鍵字需要重建并進(jìn)行轉(zhuǎn)換

(4)對(duì)輸入數(shù)據(jù)進(jìn)行清理,取值范圍檢查、交叉記錄檢驗(yàn)

(5)數(shù)據(jù)文件進(jìn)行合并

? 【1】存在多個(gè)數(shù)據(jù)源時(shí),加載到數(shù)據(jù)倉(cāng)庫(kù)要進(jìn)行文件合并

? 【2】不同輸入文件使用不同的關(guān)鍵字結(jié)構(gòu),合并程序必須進(jìn)行關(guān)鍵字解析

? 【3】因?yàn)槎鄠€(gè)輸入文件的順序可能不相同甚至互不相容,輸入文件需要重新排序

(6)會(huì)產(chǎn)生多個(gè)輸出結(jié)果:創(chuàng)建數(shù)據(jù)倉(cāng)庫(kù)時(shí),會(huì)產(chǎn)生不同的綜合層次的結(jié)果

(7)需要提供缺省值:輸出值沒(méi)有對(duì)應(yīng)的輸入源

(8)刷新時(shí)的效率:區(qū)分需要與不需要抽取的操作型數(shù)據(jù)

(9)經(jīng)常需要進(jìn)行數(shù)據(jù)的匯總:多個(gè)操作型輸入記錄合并成的單個(gè)“簡(jiǎn)要”數(shù)據(jù)倉(cāng)庫(kù)記錄

(10)重命名操作的跟蹤:數(shù)據(jù)元素從操作型環(huán)境到數(shù)據(jù)倉(cāng)庫(kù)轉(zhuǎn)移過(guò)程中,可能被改名字,因而必須生成記錄這些變化的文檔

(11)進(jìn)行數(shù)據(jù)格式轉(zhuǎn)換:輸入記錄具有不常見(jiàn)的或非標(biāo)準(zhǔn)的格式

(12)大容量輸入問(wèn)題:并行裝載、并行讀入,必須引入特殊的設(shè)計(jì)方法

(13)加入時(shí)間元素:數(shù)據(jù)倉(cāng)庫(kù)反映對(duì)信息的歷史需求,當(dāng)操作型數(shù)據(jù)載入到數(shù)據(jù)倉(cāng)庫(kù)時(shí)應(yīng)加入時(shí)間元素

(14)必須符合企業(yè)數(shù)據(jù)模型:數(shù)據(jù)源的應(yīng)用程序往往是很久以前設(shè)計(jì)的經(jīng)過(guò)多次維護(hù),但沒(méi)有相關(guān)文檔,并且未考慮與其他應(yīng)用的集成,因而建數(shù)據(jù)倉(cāng)庫(kù)時(shí)必須考慮企業(yè)數(shù)據(jù)模型所體現(xiàn)的有關(guān)規(guī)則與限制

2.轉(zhuǎn)換與集成的步驟

(1)考慮數(shù)據(jù)從操作型環(huán)境到DSS環(huán)境中的映射問(wèn)題

(2)以程序說(shuō)明的形式將接口形式化,用于把數(shù)據(jù)從操作型環(huán)境引入數(shù)據(jù)倉(cāng)庫(kù)中

(3)所有編程的標(biāo)準(zhǔn)活動(dòng)

(4)執(zhí)行前面開(kāi)發(fā)的程序,把數(shù)據(jù)子啊如數(shù)據(jù)倉(cāng)庫(kù)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀(guān)點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容