DB、DW、DM、ODS、OLAP、OLTP和BI的概念理解

雖然一直在接觸這些專(zhuān)業(yè)的名詞,但是一直理解的不深刻,所以今天特地查了一些官方解釋和很多優(yōu)秀的博客文章,將關(guān)于這些方面的理解記了下來(lái),先將這些簡(jiǎn)稱(chēng)做一個(gè)解釋?zhuān)?/p>

1、DB(DataBase):數(shù)據(jù)庫(kù),一般指的就是OLTP數(shù)據(jù)庫(kù),在線事物數(shù)據(jù)庫(kù),用來(lái)支持生產(chǎn)的。DB保留的是數(shù)據(jù)信息的最新?tīng)顟B(tài),只有一個(gè)狀態(tài)!

2、DW(Data Warehouse):數(shù)據(jù)倉(cāng)庫(kù),保存的是數(shù)據(jù)在不同時(shí)間點(diǎn)的狀態(tài),對(duì)同一個(gè)數(shù)據(jù)信息,保留不同時(shí)間點(diǎn)的狀態(tài),便于我們做統(tǒng)計(jì)分析。

3、關(guān)于DM,目前網(wǎng)上有兩種說(shuō)法,一說(shuō)數(shù)據(jù)集市(Data Mart);一說(shuō)數(shù)據(jù)挖掘(Data Mining),百度百科給出的是數(shù)據(jù)挖掘的概念,我這里將這兩種說(shuō)法都做了解釋?zhuān)?/p>

a、DM(Data Mart):數(shù)據(jù)集市,以某個(gè)業(yè)務(wù)應(yīng)用為出發(fā)點(diǎn)而建立的局部DW,DW只關(guān)心自己需要的數(shù)據(jù),不會(huì)全盤(pán)考慮企業(yè)整體的數(shù)據(jù)架構(gòu)和應(yīng)用,每個(gè)應(yīng)用有自己的DM。

b、DM(Data Mining):數(shù)據(jù)挖掘,又稱(chēng)為數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)(Knowledge Discovery in Database, KDD),就是從大量數(shù)據(jù)中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過(guò)程,簡(jiǎn)單的說(shuō),數(shù)據(jù)挖掘就是從大量數(shù)據(jù)中提取或“挖掘”知識(shí)。

4、ODS(Operating Data Store):操作性數(shù)據(jù)倉(cāng)庫(kù),最早的數(shù)據(jù)倉(cāng)庫(kù)模型。特點(diǎn)是數(shù)據(jù)模型采取了貼源設(shè)計(jì),業(yè)務(wù)系統(tǒng)的數(shù)據(jù)結(jié)構(gòu)是怎樣的,ODS數(shù)據(jù)庫(kù)的結(jié)構(gòu)就是怎樣的。所不同的是ODS數(shù)據(jù)庫(kù)可以提供數(shù)據(jù)變化的歷史,所以O(shè)DS數(shù)據(jù)庫(kù)中每張表都會(huì)增加一個(gè)日期類(lèi)型,表示數(shù)據(jù)的時(shí)間點(diǎn),將每天數(shù)據(jù)的變化情況都存下來(lái),這樣有利于數(shù)據(jù)的分析。

5、OLTP(on-line transaction processing):聯(lián)機(jī)事務(wù)處理,OLTP是傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)的主要應(yīng)用,主要是基本的、日常的事務(wù)處理,例如銀行交易。

6、OLAP(On-Line Analytical Processing):聯(lián)機(jī)分析處理,OLAP是數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的主要應(yīng)用,支持復(fù)雜的分析操作,側(cè)重決策支持,并且提供直觀易懂的查詢(xún)結(jié)果。?

7、BI(Business Intelligence):商業(yè)智能,領(lǐng)導(dǎo),決策者,在獲取了OLAP的統(tǒng)計(jì)信息,和DM得到的科學(xué)規(guī)律之后,對(duì)生產(chǎn)進(jìn)行適當(dāng)?shù)恼{(diào)整,比如,命令超市人員將啤酒喝尿布放在一起銷(xiāo)售,這就反作用于DB修改存貨數(shù)據(jù)了——這就是整個(gè)BI的作用!


數(shù)據(jù)中心整體架構(gòu)

數(shù)據(jù)倉(cāng)庫(kù)的整體架構(gòu),各個(gè)系統(tǒng)的元數(shù)據(jù)通過(guò)ETL同步到操作性數(shù)據(jù)倉(cāng)庫(kù)ODS,對(duì)ODS數(shù)據(jù)進(jìn)行面向主題或建模形成DW(數(shù)據(jù)倉(cāng)庫(kù)),DM是針對(duì)某一個(gè)業(yè)務(wù)領(lǐng)域建立模型,具體用戶(決策層)查看DM生成的報(bào)表。

接下來(lái)我們講一下他們之間的部分關(guān)系:

1、Data Warehouse和Data Mining之間的關(guān)系

????????若將Data Warehouse(數(shù)據(jù)倉(cāng)庫(kù))比喻作礦坑,Data Mining就是深入礦坑采礦的工作。畢竟Data Mining不是一種無(wú)中生有的魔術(shù),也不是點(diǎn)石成金的煉金術(shù),若沒(méi)有夠豐富完整的數(shù)據(jù),是很難期待Data Mining能挖掘出什么有意義的信息的。

  要將龐大的數(shù)據(jù)轉(zhuǎn)換成為有用的信息,必須先有效率地收集信息。隨著科技的進(jìn)步,功能完善的數(shù)據(jù)庫(kù)系統(tǒng)就成了最好的收集數(shù)據(jù)的工具。數(shù)據(jù)倉(cāng)庫(kù),簡(jiǎn)單地說(shuō),就是搜集來(lái)自其它系統(tǒng)的有用數(shù)據(jù),存放在一整合的儲(chǔ)存區(qū)內(nèi)。所以其實(shí)就是一個(gè)經(jīng)過(guò)處理整合,且容量特別大的關(guān)系型數(shù)據(jù)庫(kù),用以?xún)?chǔ)存決策支持系統(tǒng)(Design Support System)所需的數(shù)據(jù),供決策支持或數(shù)據(jù)分析使用。從信息技術(shù)的角度來(lái)看,數(shù)據(jù)倉(cāng)庫(kù)的目標(biāo)是在組織中,在正確的時(shí)間,將正確的數(shù)據(jù)交給正確的人。

  許多人對(duì)于Data Warehouse和Data Mining時(shí)?;煜?,不知如何分辨。其實(shí),數(shù)據(jù)倉(cāng)庫(kù)是數(shù)據(jù)庫(kù)技術(shù)的一個(gè)新主題,利用計(jì)算機(jī)系統(tǒng)幫助我們操作、計(jì)算和思考,讓作業(yè)方式改變,決策方式也跟著改變。

  數(shù)據(jù)倉(cāng)庫(kù)本身是一個(gè)非常大的數(shù)據(jù)庫(kù),它儲(chǔ)存著由組織作業(yè)數(shù)據(jù)庫(kù)中整合而來(lái)的數(shù)據(jù),特別是指事務(wù)處理系統(tǒng)OLTP(On-Line Transactional Processing)所得來(lái)的數(shù)據(jù)。將這些整合過(guò)的數(shù)據(jù)置放于數(shù)據(jù)庫(kù)中,而公司的決策者則利用這些數(shù)據(jù)作決策;但是,這個(gè)轉(zhuǎn)換及整合數(shù)據(jù)的過(guò)程,是建立一個(gè)數(shù)據(jù)倉(cāng)庫(kù)最大的挑戰(zhàn)。因?yàn)閷⒆鳂I(yè)中的數(shù)據(jù)轉(zhuǎn)換成有用的的策略性信息是整個(gè)數(shù)據(jù)倉(cāng)庫(kù)的重點(diǎn)。綜上所述,數(shù)據(jù)倉(cāng)庫(kù)應(yīng)該具有這些數(shù)據(jù):整合性數(shù)據(jù)(integrated data)、詳細(xì)和匯總性的數(shù)據(jù)(detailed and summarized data)、歷史數(shù)據(jù)、解釋數(shù)據(jù)的數(shù)據(jù)。從數(shù)據(jù)倉(cāng)庫(kù)挖掘出對(duì)決策有用的信息與知識(shí),是建立數(shù)據(jù)倉(cāng)庫(kù)與使用Data Mining的最大目的,兩者的本質(zhì)與過(guò)程是兩回事。換句話說(shuō),數(shù)據(jù)倉(cāng)庫(kù)應(yīng)先行建立完成,Data mining才能有效率的進(jìn)行,因?yàn)閿?shù)據(jù)倉(cāng)庫(kù)本身所含數(shù)據(jù)是干凈(不會(huì)有錯(cuò)誤的數(shù)據(jù)參雜其中)、完備,且經(jīng)過(guò)整合的。因此兩者關(guān)系或許可解讀為Data Mining是從巨大數(shù)據(jù)倉(cāng)庫(kù)中找出有用信息的一種過(guò)程與技術(shù)。

2、ODS到DW的集成示例

集成示例

3、OLAP會(huì)替代Data Mining嗎?

所謂OLAP(Online Analytical Process)意指由數(shù)據(jù)庫(kù)所連結(jié)出來(lái)的在線分析處理程序。有些人會(huì)說(shuō):「我已經(jīng)有OLAP的工具了,所以我不需要Data Mining。」事實(shí)上兩者間是截然不同的,主要差異在于Data Mining用在產(chǎn)生假設(shè),OLAP則用于查證假設(shè)。簡(jiǎn)單來(lái)說(shuō),OLAP是由使用者所主導(dǎo),使用者先有一些假設(shè),然后利用OLAP來(lái)查證假設(shè)是否成立;而Data Mining則是用來(lái)幫助使用者產(chǎn)生假設(shè)。所以在使用OLAP或其它Query的工具時(shí),使用者是自己在做探索(Exploration),但Data Mining是用工具在幫助做探索。

  舉個(gè)例子來(lái)看,一市場(chǎng)分析師在為超市規(guī)劃貨品架柜擺設(shè)時(shí),可能會(huì)先假設(shè)嬰兒尿布和嬰兒奶粉會(huì)是常被一起購(gòu)買(mǎi)的產(chǎn)品,接著便可利用OLAP的工具去驗(yàn)證此假設(shè)是否為真,看成立的證據(jù)有多明顯;但Data Mining則不然,執(zhí)行Data Mining的人將龐大的結(jié)帳數(shù)據(jù)整理后,并不需要假設(shè)或期待可能的結(jié)果,透過(guò)Mining技術(shù)可找出存在于數(shù)據(jù)中的潛在規(guī)則,于是我們可能得到例如尿布和啤酒常被同時(shí)購(gòu)買(mǎi)的意料外之發(fā)現(xiàn),這是OLAP所做不到的。

  Data Mining常能挖掘出超越歸納范圍的關(guān)系,但OLAP僅能利用人工查詢(xún)及可視化的報(bào)表來(lái)確認(rèn)某些關(guān)系,是以Data Mining此種自動(dòng)找出甚至不會(huì)被懷疑過(guò)的數(shù)據(jù)模型與關(guān)系的特性,事實(shí)上已超越了我們經(jīng)驗(yàn)、教育、想象力的限制,OLAP可以和Data Mining互補(bǔ),但這項(xiàng)特性是Data Mining無(wú)法被OLAP取代的。

小結(jié):DM是智能化的OLAP

4、Data Warehouse和Data Mart之間的關(guān)系

數(shù)據(jù)倉(cāng)庫(kù)是企業(yè)級(jí)的,能為整個(gè)企業(yè)各個(gè)部門(mén)的運(yùn)行提供決策支持手段;而數(shù)據(jù)集市則是一種微型的數(shù)據(jù)倉(cāng)庫(kù),它通常有更少的數(shù)據(jù),更少的主題區(qū)域,以及更少的歷史數(shù)據(jù),因此是部門(mén)級(jí)的,一般只能為某個(gè)局部范圍內(nèi)的管理人員服務(wù),因此也稱(chēng)之為部門(mén)級(jí)數(shù)據(jù)倉(cāng)庫(kù)。

現(xiàn)將參考的鏈接放入下方:

https://blog.csdn.net/u011878191/article/details/49130733

http://www.itdecent.cn/p/72e395d8cb33

https://blog.csdn.net/xuxurui007/article/details/8374203

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容