數(shù)據(jù),的倉庫 -- Data, Warehouse

轉(zhuǎn)職入行做數(shù)據(jù)倉庫也有一年半載了,一直想寫一些1,總結(jié)一下以往學(xué)習(xí)過程中的個(gè)人理解供自己與廣眾做參考。這篇文章,只是0,一個(gè)懶人包,幫助對數(shù)據(jù)倉庫有興趣的朋友,以類比形式簡易理解數(shù)據(jù)倉庫的概念,以作之后1的鋪墊。因?yàn)槭情_篇,歡迎閱讀過的朋友在簡書這里留下疑問或建議,感激。

數(shù)據(jù)的“倉庫”

什么是數(shù)據(jù),什么是數(shù)據(jù)庫?

Data,數(shù)據(jù) (資料 zh-TW)其實(shí)就是 數(shù)、文字、字符,符號,或影像、聲音。我們這里通常泛指的是可以被收集,處理的,可能有價(jià)值的數(shù)據(jù)。數(shù)據(jù)是新石油嘛(Data Is the New Oil)。既然有價(jià)值,我們來把它們比喻做貨品吧,蔬果,啤酒,尿片。而你是老板(數(shù)據(jù)持有者/用戶),要拿這些貨品起家做生意(獲取數(shù)據(jù)價(jià)值)。

Database,數(shù)據(jù)庫(資料庫 zh-TW)就是裝載這些電子化數(shù)據(jù)的“容柜”,通常這樣的容柜會(huì)有個(gè)管理系統(tǒng),以便幫助你查找,裝載,卸除,整理你所持有的貨品(數(shù)據(jù))。對于蔬果和啤酒來說,他們是新鮮快消品,來去快,那么這個(gè)容柜可以是農(nóng)場或釀酒廠里的大冰柜,成品,半成品(原始數(shù)據(jù)),都先擺大冰柜凍起來(OLTP 交易型數(shù)據(jù)庫)。出貨用的容柜可以是一般的貨箱(OLAP 分析型數(shù)據(jù)庫),對它操作頻率相對不那么高,功能上也不那么多要求。不需冷藏功能,能擺的下出貨的批量其實(shí)就夠了(OLAP 在某些特性像存儲讀寫/實(shí)時(shí)監(jiān)測上的要求也許不高)。


什么是數(shù)據(jù)倉庫,什么是數(shù)據(jù)集市?

好吧現(xiàn)在你發(fā)家了,有了點(diǎn)小資本,以前你是批發(fā)商,一直是一兩個(gè)柜拿貨、出貨(直接使用數(shù)據(jù)庫就夠),甚至直接調(diào)貨給零售商(終端用戶)?,F(xiàn)在你想進(jìn)更多的貨,考慮自己做做小加工和零售。是時(shí)候要整一塊大地兒,有規(guī)模的定制好一些貨架,來擺放盤點(diǎn)你這么多的貨品了(大數(shù)據(jù))。

Data Warehouse / EDW,數(shù)據(jù)倉庫(資料倉儲 zh-TW),就是很大,預(yù)算充足的一個(gè)再加工倉儲空間??梢约?,統(tǒng)一,整齊一致擺放來自于各類容柜的貨品,分門別類上貨架,并突出它們相關(guān)的時(shí)間標(biāo)簽,以便作為老板的你可以隨時(shí)調(diào)出貨品何時(shí)上架何時(shí)更改(歷史數(shù)據(jù)),看看下次該采購什么貨,多少貨(做企業(yè)決策)。

調(diào)出到哪里呢?你聘有這么一批專員(BI分析員),幫你對接你的零售商客戶。餐飲業(yè)客戶希望調(diào)一些最新最炫的酒類貨品;母嬰產(chǎn)品零售想跟你調(diào)幾批新舊款尿片試做比較;超市啤酒和尿片都要,他們要研究兩者有什么關(guān)聯(lián),你的客戶還真是多種多樣哦。

我們只好在倉庫外搭起幾個(gè)小帳篷 Data Mart(數(shù)據(jù)集市),再把他們各自所需的貨架(在這里數(shù)據(jù)是貨架因?yàn)橐颜矸珠T別類好了)都調(diào)過去小帳篷出貨。要啤酒,要尿片,或是兩樣都要,安照客戶需求統(tǒng)統(tǒng)滿足唄(面向業(yè)務(wù)主題)。

所以,按照范疇劃分,數(shù)據(jù) < 數(shù)據(jù)庫 < 數(shù)據(jù)集市(小)/ 數(shù)據(jù)倉庫(大)。

按照過程,一般的數(shù)據(jù)是由交易型數(shù)據(jù)庫轉(zhuǎn)移至分析型數(shù)據(jù)庫,清洗整理后在數(shù)據(jù)倉庫加載,最后轉(zhuǎn)移至數(shù)據(jù)集市供用戶使用:

貨品在供貨商的大冰柜轉(zhuǎn)到貨箱,在倉庫清結(jié)整理加工上架,最后將貨架調(diào)至集市供給零售商。

什么是 ETL?

Extract-Transform-Load,抽取-轉(zhuǎn)換-加載。貨品越多越需要自動(dòng)化管理,否則就焦頭爛額了嘛。你看亞馬遜的倉庫,都靠機(jī)器人來整理至出貨,效率擺在那,不需要人手的就給它自動(dòng)化。

它是這樣開始的:倉庫門前擺滿了農(nóng)場送來的滿載了蔬果的貨箱,上個(gè)禮拜和今天都有胡蘿卜到貨,今天還有新到的雪梨,而在倉庫里指定的上架類別是新鮮蔬果汁成品(商業(yè)需求)。為了保證品質(zhì)要來作些篩選取舍,上禮拜的胡蘿卜過期就不要了,我們只要今天到貨的胡蘿卜和雪梨(數(shù)據(jù)的抽?。?。

選好了這批貨開箱后,胡蘿卜和雪梨都擺上傳送帶往倉庫里輸送(數(shù)據(jù)抽取進(jìn)程),清潔水洗(數(shù)據(jù)清洗)和大小分批(粒度篩選),這個(gè)過程也會(huì)分揀出質(zhì)量不好的一部分(錯(cuò)誤/不完整/冗余數(shù)據(jù)),接著就被按照批次擺放至倉庫內(nèi)的一個(gè)蔬果待加工儲藏區(qū)(ODS)。

因?yàn)樽罱K成品是新鮮胡蘿卜雪梨汁,加工步驟(Staging)開始了:去皮去核打汁(數(shù)據(jù)轉(zhuǎn)換),按比例參雜蔬果汁和水(商業(yè)需求邏輯),玻璃瓶封起,六支一箱包裝好(數(shù)據(jù)模型標(biāo)準(zhǔn)),成品入倉上架(數(shù)據(jù)加載)。

EDW 中,胡蘿卜和雪梨的 ETL 進(jìn)程

以上這些倉庫內(nèi)的自動(dòng)化處理進(jìn)程,就叫ETL。設(shè)計(jì),開發(fā)和維護(hù)這些進(jìn)程的人,也就是數(shù)據(jù)的“倉務(wù)管理員”。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容