「數(shù)據(jù)湖篇」一文帶你深入理解數(shù)據(jù)湖

更多精彩好文,盡在微信公眾號(hào)《大數(shù)據(jù)階梯之路》

一、數(shù)據(jù)湖是什么

數(shù)據(jù)湖相當(dāng)于一個(gè)匯集著來自各個(gè)異構(gòu)數(shù)據(jù)源的原生態(tài)數(shù)據(jù),不經(jīng)過加工清洗數(shù)據(jù),數(shù)據(jù)的格式也五花八門,結(jié)構(gòu)化和半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)都能夠被數(shù)據(jù)湖管理起來。

那么就引申出數(shù)據(jù)湖的特點(diǎn)

  • 數(shù)據(jù)湖的存儲(chǔ)能力極強(qiáng),能容納海量數(shù)據(jù)
  • 數(shù)據(jù)湖中數(shù)據(jù)格式多,不止結(jié)構(gòu)化數(shù)據(jù),還能存儲(chǔ)半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)
  • 數(shù)據(jù)湖提供從異構(gòu)數(shù)據(jù)源中提取數(shù)據(jù)和元數(shù)據(jù)的功能,并能將它們吸納匯聚到混合存儲(chǔ)系統(tǒng)中去
  • 數(shù)據(jù)湖提供數(shù)據(jù)轉(zhuǎn)換引擎,支持?jǐn)?shù)據(jù)集轉(zhuǎn)換、清洗以及與其他數(shù)據(jù)集的集成,并提供用于檢索和查詢數(shù)據(jù)湖數(shù)據(jù)和元數(shù)據(jù)的接口

二、數(shù)據(jù)湖與數(shù)據(jù)倉(cāng)庫的區(qū)別

  1. 數(shù)據(jù)湖存儲(chǔ)的是原生態(tài)數(shù)據(jù)(結(jié)構(gòu)化或非結(jié)構(gòu)化都可以存儲(chǔ)),而數(shù)據(jù)倉(cāng)庫存儲(chǔ)的只能是結(jié)構(gòu)化的數(shù)據(jù)
  2. 數(shù)據(jù)湖一般是PB級(jí)別的,存儲(chǔ)的數(shù)據(jù)量通常比數(shù)據(jù)倉(cāng)庫還多,但也存在大型的PB級(jí)數(shù)據(jù)倉(cāng)庫
  3. 數(shù)據(jù)湖主要面向的用戶是數(shù)據(jù)科學(xué)家,數(shù)據(jù)倉(cāng)庫主要面向的用戶是數(shù)據(jù)開發(fā)工程師、數(shù)據(jù)分析師、數(shù)據(jù)運(yùn)營(yíng)等
  4. 入數(shù)據(jù)湖的數(shù)據(jù)一般是直接先裝載到數(shù)據(jù)湖中,當(dāng)訪問時(shí)才會(huì)去解析成所需要的格式,即讀模式;而入數(shù)據(jù)倉(cāng)庫的數(shù)據(jù)一般是經(jīng)過ETL過程后,轉(zhuǎn)換成固定模式的數(shù)據(jù),即寫模式

數(shù)據(jù)湖和數(shù)據(jù)倉(cāng)庫可以用來互補(bǔ),數(shù)據(jù)湖可以在非結(jié)構(gòu)化數(shù)據(jù)處理方面擴(kuò)展業(yè)務(wù)能力。對(duì)于許多公司來說,通過數(shù)據(jù)湖來增強(qiáng)現(xiàn)有的數(shù)據(jù)倉(cāng)庫,已經(jīng)被證明是一種高效的方式

三、數(shù)據(jù)湖架構(gòu)

image.png

數(shù)據(jù)湖的本質(zhì),是由數(shù)據(jù)存儲(chǔ)架構(gòu)+數(shù)據(jù)處理工具組成的解決方案。

數(shù)據(jù)架構(gòu)存儲(chǔ):要求要有足夠強(qiáng)大的擴(kuò)展性和可靠性,才能存得下和存得久要入湖的數(shù)據(jù),比如AmazonWebServices亞馬遜云科技的S3云對(duì)象存儲(chǔ)。
數(shù)據(jù)處理工具:主要解決2類問題,一類是把數(shù)據(jù)移動(dòng)到湖里,一類是管理湖里的數(shù)據(jù)。

  • 數(shù)據(jù)移動(dòng)工具:如定義數(shù)據(jù)源,制定數(shù)據(jù)訪問策略,安全策略,移動(dòng)數(shù)據(jù),編寫數(shù)據(jù)目錄,等等功能。
  • 數(shù)據(jù)管理工具:如一些數(shù)據(jù)管理和治理工具,否則元數(shù)據(jù)缺失的話,湖里的數(shù)據(jù)質(zhì)量就沒法保障。

總結(jié):數(shù)據(jù)湖不只是個(gè)“囤積”數(shù)據(jù)的“大水坑”,除了用存儲(chǔ)技術(shù)構(gòu)建的湖底座以外,還包含一系列的數(shù)據(jù)入湖、數(shù)據(jù)出湖、數(shù)據(jù)管理、數(shù)據(jù)應(yīng)用工具集,共同組成了數(shù)據(jù)湖解決方案。

接著普及下什么是數(shù)據(jù)重力 & 數(shù)據(jù)沼澤 ?

數(shù)據(jù)沼澤:各式各樣的數(shù)據(jù)都往"湖里傾倒",缺乏元數(shù)據(jù)管理,最終會(huì)把好好的數(shù)據(jù)湖變成了數(shù)據(jù)沼澤,導(dǎo)致數(shù)據(jù)湖中的數(shù)據(jù)使用困難。
數(shù)據(jù)重力:指的是隨著數(shù)據(jù)積累越來越多,則要移動(dòng)它們就越來越難,這便是所謂的數(shù)據(jù)重力。

四、湖倉(cāng)一體(Lake House)

Lake House,即所謂的湖倉(cāng)一體架構(gòu)數(shù)據(jù)湖和數(shù)據(jù)倉(cāng)庫相結(jié)合發(fā)揮作用,實(shí)現(xiàn)“湖里”和“倉(cāng)里”的數(shù)據(jù)/元數(shù)據(jù)能夠無縫打通,并且“自由”流動(dòng)。比如湖里的“新鮮”數(shù)據(jù)可以流到倉(cāng)里,甚至可以直接被數(shù)倉(cāng)使用,而倉(cāng)里的“不新鮮”數(shù)據(jù),也可以流到湖里,低成本長(zhǎng)久保存,供未來的數(shù)據(jù)挖掘使用。

上案例:????所講的場(chǎng)景實(shí)際上可以應(yīng)用到大數(shù)據(jù)領(lǐng)域中數(shù)據(jù)治理這一個(gè)環(huán)節(jié)中,比如數(shù)倉(cāng)表的生命周期管理,我們對(duì)表不常用的歷史分區(qū)數(shù)據(jù)進(jìn)行歸檔處理,本質(zhì)上也就是將這部分?jǐn)?shù)據(jù)移動(dòng)到數(shù)據(jù)湖中存儲(chǔ),從而使得這部分冷數(shù)據(jù)換成了低成本的存儲(chǔ),需要時(shí)也可以從數(shù)據(jù)湖中恢復(fù)回來,當(dāng)然這個(gè)恢復(fù)過程是有代價(jià)的。

Lake House不僅要把湖、倉(cāng)打通,還要克服“數(shù)據(jù)重力”,讓數(shù)據(jù)在這些服務(wù)之間按需來回移動(dòng):入湖、出湖、環(huán)湖……


image.png

智能湖倉(cāng)的設(shè)計(jì),采用各下游組件都“環(huán)湖而造”的理念,既可以直接操縱湖內(nèi)數(shù)據(jù),也可以從湖中攝取數(shù)據(jù),還可以向湖中回注數(shù)據(jù),同時(shí)環(huán)湖的服務(wù)彼此之間也可以輕松交換數(shù)據(jù)。

image.png

Amazon Web Services官方給出了智能湖倉(cāng)的參考架構(gòu),如下:

image.png

上面這個(gè)六層架構(gòu),從數(shù)據(jù)源定義、數(shù)據(jù)攝取和入湖入倉(cāng),到湖倉(cāng)打通與集成,再到數(shù)據(jù)出湖、數(shù)據(jù)處理和數(shù)據(jù)消費(fèi),一氣呵成,各種云上數(shù)據(jù)服務(wù)無縫集成在一起,創(chuàng)新了未來一個(gè)新的大數(shù)據(jù)解決方案。

分享就到此結(jié)束了,建議收藏吸納消化,博文不易,歡迎????點(diǎn)贊,更多精彩好文,盡在微信公眾號(hào)《大數(shù)據(jù)階梯之路》
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容