數(shù)據(jù)湖

一、 數(shù)據(jù)湖概述

數(shù)據(jù)湖這一概念,最早是在2011年由CITO Research網(wǎng)站的CTO和作家Dan Woods首次提出。其比喻是:如果我們把數(shù)據(jù)比作大自然的水,那么各個(gè)江川河流的水未經(jīng)加工,源源不斷地匯聚到數(shù)據(jù)湖中。業(yè)界便對(duì)數(shù)據(jù)湖一直有著廣泛而不同的理解和定義。

“數(shù)據(jù)湖是一個(gè)集中化存儲(chǔ)海量的、多個(gè)來源,多種類型數(shù)據(jù),并可以對(duì)數(shù)據(jù)進(jìn)行快速加工,分析的平臺(tái),本質(zhì)上是一套先進(jìn)的企業(yè)數(shù)據(jù)架構(gòu)?!?/p>

"數(shù)據(jù)湖"的核心價(jià)值在于為企業(yè)提供了數(shù)據(jù)平臺(tái)化運(yùn)營機(jī)制。隨著DT時(shí)代的到來,企業(yè)急需變革,需要利用信息化、數(shù)字化、新技術(shù)的利器形成平臺(tái)化系統(tǒng),賦能公司的人員和業(yè)務(wù),快速應(yīng)對(duì)挑戰(zhàn)。而這一切的數(shù)據(jù)基礎(chǔ),正是數(shù)據(jù)湖所能提供的。

下面通過一組漫畫,更直觀的解釋數(shù)據(jù)湖的概念。

從前,數(shù)據(jù)少的時(shí)候,人們拿腦子記就可以了,大不了采用結(jié)繩記事:

后來,為了更有效率的記事和工作,數(shù)據(jù)庫出現(xiàn)了。數(shù)據(jù)庫核心是滿足快速的增刪改查,應(yīng)對(duì)聯(lián)機(jī)事務(wù)。

比如你用銀卡消費(fèi)了,后臺(tái)數(shù)據(jù)庫就要快速記下這筆交易,更新你的卡余額。

日子久了,人們發(fā)現(xiàn),庫里的數(shù)據(jù)越來越多了,不光要支持聯(lián)機(jī)業(yè)務(wù),還有分析的價(jià)值。但是,傳統(tǒng)數(shù)據(jù)庫要滿足頻繁、快速的讀寫需求,并不適合這種以讀取大量數(shù)據(jù)為特征的分析業(yè)務(wù)。

于是,人們?cè)诂F(xiàn)有的數(shù)據(jù)庫基礎(chǔ)上,對(duì)數(shù)據(jù)進(jìn)行加工。這個(gè)加工過程,被稱為:ETL(Extract-Transform-Load)抽取、轉(zhuǎn)換和加載。

經(jīng)過這三步,數(shù)據(jù)倉庫就建好了。這個(gè)“倉庫”,主要是為了數(shù)據(jù)分析用途,比如用于BI、出報(bào)表、做經(jīng)營分析等等。

簡(jiǎn)要總結(jié)下:數(shù)據(jù)庫用于聯(lián)機(jī)事務(wù),通常為小數(shù)據(jù)量高頻讀寫。

數(shù)據(jù)庫等原始數(shù)據(jù),經(jīng)過ETL加工以后,就被裝進(jìn)了數(shù)據(jù)倉庫。數(shù)據(jù)倉庫主要用于聯(lián)機(jī)分析業(yè)務(wù),通常為大數(shù)據(jù)量讀取。

雖然應(yīng)用場(chǎng)景不一樣,但他們都是結(jié)構(gòu)化數(shù)據(jù)。

在相當(dāng)長的一段時(shí)間內(nèi),他們聯(lián)合起來,共同滿足企業(yè)的實(shí)時(shí)“交易”型業(yè)務(wù)和聯(lián)機(jī)“分析性”的業(yè)務(wù)。

隨著時(shí)代的發(fā)展,數(shù)據(jù)的類型越來越多,人們對(duì)數(shù)據(jù)的需求也越來越復(fù)雜。

企業(yè)越來越看重這些“大數(shù)據(jù)”的價(jià)值,希望把他們存好、用好。

這些數(shù)據(jù),五花八門,又多又雜,怎么存呢?

索性挖個(gè)大坑吧!

這就是數(shù)據(jù)湖的原型。說白了,數(shù)據(jù)湖就像一個(gè)“大水坑”,是一種把各類異構(gòu)數(shù)據(jù)進(jìn)行集中存儲(chǔ)的架構(gòu)。

為什么不是數(shù)據(jù)河Data River?

因?yàn)?,?shù)據(jù)要能存,而不是一江春水向東流。

為什么不是數(shù)據(jù)池Data Pool?

因?yàn)?,要足夠大,大?shù)據(jù)太大,一池存不下。

為什么不是數(shù)據(jù)海Data Sea?

因?yàn)椋髽I(yè)的數(shù)據(jù)要有邊界,可以流通和交換,但更注重隱私和安全,“海到無邊天作岸”,那可不行。

so,數(shù)據(jù)湖,Data Lake,剛剛好。

可是,概念雖好,把這個(gè)“水坑”用好卻不容易。

二、 數(shù)據(jù)湖特點(diǎn)

數(shù)據(jù)湖本身,具備以下幾個(gè)特點(diǎn):

1.原始數(shù)據(jù)

海量原始數(shù)據(jù)集中存儲(chǔ),無需加工。數(shù)據(jù)湖通常是企業(yè)所有數(shù)據(jù)的單一存儲(chǔ),包括源系統(tǒng)數(shù)據(jù)的原始副本,以及用于報(bào)告、可視化、分析和機(jī)器學(xué)習(xí)等任務(wù)的轉(zhuǎn)換數(shù)據(jù)。數(shù)據(jù)湖可以包括來自關(guān)系數(shù)據(jù)庫(行和列)的結(jié)構(gòu)化數(shù)據(jù),半結(jié)構(gòu)化數(shù)據(jù)(CSV,日志, XML, JSON),非結(jié)構(gòu)化數(shù)據(jù)(電子郵件,文檔, PDF)和二進(jìn)制數(shù)據(jù)(圖像,音頻,視頻)。也就是數(shù)據(jù)湖將不同種類的數(shù)據(jù)匯聚到一起。

2.按需計(jì)算

使用者按需處理,不需要移動(dòng)數(shù)據(jù)即可計(jì)算。數(shù)據(jù)庫通常提供了多種數(shù)據(jù)計(jì)算引擎供用戶來選擇。常見的包括批量、實(shí)時(shí)查詢、流式處理、機(jī)器學(xué)習(xí)等。

3.延遲綁定

數(shù)據(jù)湖提供靈活的,面向任務(wù)的數(shù)據(jù)編訂,不需要提前定義數(shù)據(jù)模型。

三、 數(shù)據(jù)湖優(yōu)缺點(diǎn)

任何事物都有兩面性,數(shù)據(jù)湖有優(yōu)點(diǎn)也同樣存在些缺點(diǎn)。

3.1優(yōu)點(diǎn)

  1. 數(shù)據(jù)湖中的數(shù)據(jù)最接近原生的。這對(duì)于數(shù)據(jù)探索類需求,帶來很大便利,可以直接得到原始數(shù)據(jù)。
  2. 數(shù)據(jù)湖統(tǒng)一企業(yè)內(nèi)部各個(gè)業(yè)務(wù)系統(tǒng)數(shù)據(jù),解決信息孤島問題。為橫跨多個(gè)系統(tǒng)的數(shù)據(jù)應(yīng)用,提供一種可能。
  3. 數(shù)據(jù)湖提供了全局的、統(tǒng)一的企業(yè)級(jí)數(shù)據(jù)概覽視圖,這對(duì)于數(shù)據(jù)質(zhì)量、數(shù)據(jù)安全..直到整體的數(shù)據(jù)治理,甚至提高到數(shù)據(jù)資產(chǎn)層面都大有裨益。
  4. 數(shù)據(jù)湖改變了原有工作模式,鼓勵(lì)人人了解、分析數(shù)據(jù);而不是依賴于專門的數(shù)據(jù)團(tuán)隊(duì)的”供給”方式,可以提升數(shù)據(jù)運(yùn)營效率、改善客戶互動(dòng)、鼓勵(lì)數(shù)據(jù)創(chuàng)新。

3.2 缺點(diǎn)

  1. 對(duì)數(shù)據(jù)的歸集處理程度明顯缺失,對(duì)于試圖直接使用數(shù)據(jù)的用戶來說顯得有些過于“原材料”化,且數(shù)據(jù)太過冗余。應(yīng)對(duì)這一問題,可通過”數(shù)據(jù)接入+數(shù)據(jù)加工+數(shù)據(jù)建模”的方式來解決。
  2. 對(duì)數(shù)據(jù)湖基礎(chǔ)層的性能有較高要求,必須依托高性能的服務(wù)器進(jìn)行數(shù)據(jù)處理過程。這主要是來自于海量數(shù)據(jù)、異構(gòu)多樣化數(shù)據(jù)、延遲綁定模式等帶來的問題。.
  3. 數(shù)據(jù)處理技能要求高。這也主要是因?yàn)閿?shù)據(jù)過于原始帶來的問題。

四、 數(shù)據(jù)湖與關(guān)聯(lián)概念

1.數(shù)據(jù)湖與數(shù)據(jù)倉庫

數(shù)據(jù)湖建設(shè)思路從本質(zhì)上顛覆了傳統(tǒng)數(shù)據(jù)倉庫建設(shè)方法論。傳統(tǒng)的企業(yè)數(shù)據(jù)倉庫則強(qiáng)調(diào)的是整合、面向主題、分層次等思路。其兩者并不是對(duì)等的概念,更多是包含;即數(shù)據(jù)倉庫作為數(shù)據(jù)湖的一類“數(shù)據(jù)應(yīng)用”存在。

兩者可從以下維度進(jìn)行對(duì)比:

1)存儲(chǔ)數(shù)據(jù)類型

數(shù)據(jù)倉庫是存儲(chǔ)清洗加工過的,可信任的、結(jié)構(gòu)良好的數(shù)據(jù);數(shù)據(jù)湖則是存儲(chǔ)大量原始數(shù)據(jù),包括結(jié)構(gòu)化的、半結(jié)構(gòu)化的和非結(jié)構(gòu)化的數(shù)據(jù)。在我們世界中,主要是由原始的、混亂的、非結(jié)構(gòu)化的數(shù)據(jù)組成。

隨著“混亂數(shù)據(jù)”的不斷升級(jí),人們對(duì)它的興趣也不斷增長,想要更好的理解它、從其中獲取價(jià)值、并根據(jù)它做出決策。這就得需要一個(gè)靈活、敏捷、經(jīng)濟(jì)且相對(duì)輕松的解決方案,然而這些都不是數(shù)據(jù)倉庫的強(qiáng)項(xiàng)。而且當(dāng)有新的需求提出時(shí),傳統(tǒng)數(shù)據(jù)倉庫又難以快速隨之變化。

2)處理數(shù)據(jù)方式

如果需要加載到數(shù)據(jù)倉庫中的數(shù)據(jù),我們首先需要定義好它,這叫做寫時(shí)模式(Schema-On-Write)。而對(duì)于數(shù)據(jù)湖,您只需加載原始數(shù)據(jù),然后,當(dāng)您準(zhǔn)備使用數(shù)據(jù)時(shí),就給它一個(gè)定義,這叫做讀時(shí)模式(Schema-On-Read)。

這是兩種截然不同的數(shù)據(jù)處理方法。因?yàn)閿?shù)據(jù)湖是在數(shù)據(jù)到使用時(shí)再定義模型結(jié)構(gòu),因此提高了數(shù)據(jù)模型定義的靈活性,可滿足更多不同上層業(yè)務(wù)的高效率分析訴求。

3)工作合作方式

傳統(tǒng)的數(shù)據(jù)倉庫的工作方式是集中式的,業(yè)務(wù)人員給需求到數(shù)據(jù)團(tuán)隊(duì),數(shù)據(jù)團(tuán)隊(duì)根據(jù)要求加工、開發(fā)成維度表,供業(yè)務(wù)團(tuán)隊(duì)通過BI報(bào)表工具查詢。

數(shù)據(jù)湖更多是開放、自助式的(self-service),開放數(shù)據(jù)給所有人使用,數(shù)據(jù)團(tuán)隊(duì)更多是提供工具、環(huán)境供各業(yè)務(wù)團(tuán)隊(duì)使用(不過集中式的維度表建設(shè)還是需要的),業(yè)務(wù)團(tuán)隊(duì)進(jìn)行開發(fā)、分析。

2.數(shù)據(jù)湖 vs 大數(shù)據(jù)

數(shù)據(jù)湖的技術(shù)實(shí)現(xiàn),與大數(shù)據(jù)技術(shù)緊密結(jié)合。

·通過Hadoop存儲(chǔ)成本低的特點(diǎn),將海量的原始數(shù)據(jù)、本地?cái)?shù)據(jù)、轉(zhuǎn)換數(shù)據(jù)等保存在Hadoop中。這樣所有數(shù)據(jù)都在一個(gè)地方存儲(chǔ),能給后續(xù)的管理、再處理、分析提供基礎(chǔ)。

·通過Hive、Spark等低成本處理能力(相較于RDBMS),將數(shù)據(jù)交給大數(shù)據(jù)庫平臺(tái)即行處理。此外,還可通過Storm、Flink等支持流式處理等特殊計(jì)算方式。

·由于Hadoop的可擴(kuò)展性,可以很方便地實(shí)現(xiàn)全量數(shù)據(jù)存儲(chǔ)。結(jié)合數(shù)據(jù)生命周期管理,可做到全時(shí)間跨度的數(shù)據(jù)管控

3.數(shù)據(jù)湖 vs 云計(jì)算

云計(jì)算采用虛擬化、多租戶等技術(shù)滿足業(yè)務(wù)對(duì)服務(wù)器、網(wǎng)絡(luò)、存儲(chǔ)等基礎(chǔ)資源的最大化利用,降低企業(yè)對(duì)IT基礎(chǔ)設(shè)施的成本,為企業(yè)帶來了巨大的經(jīng)濟(jì)性;同時(shí)云計(jì)算技術(shù)實(shí)現(xiàn)了主機(jī)、存儲(chǔ)等資源快速申請(qǐng)、使用,則同樣為企業(yè)帶來了更多的管理便捷性。在構(gòu)建數(shù)據(jù)湖的基礎(chǔ)設(shè)施時(shí),云計(jì)算技術(shù)可以發(fā)揮很大作用。此外,像AWS、MicroSoft、EMC等均提供了云端的數(shù)據(jù)湖服務(wù)。

4.數(shù)據(jù)湖 vs 人工智能

近些年,人工智能技術(shù)再一次飛速發(fā)展,訓(xùn)練和推理等需要同時(shí)處理超大的,甚至是多個(gè)數(shù)據(jù)集,這些數(shù)據(jù)集通常是視頻、圖片、文本等非結(jié)構(gòu)化數(shù)據(jù),來源于多個(gè)行業(yè)、組織、項(xiàng)目,對(duì)這些數(shù)據(jù)的采集、存儲(chǔ)、清洗、轉(zhuǎn)換、特征提取等工作是一個(gè)系列復(fù)雜、漫長的工程。數(shù)據(jù)湖需要為人工智能程序提供數(shù)據(jù)快速收集、治理、分析的平臺(tái),同時(shí)提供極高的帶寬、海量小文件存取、多協(xié)議互通、數(shù)據(jù)共享的能力,可以極大加速數(shù)據(jù)挖掘、深度學(xué)習(xí)等過程。

5.數(shù)據(jù)湖 vs 數(shù)據(jù)治理

傳統(tǒng)方式下,數(shù)據(jù)治理工作往往是在數(shù)據(jù)倉庫中。那么在構(gòu)建企業(yè)級(jí)數(shù)據(jù)湖后,對(duì)數(shù)據(jù)治理的需求實(shí)際更強(qiáng)了。因?yàn)榕c”預(yù)建模”方式的數(shù)倉不同,湖中的數(shù)據(jù)更加分散、無序、不規(guī)格化等,需要通過治理工作達(dá)到數(shù)據(jù)”可用”狀態(tài),否則數(shù)據(jù)湖很可能會(huì)”腐化”成數(shù)據(jù)沼澤,浪費(fèi)大量的IT資源。平臺(tái)化的數(shù)據(jù)湖架構(gòu)能否驅(qū)動(dòng)企業(yè)業(yè)務(wù)發(fā)展,數(shù)據(jù)治理至關(guān)重要。這也是對(duì)數(shù)據(jù)湖建設(shè)的最大挑戰(zhàn)之一。

6.數(shù)據(jù)湖 vs 數(shù)據(jù)安全

數(shù)據(jù)湖中存放有大量原始及加工過的數(shù)據(jù),這些數(shù)據(jù)在不受監(jiān)管的情況下被訪問是非常危險(xiǎn)的。這里是需要考慮必要的數(shù)據(jù)安全及隱私保護(hù)問題,這些是需要數(shù)據(jù)湖提供的能力。但換種角度來看,將數(shù)據(jù)集中在數(shù)據(jù)湖中,其實(shí)是有利于數(shù)據(jù)安全工作的。這要比數(shù)據(jù)分散在企業(yè)各處要好的多。

五、 數(shù)據(jù)湖的架構(gòu)體系

數(shù)據(jù)湖是一種存儲(chǔ)架構(gòu),本質(zhì)上講是存儲(chǔ),企業(yè)基于云服務(wù),可以快速挖出一個(gè)適合自己的“湖”,完成數(shù)據(jù)的采集、存儲(chǔ)、處理、治理,提供數(shù)據(jù)集成共享服務(wù)、高性能計(jì)算能力和大數(shù)據(jù)分析算法模型,支撐經(jīng)營管理數(shù)據(jù)分析應(yīng)用的全面開展。為規(guī)?;瘮?shù)據(jù)應(yīng)用賦能。

數(shù)據(jù)湖技術(shù)架構(gòu)涉及了數(shù)據(jù)接入(轉(zhuǎn)移)、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)計(jì)算、數(shù)據(jù)應(yīng)用、數(shù)據(jù)治理、元數(shù)據(jù)、數(shù)據(jù)質(zhì)量、數(shù)據(jù)資源目錄、數(shù)據(jù)安全及數(shù)據(jù)審計(jì)等10個(gè)方面領(lǐng)域:

圖片

1.數(shù)據(jù)接入(移動(dòng))

數(shù)據(jù)提取允許連接器從不同的數(shù)據(jù)源獲取數(shù)據(jù)并加載到數(shù)據(jù)湖中。數(shù)據(jù)提取支持:所有類型的結(jié)構(gòu)化,半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。批量,實(shí)時(shí),一次性負(fù)載等多次攝??;在數(shù)據(jù)接入方面,需提供適配的多源異構(gòu)數(shù)據(jù)資源接入方式,為企業(yè)數(shù)據(jù)湖的數(shù)據(jù)抽取匯聚提供通道。

2.數(shù)據(jù)存儲(chǔ)

數(shù)據(jù)存儲(chǔ)應(yīng)是可擴(kuò)展的,提供經(jīng)濟(jì)高效的存儲(chǔ)并允許快速訪問數(shù)據(jù)探索。它應(yīng)該支持各種數(shù)據(jù)格式。

3.數(shù)據(jù)計(jì)算

數(shù)據(jù)湖需要提供多種數(shù)據(jù)分析引擎,來滿足數(shù)據(jù)計(jì)算需求。需要滿足批量、實(shí)時(shí)、流式等特定計(jì)算場(chǎng)景。此外,向下還需要提供海量數(shù)據(jù)的訪問能力,可滿足高并發(fā)讀取需求,提高實(shí)時(shí)分析效率。并需要兼容各種開源的數(shù)據(jù)格式,直接訪問以這些格式存儲(chǔ)的數(shù)據(jù)。

4.數(shù)據(jù)治理

數(shù)據(jù)治理是管理數(shù)據(jù)湖中使用的數(shù)據(jù)的可用性,安全性和完整性的過程。數(shù)據(jù)治理是一項(xiàng)持續(xù)的工作,通過闡明戰(zhàn)略、建立框架、制定方 針以及實(shí)現(xiàn)數(shù)據(jù)共享,為所有其他數(shù)據(jù)管理職能提供指導(dǎo)和監(jiān)督。

5.元數(shù)據(jù)

元數(shù)據(jù)管理是數(shù)據(jù)湖整個(gè)數(shù)據(jù)生命周期中需要做的基礎(chǔ)性工作,企業(yè)需要對(duì)元數(shù)據(jù)的生命周期進(jìn)行管理。元數(shù)據(jù)管理本身并不是目的,它是組織從其數(shù)據(jù)中獲得更多價(jià)值的一種手段,要達(dá)到數(shù)據(jù)驅(qū)動(dòng),組織必須先是由元數(shù)據(jù)驅(qū)動(dòng)的。

6.數(shù)據(jù)資源目錄

數(shù)據(jù)資源目錄的初始構(gòu)建,通常會(huì)掃描大量數(shù)據(jù)以收集元數(shù)據(jù)。目錄的數(shù)據(jù)范圍可能包括全部數(shù)據(jù)湖中被確定為有價(jià)值和可共享的數(shù)據(jù)資產(chǎn)。數(shù)據(jù)資源目錄使用算法和機(jī)器學(xué)習(xí)自動(dòng)完成查找和掃描數(shù)據(jù)集、提取元數(shù)據(jù)以支持?jǐn)?shù)據(jù)集發(fā)現(xiàn)、暴露數(shù)據(jù)沖突、推斷語義和業(yè)務(wù)術(shù)語、給數(shù)據(jù)打標(biāo)簽以支持搜索、以及標(biāo)識(shí)隱私、安全性和敏感數(shù)據(jù)的合規(guī)性。

7.隱私與安全

數(shù)據(jù)安全是安全政策和安全程序的規(guī)劃、開發(fā)和執(zhí)行、以提供對(duì)數(shù)據(jù)和信息資產(chǎn)的身份驗(yàn)證、授權(quán)、訪問和審核。需要在數(shù)據(jù)湖的每個(gè)層中實(shí)現(xiàn)安全性。它始于存儲(chǔ),發(fā)掘和消耗,基本需求是停止未授權(quán)用戶的訪問。身份驗(yàn)證、審計(jì)、授權(quán)和數(shù)據(jù)保護(hù)是數(shù)據(jù)湖安全的一些重要特性。

8.數(shù)據(jù)質(zhì)量

數(shù)據(jù)質(zhì)量是數(shù)據(jù)湖架構(gòu)的重要組成部分。數(shù)據(jù)用于確定商業(yè)價(jià)值,從劣質(zhì)數(shù)據(jù)中提取洞察力將導(dǎo)致質(zhì)量差的洞察力。數(shù)據(jù)質(zhì)量重點(diǎn)關(guān)注需求、檢查、分析和提升的實(shí)現(xiàn)能力,對(duì)數(shù)據(jù)從計(jì)劃、獲取、存儲(chǔ)、共享、維護(hù)、應(yīng)用、消亡生命周期的每個(gè)階段里可能引發(fā)的各類數(shù)據(jù)質(zhì)量問題進(jìn)行識(shí)別、度量、監(jiān)控、預(yù)警等一系列活動(dòng),并通過改善和提高組織的管理水平使得數(shù)據(jù)質(zhì)量獲得進(jìn)一步提高。

9.數(shù)據(jù)審計(jì)

兩個(gè)主要的數(shù)據(jù)審計(jì)任務(wù)是跟蹤對(duì)關(guān)鍵數(shù)據(jù)集的更改:跟蹤重要數(shù)據(jù)集元素的更改;捕獲如何/何時(shí)/以及更改這些元素的人員。數(shù)據(jù)審計(jì)有助于評(píng)估風(fēng)險(xiǎn)和合規(guī)性。

10.數(shù)據(jù)應(yīng)用

數(shù)據(jù)應(yīng)用是指通過對(duì)數(shù)據(jù)湖的數(shù)據(jù)進(jìn)行統(tǒng)一的管理、加工和應(yīng)用,對(duì)內(nèi)支持業(yè)務(wù)運(yùn)營、流程優(yōu)化、營銷推廣、風(fēng)險(xiǎn)管理、渠道整合等活動(dòng),對(duì)外支持?jǐn)?shù)據(jù)開放共享、數(shù)據(jù)服務(wù)等活動(dòng),從而提升數(shù)據(jù)在組織運(yùn)營管理過程中的支撐輔助作用,同時(shí)實(shí)現(xiàn)數(shù)據(jù)價(jià)值的變現(xiàn)。在基本的計(jì)算能力之上,數(shù)據(jù)湖需提供批量報(bào)表、即席查詢、交互式分析、數(shù)據(jù)倉庫、機(jī)器學(xué)習(xí)等上層應(yīng)用,還需要提供自助式數(shù)據(jù)探索能力。

六、 如何通過數(shù)據(jù)治理實(shí)現(xiàn)數(shù)據(jù)湖商業(yè)價(jià)值

數(shù)據(jù)湖對(duì)一個(gè)企業(yè)的數(shù)字化轉(zhuǎn)型和可持續(xù)發(fā)展起著至關(guān)重要的作用。構(gòu)建開放、靈活、可擴(kuò)展的企業(yè)級(jí)統(tǒng)一數(shù)據(jù)管理和分析平臺(tái), 將企業(yè)內(nèi)、外部數(shù)據(jù)隨需關(guān)聯(lián),打破了數(shù)據(jù)的系統(tǒng)界限。

  1. 利用數(shù)據(jù)湖智能分析、數(shù)據(jù)可視化等技術(shù),實(shí)現(xiàn)了數(shù)據(jù)共享、日常報(bào)表自動(dòng)生成、快速和智能分析,滿足企業(yè)各級(jí)數(shù)據(jù)分析應(yīng)用需求。
  2. 深度挖掘數(shù)據(jù)價(jià)值,助力企業(yè)數(shù)字化轉(zhuǎn)型落地。實(shí)現(xiàn)了數(shù)據(jù)的目錄、模型、標(biāo)準(zhǔn)、認(rèn)責(zé)、安全、可視化、共享等管理,實(shí)現(xiàn)數(shù)據(jù)集中存儲(chǔ)、處理、分類與管理,實(shí)現(xiàn)報(bào)表生成自動(dòng)化、數(shù)據(jù)分析敏捷化、數(shù)據(jù)挖掘可視化,實(shí)現(xiàn)數(shù)據(jù)質(zhì)量評(píng)估、落地管理流程。

七、 數(shù)據(jù)湖遇到挑戰(zhàn)

數(shù)據(jù)湖本身是一個(gè)中心化的存儲(chǔ),能夠存儲(chǔ)任意規(guī)模的結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)湖的優(yōu)勢(shì)就是數(shù)據(jù)可以先作為資產(chǎn)存放起來,問題就在于如何把這些數(shù)據(jù)在業(yè)務(wù)中利用起來。當(dāng)部署了數(shù)據(jù)湖之后,數(shù)據(jù)治理問題將會(huì)接踵而至,比如從數(shù)據(jù)湖到數(shù)據(jù)湖,如何將數(shù)據(jù)進(jìn)行分流、湖的數(shù)據(jù)如何進(jìn)行整理等。

數(shù)據(jù)倉庫里的數(shù)據(jù)是經(jīng)過過整理、清晰易懂的。而數(shù)據(jù)湖的概念是不經(jīng)處理直接進(jìn)行堆砌,那么數(shù)據(jù)湖就有可能會(huì)變成“數(shù)據(jù)沼澤”,篩選難度會(huì)變大。由于定義不正確、信息不完整、數(shù)據(jù)陳舊或無法找到所需信息,它需要更多的元數(shù)據(jù)來理解存儲(chǔ)在數(shù)據(jù)湖中的數(shù)據(jù)資產(chǎn),包括數(shù)據(jù)內(nèi)容、數(shù)據(jù)資產(chǎn)圖譜、數(shù)據(jù)敏感性、用戶喜好、數(shù)據(jù)質(zhì)量、上下文(缺乏上下文將無法用于分析)和數(shù)據(jù)價(jià)值等業(yè)務(wù)層面的理解。另外這些系統(tǒng)和應(yīng)用是技術(shù)人員開發(fā)的,由于技術(shù)人員和業(yè)務(wù)人員的思維和“語言”存在差異,這使得業(yè)務(wù)用戶獲取數(shù)據(jù)變得更加復(fù)雜和困難。

1.避免數(shù)據(jù)沼澤

如何讓數(shù)據(jù)湖的水保持清亮不會(huì)成為數(shù)據(jù)沼澤?“數(shù)據(jù)湖的數(shù)據(jù)不被有效使用就會(huì)成為大垃圾場(chǎng)?!敝袊芯渲V語:“流水不腐,戶樞不蠹”。數(shù)據(jù)只有流動(dòng)起來,才可以不成為數(shù)據(jù)沼澤,湖泊只是暫存數(shù)據(jù)河流的基地。數(shù)據(jù)流動(dòng)就意味著所有的數(shù)據(jù)產(chǎn)生,最終要有它的耕種者和使用者。要讓數(shù)據(jù)有效流動(dòng)起來,就要建立有效的“數(shù)據(jù)河”(Data River)。業(yè)界在數(shù)據(jù)湖的嘗試上一般都會(huì)忽視數(shù)據(jù)治理的重要性,這是很危險(xiǎn)的,由它導(dǎo)致的數(shù)據(jù)沼澤也是企業(yè)對(duì)數(shù)據(jù)湖持續(xù)觀望的原因之一。

2.數(shù)據(jù)智能化治理是數(shù)據(jù)湖實(shí)現(xiàn)價(jià)值必有之路

對(duì)數(shù)據(jù)治理的需求實(shí)際更強(qiáng)了。因?yàn)榕c“預(yù)建?!狈绞降臄?shù)倉不同,湖中的數(shù)據(jù)更加分散、無序、不規(guī)則化等,需要通過治理工作達(dá)到數(shù)據(jù)“可用”狀態(tài),否則數(shù)據(jù)湖很可能會(huì)“腐化”成數(shù)據(jù)沼澤,浪費(fèi)大量的IT資源。平臺(tái)化的數(shù)據(jù)湖架構(gòu)能否驅(qū)動(dòng)企業(yè)業(yè)務(wù)發(fā)展,數(shù)據(jù)治理至關(guān)重要,沒有數(shù)據(jù)湖治理,企業(yè)可能失去有意義的商業(yè)智能。這也是對(duì)數(shù)據(jù)湖建設(shè)的最大挑戰(zhàn)之一。

考慮全面的數(shù)據(jù)湖治理,包括是誰引入的數(shù)據(jù)、誰負(fù)責(zé)數(shù)據(jù),以及數(shù)據(jù)的定義,以確保數(shù)據(jù)的妥善標(biāo)記和使用,實(shí)現(xiàn)對(duì)企業(yè)數(shù)據(jù)資源內(nèi)容層面的優(yōu)化改造和有效管控。

八、 數(shù)據(jù)湖的未來展望

現(xiàn)階段數(shù)據(jù)湖更多是作為數(shù)據(jù)倉庫的補(bǔ)充,數(shù)據(jù)湖概念和技術(shù)還在不斷演化,不同的解決方案供應(yīng)商也在添加新的特性和功能,包括架構(gòu)標(biāo)準(zhǔn)化和互操作性、數(shù)據(jù)治理要求、數(shù)據(jù)安全性等。

數(shù)據(jù)湖作為一種云服務(wù)隨時(shí)按需滿足對(duì)不同數(shù)據(jù)的分析、處理和存儲(chǔ)需求,數(shù)據(jù)湖的擴(kuò)展性,可以為用戶提供更多的實(shí)時(shí)分析,基于企業(yè)大數(shù)據(jù)的數(shù)據(jù)湖正在向支持更多類型的實(shí)時(shí)智能化服務(wù)發(fā)展,將會(huì)為企業(yè)現(xiàn)有的數(shù)據(jù)驅(qū)動(dòng)型決策制定模式帶來極大改變。

數(shù)據(jù)湖發(fā)展到現(xiàn)在,已經(jīng)成為企業(yè)數(shù)據(jù)體系的基礎(chǔ):數(shù)據(jù)庫、數(shù)倉、大數(shù)據(jù)處理、機(jī)器學(xué)習(xí)等各種數(shù)據(jù)服務(wù),都可以“一湖盡收”。在這個(gè)“上云用數(shù)賦智”時(shí)代,很多企業(yè)已經(jīng)完成上云第一步,接下來,就是如何“用數(shù)”和“賦智”。


-END-

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 什么是數(shù)據(jù)湖? 維基上對(duì)它的解釋:數(shù)據(jù)湖(Data Lake)是一個(gè)以原始格式存儲(chǔ)數(shù)據(jù)的存儲(chǔ)庫或系統(tǒng)。它按原樣存儲(chǔ)...
    歌灣汐云閱讀 24,201評(píng)論 1 18
  • 我們談?wù)摂?shù)據(jù)中臺(tái)之前, 我們也聽到過數(shù)據(jù)平臺(tái)、數(shù)據(jù)倉庫、數(shù)據(jù)湖的相關(guān)概念,它們都與數(shù)據(jù)有關(guān)系,但他們和數(shù)據(jù)中臺(tái)有什...
    garyond閱讀 12,928評(píng)論 0 23
  • 什么是數(shù)據(jù)湖? 數(shù)據(jù)湖是一個(gè)安全的集中式存儲(chǔ)庫,它以數(shù)據(jù)原始形式和可用于分析的形式存儲(chǔ)所有數(shù)據(jù),并提供彈性容量和吞...
    毛毛蟲小姑娘閱讀 1,159評(píng)論 0 0
  • 我是黑夜里大雨紛飛的人啊 1 “又到一年六月,有人笑有人哭,有人歡樂有人憂愁,有人驚喜有人失落,有的覺得收獲滿滿有...
    陌忘宇閱讀 8,832評(píng)論 28 54
  • 信任包括信任自己和信任他人 很多時(shí)候,很多事情,失敗、遺憾、錯(cuò)過,源于不自信,不信任他人 覺得自己做不成,別人做不...
    吳氵晃閱讀 6,364評(píng)論 4 8

友情鏈接更多精彩內(nèi)容