數(shù)據(jù)湖是怎樣挖的?

文:小黑羊丨畫:庭作

原文鏈接:數(shù)據(jù)湖這個大坑,是怎么挖的?

以下為全文


從前,數(shù)據(jù)少的時候,人們拿腦子記就可以了,大不了采用結繩記事

后來,為了更有效率的記事和工作,數(shù)據(jù)庫出現(xiàn)了。數(shù)據(jù)庫核心是滿足快速的增刪改查,應對聯(lián)機事務。

比如你用銀卡消費了,后臺數(shù)據(jù)庫就要快速記下這筆交易,更新你的卡余額。

日子久了,人們發(fā)現(xiàn),庫里的數(shù)據(jù)越來越多了,不光要支持聯(lián)機業(yè)務,還有分析的價值。

但是,傳統(tǒng)數(shù)據(jù)庫要滿足頻繁、快速的讀寫需求,并不適合這種以讀取大量數(shù)據(jù)為特征的分析業(yè)務。

于是,人們在現(xiàn)有的數(shù)據(jù)庫基礎上,對數(shù)據(jù)進行加工。這個加工過程,被稱為:

“ETL”

?抽取Extract、清洗轉換Transform、加載Load

經(jīng)過這三步,數(shù)據(jù)倉庫就建好了。

這個“倉庫”,主要是為了數(shù)據(jù)分析用途,比如用于BI、出報表、做經(jīng)營分析等等。

簡要總結下??

數(shù)據(jù)庫用于聯(lián)機事務,通常為小數(shù)據(jù)量高頻讀寫。

數(shù)據(jù)庫等原始數(shù)據(jù),經(jīng)過ETL加工以后,就被裝進了數(shù)據(jù)倉庫。

數(shù)據(jù)倉庫主要用于聯(lián)機分析業(yè)務,通常為大數(shù)據(jù)量讀取。

雖然應用場景不一樣,但他們都是結構化數(shù)據(jù)。

在相當長的一段時間內,他們聯(lián)合起來,共同滿足企業(yè)的實時“交易”型業(yè)務和聯(lián)機“分析性”的業(yè)務。

隨著時代的發(fā)展,數(shù)據(jù)的類型越來越多,人們對數(shù)據(jù)的需求也越來越復雜。

企業(yè)越來越看重這些“大數(shù)據(jù)”的價值,希望把他們存好、用好。

這些數(shù)據(jù),五花八門,又多又雜,怎么存呢?

索性挖個大坑吧!

這就是數(shù)據(jù)湖的原型。

說白了,數(shù)據(jù)湖就像一個“大水坑”,是一種把各類異構數(shù)據(jù)進行集中存儲的架構。

為什么不是數(shù)據(jù)河Data River?

因為,數(shù)據(jù)要能存,而不是一江春水向東流。

為什么不是數(shù)據(jù)池Data Pool

因為,要足夠大,大數(shù)據(jù)太大,一池存不下。

為什么不是數(shù)據(jù)海Data Sea

因為,企業(yè)的數(shù)據(jù)要有邊界,可以流通和交換,但更注重隱私和安全,“海到無邊天作岸”,那可不行。

so,數(shù)據(jù)湖,Data Lake,剛剛好。

可是,概念雖好,把這個“水坑”用好卻不容易。

1、這個“坑”挖在哪兒?怎么挖?“挖掘機”貴不貴?

2、這“坑”挖好后,這么把各種水都引過來灌到坑里?

3、灌了半坑水,如何才能把他們利用起來?

這些,就是當下數(shù)據(jù)湖面臨的挑戰(zhàn):如何建湖?如何做數(shù)據(jù)ETL?如何使用數(shù)據(jù)。

AWS是這樣幫我們“挖坑”的。

首先,數(shù)據(jù)湖是一種存儲架構,本質上講是存儲,所以,AWS就用了自己最經(jīng)典的S3存儲,來當數(shù)據(jù)湖的地基。

要知道,AWS在2006年出道的時候,第一款產(chǎn)品就是S3哦)。

企業(yè)基于AWS云服務,可以快速挖出一個適合自己的“湖”,而且這個“湖”根據(jù)需求,可大可小,按“注水量”付費。

接下來,就是如何把企業(yè)的各種異構數(shù)據(jù)注入到湖里,也就是我們前面說過的“ETL”,看起來很麻煩。

有個非??岬漠a(chǎn)品叫AWS Glue,這簡直就是個自動化數(shù)據(jù)分揀機,可以快速完成復雜的ETL過程,處理完的數(shù)據(jù),既可以注入數(shù)據(jù)湖,也可以給數(shù)倉或數(shù)據(jù)庫用。

Glue神器有兩個特色

①它能自動化的生成元數(shù)據(jù)目錄,大大簡化數(shù)據(jù)管理工作量;

②它是無服務器架構的,呼之則來,揮之則來,一次還可以整好多臺,開足馬力處理數(shù)據(jù)。

目前這個神器已經(jīng)在AWS中國(寧夏)區(qū)域和(北京)區(qū)域正式上線了。

同時,還有一個工具,也同步上線,叫做Amazon Athena。

這個工具,讓我們可以用標準的SQL,對存儲在S3里的數(shù)據(jù)進行查詢,不管是結構化的還是非結構化的。

這就意味著,大家可以用最熟悉的SQL,輕松在S3硬地里“吃土”,當然也能在湖里“劃水”,輕松進行數(shù)據(jù)洞察。

數(shù)據(jù)入湖之后,并不是簡單摸魚劃水就完事了,光有Athena做查詢還很不夠。

AWS提供了一系列的工具,讓企業(yè)能進行“湖底大開發(fā)”,滿足各種各樣的業(yè)務需求。

數(shù)據(jù)湖發(fā)展到現(xiàn)在,已經(jīng)成為企業(yè)數(shù)據(jù)體系的基礎:數(shù)據(jù)庫、數(shù)倉、大數(shù)據(jù)處理、機器學習等各種數(shù)據(jù)服務,都可以“一湖盡收”。任何想構建“數(shù)據(jù)中臺”的企業(yè),都可以在AWS找到全面的解決方案。

在這個“上云用數(shù)賦智”時代,很多企業(yè)已經(jīng)完成上云第一步,接下來,就是如何“用數(shù)”和“賦智”。

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

友情鏈接更多精彩內容