Delta Lake: 數(shù)據(jù)湖?數(shù)據(jù)倉庫?

Delta Lake的橫空出世,又點爆了一個新的熱點。今天,就用磚廠【Databricks】的大神Michael Armbrust上周的講座【全球巡演Boston站】來揭開它的神秘面紗。?https://v.youku.com/v_show/id_XNDI0OTE4NzYzNg?【《--- 優(yōu)酷 Link, 強烈建議認真聽聽主創(chuàng)者是如何介紹Delta Lake的動機和底層實現(xiàn)細節(jié)】聽完后,思考一個簡單的問題,Spark + Delta是什么?數(shù)據(jù)湖?數(shù)據(jù)倉庫?還是 AI Database?

這里簡要介紹一下Michael Armbrust。應該說,他是磚廠最擅長給講座的,是Spark summit給Live demo最多的那位。他的光輝歷史,估計掰著手指也數(shù)不清,是UC Berkeley的博士,是歷史上引用最高的云計算論文的一作,是Spark SQL的原創(chuàng)者,是Structured Streaming的原創(chuàng)者,這兩年忙啥呢?在深挖 Delta Lake。至今,從動土的那一刻,已經(jīng)挖了兩年。各大公司已經(jīng)在生產(chǎn)環(huán)境中使用【比如,一年前Apple給的Spark summit keynote:?https://databricks.com/session/keynote-from-apple】。要知道,Databricks 的環(huán)境里已經(jīng)有1?exabyte的 Delta 數(shù)據(jù)了。

Spark做為一個計算引擎,應該無須質疑是當前大數(shù)據(jù)行業(yè)的領導者。。。而parquet做為Spark的缺省數(shù)據(jù)存儲格式,其實相當薄弱,缺少了太多關鍵特性,讓Spark的用戶不勝其擾,簡直是Spark易用性的最大敵人!社區(qū)的抱怨可謂綿綿不絕,這種對于技術完美主義者,是無法容忍的!?。≡谶@種背景下,Delta開始了設計和實現(xiàn)。。。Databricks一年多前推出Delta之后,各位客戶好評不斷,但是我們只在有限的cloud上提供服務。這個實在無法滿足那些在on prem上大量部署Spark的整個社區(qū)!于是乎,今年Spark Summit,使用Apache license?開源了!?。?/p>

未來幾周,慢慢講解Delta的背景和技術細節(jié)。等不及的同學們,建議先聽聽Michael的talk吧!

Delta Lake主頁:https://delta.io/?附圖是美國懷俄明的Delta Lake

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

友情鏈接更多精彩內容