1.執(zhí)行引擎變更:TEZ 不用支持緩慢過(guò)時(shí)的MapReduce了,14年測(cè)試時(shí)TEZ比MapReduce快100%。 2.鑒權(quán)變更:Ranger Hive默認(rèn)使用storag...
背景 最近一段時(shí)間,經(jīng)常與各位技術(shù)大佬說(shuō)起中臺(tái)服務(wù)相關(guān)的概念,在腦海中第一個(gè)概念SOA的概念,但是回想一下,應(yīng)該會(huì)有差別: SOA:業(yè)務(wù)系統(tǒng)分解為多個(gè)組件,組件之間獨(dú)立提供...
在 Apache Flink 中使用 watermark 的 4 個(gè)理解 在下文中的例子中,我們有一個(gè)帶有時(shí)間戳的事件流,但是由于某種原因它們并不是按順序到達(dá)的。圖中的數(shù)字代...
上一篇 Apache Flink 學(xué)習(xí)筆記(一) 簡(jiǎn)單示范了批處理的使用,本篇展示流式處理的使用方法。 流處理也叫無(wú)界處理,因?yàn)閿?shù)據(jù)是源源不斷的被加載進(jìn)來(lái)的,流處理需要用到D...
暫時(shí)定義為數(shù)倉(cāng)的質(zhì)量管理,完全可以定義為數(shù)據(jù)中臺(tái)的質(zhì)量管理 數(shù)據(jù)質(zhì)量的理解 數(shù)據(jù)質(zhì)量的高低代表了該數(shù)據(jù)滿足數(shù)據(jù)消費(fèi)者期望的程度,這種程度基于他們對(duì)數(shù)據(jù)的使用預(yù)期。數(shù)據(jù)質(zhì)量必須...
Spark SQL 原理和運(yùn)行機(jī)制 Catalyst 執(zhí)行優(yōu)化器 Catalyst 是 Spark SQL 執(zhí)行優(yōu)化器的代號(hào),所有 Spark SQL 語(yǔ)句最終都能通過(guò)它來(lái)解...