背景 對于億級規(guī)模的數(shù)據(jù)量,使用傳統(tǒng)數(shù)據(jù)庫分析會比較低效且耗時。 這時就引入了OLAP引擎,本文以impala和spark為主進行介紹。 OLA...
當接到復雜的業(yè)務(wù)需求需要產(chǎn)出多張報表時,首先需要將需求理解透徹,然后梳理清楚包含哪些指標,然后設(shè)計報表的物理存儲結(jié)構(gòu)。 具體從以下角度出發(fā): 1...
真真假假一查便知。 筆者以武漢為例說一下如何查證。 搜索武漢房管局,第一條就是,點擊即可。 找到辦事服務(wù),點擊商品房項目查詢 找到你想要的樓盤 ...
1.使用explain查看執(zhí)行計劃 建表優(yōu)化 2.開啟動態(tài)分區(qū)配置,使用分區(qū)過濾3.分桶表 語法優(yōu)化 a. 分區(qū)過濾和列過濾,減少數(shù)據(jù)量和降低讀...
Spark UI 上面顯示的 Storage Memory 可用內(nèi)存其實等于 Execution 內(nèi)存和 Storage 內(nèi)存之和,也就是 us...
hive timestamp 與impala顯示不一致 hive ''和null 不一致 導入hive \n\r 特殊字符 hive 動態(tài)分區(qū)插入
知音號里面的劇情是上世紀二三十年代的大武漢,船上有不同的角色,名伶、報童、商賈…… 你可以自由地穿梭在各個角落,在演員之間駐足,甚至與他們共舞對...
傳統(tǒng)的離線 Batch SQL (面向有界數(shù)據(jù)集的 SQL)有三種基礎(chǔ)的實現(xiàn)方式,分別是 Nested-loop Join(嵌套循環(huán))、Sort...
Window概述 streaming流式計算是一種被設(shè)計用于處理無限數(shù)據(jù)集的數(shù)據(jù)處理引擎,而無限數(shù)據(jù)集是指一種不斷增長的本質(zhì)上無限的數(shù)據(jù)集,而w...