Java內(nèi)存模型 Java 虛擬機在執(zhí)行 Java 程序的過程中會把它所管理的內(nèi)存劃分為若干個不同的數(shù)據(jù)區(qū)域。這些區(qū)域都有各自的用途,以及創(chuàng)建和...
在工作中使用hive比較多,也寫了很多HiveQL。這里從三個方面對 Hive 常用的一些性能優(yōu)化進行了總結(jié)。 表設(shè)計層面優(yōu)化 利用分區(qū)表優(yōu)化 ...
什么是RDD? RDD是Spark中的數(shù)據(jù)抽象,全稱彈性分布式數(shù)據(jù)集(Resilient Distributed Datasets)。RDD可以...
Redis 支持哪幾種數(shù)據(jù)類型? string:最基本的數(shù)據(jù)類型,二進制安全的字符串,最大512M list:按照添加順序保持順序的 字符串列表...
Zookeeper是什么 Zookeeper是一個分布式的,開源的分布式應(yīng)用程序協(xié)調(diào)服務(wù),是Google的Chubby一個開源的實現(xiàn),是Hado...
實時計算的三種語義 At-most-once:最多一次。每條數(shù)據(jù)記錄最多被處理一次,也就是說數(shù)據(jù)會有丟失(沒被處理掉)的可能。 At-least...
什么是ETL ETL用來描述對原始數(shù)據(jù)從抽取、清洗轉(zhuǎn)換和加載的過程。ETL按照統(tǒng)一的規(guī)則集成并提高數(shù)據(jù)的價值,是將數(shù)據(jù)從數(shù)據(jù)源向目標(biāo)數(shù)據(jù)倉庫(D...
Spark應(yīng)用Yarn-Client模式運行架構(gòu)原理解析 Spark Yarn Client向Yarn的ResourceManager申請啟動A...