集群規(guī)劃 集群架構(gòu) 其中 Distribute 是指創(chuàng)建分布式表的機(jī)器,在此文章中是將 Distribute 單獨(dú)部署的,也可以將 Distribute 角色劃分到每個(gè) Re...
集群規(guī)劃 集群架構(gòu) 其中 Distribute 是指創(chuàng)建分布式表的機(jī)器,在此文章中是將 Distribute 單獨(dú)部署的,也可以將 Distribute 角色劃分到每個(gè) Re...
概述 這篇文章是但不僅僅是官方文檔的中文翻譯,還有里面每一個(gè)方法對(duì)應(yīng)的Transformation和運(yùn)行時(shí)對(duì)Task的影響。 Prerequisites 關(guān)于算子想說的有很多...
大數(shù)據(jù)挑戰(zhàn) 多種執(zhí)行、存儲(chǔ)引擎,分鐘、小時(shí)、天級(jí)的任務(wù)調(diào)度,怎樣梳理數(shù)據(jù)的時(shí)間線變化? 任務(wù)、表、列、指標(biāo)等數(shù)據(jù),如何進(jìn)行檢索、復(fù)用、清理、熱度Top計(jì)算? 怎樣對(duì)表、列、指...
Job日志 mapred-site.xml配置任務(wù)執(zhí)行日志路徑(hdfs) 作業(yè)啟動(dòng)時(shí),hadoop會(huì)將作業(yè)信息放在${yarn.app.mapreduce.am.stagi...
Broadcast是分布式的數(shù)據(jù)共享,由BroadcastManager負(fù)責(zé)管理其創(chuàng)建或銷毀。Broadcast一般用于處理共享的配置文件、通用Dataset、常用數(shù)據(jù)結(jié)構(gòu) ...
SparkEnv中有兩個(gè)序列化的組件,分別是SerializerManager和closureSerializer SerializerManager集成序列化、壓縮、加密的...
Spark的度量系統(tǒng)有以下幾部分,也可以參照MetricsSystem類的注釋部分 Instance: 數(shù)據(jù)實(shí)例。Spark的Instance有Master、Worker、A...
Spark中很多組件都是靠RPC、事件消息機(jī)制實(shí)現(xiàn)通信的。前者解決遠(yuǎn)程通信問題,后者則是本地較為高效的通信方式 定義ListenerBus Spark定義了一個(gè)trait的L...
ThreadLocal的作用是提供一個(gè)線程的局部變量,比如context、session。是直接把某個(gè)對(duì)象在各自線程中實(shí)例化一份,每個(gè)線程都有屬于自己的該對(duì)象。ThreadL...