通過對spark core的核心概念學(xué)習(xí),可以更好的了解spark的運(yùn)行機(jī)制和生命周期 基本概念: Application: spark應(yīng)用程...
操作場景 SQL語句轉(zhuǎn)化為具體執(zhí)行計(jì)劃是由SQL查詢編譯器決定的,同一個(gè)SQL語句可以轉(zhuǎn)化成多種物理執(zhí)行計(jì)劃,如何指導(dǎo)編譯器選擇效率最高的執(zhí)行計(jì)...
使用 mapPartitions,按每個(gè)分區(qū)計(jì)算結(jié)果 如果每條記錄的開銷太大,例: rdd.map{x=>conn=getDBConn;conn...
操作場景 Spark onYARN模式下,有Driver、ApplicationMaster、Executor三種進(jìn)程。在任務(wù)調(diào)度和運(yùn)行...
操作場景 對于Spark應(yīng)用來說,資源是影響Spark應(yīng)用執(zhí)行效率的一個(gè)重要因素。當(dāng)一個(gè)長期運(yùn)行的服務(wù)(比如JDBCServer),若分...
操作場景 Spark系統(tǒng)在運(yùn)行含shuffle過程的應(yīng)用時(shí),Executor進(jìn)程除了運(yùn)行task,還要負(fù)責(zé)寫shuffle數(shù)據(jù),給其他E...
操作場景 Broadcast(廣播)可以把數(shù)據(jù)集合分發(fā)到每一個(gè)節(jié)點(diǎn)上,Spark任務(wù)在執(zhí)行過程中要使用這個(gè)數(shù)據(jù)集合時(shí),就會(huì)在本地查找Broadc...
操作場景 并行度控制任務(wù)的數(shù)量,影響shuffle操作后數(shù)據(jù)被切分成的塊數(shù)。調(diào)整并行度讓任務(wù)的數(shù)量和每個(gè)任務(wù)處理的數(shù)據(jù)與機(jī)器的處理能力達(dá)...
操作場景 Spark是內(nèi)存計(jì)算框架,計(jì)算過程中內(nèi)存不夠?qū)park的執(zhí)行效率影響很大??梢酝ㄟ^監(jiān)控GC(Garbage Collecti...