通過對spark core的核心概念學習,可以更好的了解spark的運行機制和生命周期 基本概念: Application: spark應用程序,一個應用程序由一個driv...
操作場景 SQL語句轉化為具體執(zhí)行計劃是由SQL查詢編譯器決定的,同一個SQL語句可以轉化成多種物理執(zhí)行計劃,如何指導編譯器選擇效率最高的執(zhí)行計劃,這就是優(yōu)化器的主要作用。傳...
使用 mapPartitions,按每個分區(qū)計算結果 如果每條記錄的開銷太大,例: rdd.map{x=>conn=getDBConn;conn.write(x.toStri...
操作場景 Spark onYARN模式下,有Driver、ApplicationMaster、Executor三種進程。在任務調度和運行的過程中,Driver和Exe...
操作場景 對于Spark應用來說,資源是影響Spark應用執(zhí)行效率的一個重要因素。當一個長期運行的服務(比如JDBCServer),若分配給它多個Executor,可...
操作場景 Spark系統(tǒng)在運行含shuffle過程的應用時,Executor進程除了運行task,還要負責寫shuffle數(shù)據(jù),給其他Executor提供shuffl...
操作場景 Broadcast(廣播)可以把數(shù)據(jù)集合分發(fā)到每一個節(jié)點上,Spark任務在執(zhí)行過程中要使用這個數(shù)據(jù)集合時,就會在本地查找Broadcast過來的數(shù)據(jù)集合。如果不使...
操作場景 并行度控制任務的數(shù)量,影響shuffle操作后數(shù)據(jù)被切分成的塊數(shù)。調整并行度讓任務的數(shù)量和每個任務處理的數(shù)據(jù)與機器的處理能力達到最優(yōu)。 查看CPU使...
操作場景 Spark是內(nèi)存計算框架,計算過程中內(nèi)存不夠對Spark的執(zhí)行效率影響很大。可以通過監(jiān)控GC(Garbage Collection),評估內(nèi)存中RDD的大小...
操作場景 spark支持兩種方式的序列化: ● Java 原生序列化 JavaSerializer ● Kryo 序列化 KryoSerializer 序列化對于 Spa...