操作場景
? ? ? ? Spark是內(nèi)存計算框架,計算過程中內(nèi)存不夠?qū)park的執(zhí)行效率影響很大。可以通過監(jiān)控GC(Garbage Collection),評估內(nèi)存中RDD的大小來判斷內(nèi)存是否變成性能瓶頸,并根據(jù)情況優(yōu)化。
? ? ? ? 監(jiān)控節(jié)點進程的GC情況(在客戶端的conf/spark-default.conf配置文件中,在spark.driver.extraJavaOptions和spark.executor.extraJavaOptions配置項中添加參數(shù):
"-verbose:gc?-XX:+PrintGCDetails -XX:+PrintGCTimeStamps"),如果頻繁出現(xiàn)Full ?GC,需要優(yōu)化GC。把RDD做Cache操作,通過日志查看RDD在內(nèi)存中的大小,如果數(shù)據(jù)太大,需要改變RDD的存儲級別來優(yōu)化。
操作步驟
● 優(yōu)化GC,調(diào)整老年代和新生代的大小和比例。在客戶端的conf/spark-default.conf配置文件中,在spark.driver.extraJavaOptions和spark.executor.extraJavaOptions配置項中添加參數(shù):-XX:NewRatio。如,"
-XX:NewRatio=2",則新生代占整個堆空間的1/3,老年代占2/3。
● 開發(fā)Spark應(yīng)用程序時,優(yōu)化RDD的數(shù)據(jù)結(jié)構(gòu)。
? ? ■ 使用原始類型數(shù)組替代集合類,如可使用fastutil庫。
? ? ■ 避免嵌套結(jié)構(gòu)。
? ? ■ Key盡量不要使用String。
● 開發(fā)Spark應(yīng)用程序時,建議序列化RDD。
? ? RDD做cache時默認是不序列化數(shù)據(jù)的,可以通過設(shè)置存儲級別來序列化RDD減小內(nèi)存。例如:
testRDD.persist(StorageLevel.MEMORY_ONLY_SER)