Spark Core 性能調(diào)優(yōu)之配置內(nèi)存

操作場景

? ? ? ? Spark是內(nèi)存計算框架,計算過程中內(nèi)存不夠?qū)park的執(zhí)行效率影響很大。可以通過監(jiān)控GC(Garbage Collection),評估內(nèi)存中RDD的大小來判斷內(nèi)存是否變成性能瓶頸,并根據(jù)情況優(yōu)化。

? ? ? ? 監(jiān)控節(jié)點進程的GC情況(在客戶端的conf/spark-default.conf配置文件中,在spark.driver.extraJavaOptions和spark.executor.extraJavaOptions配置項中添加參數(shù):

"-verbose:gc?-XX:+PrintGCDetails -XX:+PrintGCTimeStamps"),如果頻繁出現(xiàn)Full ?GC,需要優(yōu)化GC。把RDD做Cache操作,通過日志查看RDD在內(nèi)存中的大小,如果數(shù)據(jù)太大,需要改變RDD的存儲級別來優(yōu)化。

操作步驟

● 優(yōu)化GC,調(diào)整老年代和新生代的大小和比例。在客戶端的conf/spark-default.conf配置文件中,在spark.driver.extraJavaOptions和spark.executor.extraJavaOptions配置項中添加參數(shù):-XX:NewRatio。如,"

-XX:NewRatio=2",則新生代占整個堆空間的1/3,老年代占2/3。

● 開發(fā)Spark應(yīng)用程序時,優(yōu)化RDD的數(shù)據(jù)結(jié)構(gòu)。

? ? ■ 使用原始類型數(shù)組替代集合類,如可使用fastutil庫。

? ? ■ 避免嵌套結(jié)構(gòu)。

? ? ■ Key盡量不要使用String。

● 開發(fā)Spark應(yīng)用程序時,建議序列化RDD。

? ? RDD做cache時默認是不序列化數(shù)據(jù)的,可以通過設(shè)置存儲級別來序列化RDD減小內(nèi)存。例如:

testRDD.persist(StorageLevel.MEMORY_ONLY_SER)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容