Spark性能優(yōu)化之提高并行度

實(shí)際上Spark集群的資源并不一定會被充分利用到,所以要盡量設(shè)置合理的并行度,來充分地利用集群的資源。才能充分提高Spark應(yīng)用程序的性能。

Spark會自動設(shè)置以文件作為輸入源的RDD的并行度,依據(jù)其大小,比如HDFS,就會給每一個block創(chuàng)建一個partition,也依據(jù)這個設(shè)置并行度。對于reduceByKey等會發(fā)生shuffle的操作,就使用并行度最大的父RDD的并行度即可。

可以手動使用textFile()、parallelize()等方法的第二個參數(shù)來設(shè)置并行度;也可以使用spark.default.parallelism參數(shù),來設(shè)置統(tǒng)一的并行度。Spark官方的推薦是,給集群中的每個cpu core設(shè)置2~3個task。

比如說,spark-submit設(shè)置了executor數(shù)量是10個,每個executor要求分配2個core,那么application總共會有20個core。此時可以設(shè)置new SparkConf().set("spark.default.parallelism", "60")來設(shè)置合理的并行度,從而充分利用資源。

提高并行度原理
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容