實(shí)際上Spark集群的資源并不一定會被充分利用到,所以要盡量設(shè)置合理的并行度,來充分地利用集群的資源。才能充分提高Spark應(yīng)用程序的性能。
Spark會自動設(shè)置以文件作為輸入源的RDD的并行度,依據(jù)其大小,比如HDFS,就會給每一個block創(chuàng)建一個partition,也依據(jù)這個設(shè)置并行度。對于reduceByKey等會發(fā)生shuffle的操作,就使用并行度最大的父RDD的并行度即可。
可以手動使用textFile()、parallelize()等方法的第二個參數(shù)來設(shè)置并行度;也可以使用spark.default.parallelism參數(shù),來設(shè)置統(tǒng)一的并行度。Spark官方的推薦是,給集群中的每個cpu core設(shè)置2~3個task。
比如說,spark-submit設(shè)置了executor數(shù)量是10個,每個executor要求分配2個core,那么application總共會有20個core。此時可以設(shè)置new SparkConf().set("spark.default.parallelism", "60")來設(shè)置合理的并行度,從而充分利用資源。

提高并行度原理