操作場景
? ? ? ? 并行度控制任務(wù)的數(shù)量,影響shuffle操作后數(shù)據(jù)被切分成的塊數(shù)。調(diào)整并行度讓任務(wù)的數(shù)量和每個任務(wù)處理的數(shù)據(jù)與機(jī)器的處理能力達(dá)到最優(yōu)。
? ? ? ? 查看CPU使用情況和內(nèi)存占用情況,當(dāng)任務(wù)和數(shù)據(jù)不是平均分布在各節(jié)點(diǎn),而是集中在個別節(jié)點(diǎn)時,可以增大并行度使任務(wù)和數(shù)據(jù)更均勻的分布在各個節(jié)點(diǎn)。增加任務(wù)的并行度,充分利用集群機(jī)器的計(jì)算能力,一般并行度設(shè)置為集群CPU總和的2-3倍。
操作步驟
? ? ? ? 并行度可以通過如下三種方式來設(shè)置,可以根據(jù)實(shí)際的內(nèi)存、CPU、數(shù)據(jù)以及應(yīng)用程序邏輯的情況調(diào)整并行度參數(shù)。
● 在會產(chǎn)生shuffle的操作函數(shù)內(nèi)設(shè)置并行度參數(shù),優(yōu)先級最高。
testRDD.groupByKey(24)
● 在代碼中配置“spark.default.parallelism”設(shè)置并行度,優(yōu)先級次之。
val conf = new SparkConf()
conf.set("spark.default.parallelism", 24)
● 在 “$SPARK_HOME/conf/spark-defaults.conf” 文件中配置“spark.default.parallelism”的值,優(yōu)先級最低。
spark.default.parallelism? ? 24