Spark Core 性能調(diào)優(yōu)之設(shè)置并行度

操作場景

? ? ? ? 并行度控制任務(wù)的數(shù)量,影響shuffle操作后數(shù)據(jù)被切分成的塊數(shù)。調(diào)整并行度讓任務(wù)的數(shù)量和每個任務(wù)處理的數(shù)據(jù)與機(jī)器的處理能力達(dá)到最優(yōu)。

? ? ? ? 查看CPU使用情況和內(nèi)存占用情況,當(dāng)任務(wù)和數(shù)據(jù)不是平均分布在各節(jié)點(diǎn),而是集中在個別節(jié)點(diǎn)時,可以增大并行度使任務(wù)和數(shù)據(jù)更均勻的分布在各個節(jié)點(diǎn)。增加任務(wù)的并行度,充分利用集群機(jī)器的計(jì)算能力,一般并行度設(shè)置為集群CPU總和的2-3倍。

操作步驟

? ? ? ? 并行度可以通過如下三種方式來設(shè)置,可以根據(jù)實(shí)際的內(nèi)存、CPU、數(shù)據(jù)以及應(yīng)用程序邏輯的情況調(diào)整并行度參數(shù)。

● 在會產(chǎn)生shuffle的操作函數(shù)內(nèi)設(shè)置并行度參數(shù),優(yōu)先級最高。

testRDD.groupByKey(24)

● 在代碼中配置“spark.default.parallelism”設(shè)置并行度,優(yōu)先級次之。

val conf = new SparkConf()

conf.set("spark.default.parallelism", 24)

● 在 “$SPARK_HOME/conf/spark-defaults.conf” 文件中配置“spark.default.parallelism”的值,優(yōu)先級最低。

spark.default.parallelism? ? 24

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容