源文件放在github,隨著理解的深入,不斷更新,如有謬誤之處,歡迎指正。原文鏈接https://github.com/jacksu/utils4s/blob/master/spark-knowledge/md/tungsten-sort-shuffle.md
正如你所知,spark實(shí)現(xiàn)了多種shuffle方法,通過 spark.shuffle.manager來確定。暫時總共有三種:hash shuffle、sort shuffle和tungsten-sort shuffle,從1.2.0開始默認(rèn)為sort shuffle。本節(jié)主要介紹tungsten-sort。spark在1.4以后可以通過(spark.shuffle.manager = tungsten-sort)開啟Tungsten-sort shuffle。如果Tungsten-sort 發(fā)現(xiàn)自己無法處理,則會自動使用 Sort Based Shuffle進(jìn)行處理。Tungsten-sort優(yōu)化點(diǎn)主要有:
直接在serialized binary data上操作,不需要反序列化,使用unsafe內(nèi)存copy函數(shù)直接copy數(shù)據(jù)。
提供cache-efficient sorter ShuffleExternalSorter 排序壓縮記錄指針和partition ids,使用一個8bytes的指針,把排序轉(zhuǎn)化成了一個指針數(shù)組的排序。
spilling的時候不需要反序列化和序列化
spill的merge過程也無需反序列化即可完成,但需要shuffle.unsafe.fastMergeEnabled的支持
當(dāng)且僅當(dāng)下面條件都滿足時,才會使用新的Shuffle方式:
Shuffle dependency 不能帶有aggregation 或者輸出需要排序
Shuffle 的序列化器需要是 KryoSerializer 或者 Spark SQL's 自定義的一些序列化方式.* > Shuffle 文件的數(shù)量不能大于 16777216
序列化時,單條記錄不能大于 128 MB
優(yōu)點(diǎn)
很多性能的優(yōu)化
缺點(diǎn)
- 不可以在mapper端排序
- 不穩(wěn)定
- 沒有提供off-heap排序緩存