亚州一区中文网,熟妇天日日

spark的groupByKey和combineByKey算子的使用情況對比

groupByKey和combineByKey算子底層都是調(diào)用了combineByKeyWithClassTag方法，區(qū)別在于各自方法的傳入的參數(shù)mapSideCombine 不同，改參數(shù)不同的區(qū)別在于是否在map端進行聚合；

groupByKey 的參數(shù)mapSideCombine = false
combineByKey的參數(shù)mapSideCombine = true

兩者各自的使用不多介紹，網(wǎng)上可以看到很多，這里簡單分享一個使用兩者時遇到的問題
(1)圖1所示，在使用groupByKey時，關(guān)注stage3 到stage5過程，stage3輸出數(shù)據(jù)大小為：45.2M；再關(guān)注一個時間:stage3的Duration為4s；

圖1：groupByKey

(2)圖2所示，在使用combineByKey時，同樣關(guān)注stage3到stage5的過程，此時stage3的輸出數(shù)據(jù)大小為：24.0M；再關(guān)注stage的Duration為3s；

圖2：combineByKey

簡單分析：
對比兩者可以發(fā)現(xiàn)stage3階段輸出數(shù)據(jù)量減少了21.2M，運行時間少了1s；stage5 shuffle read 耗時減少了2s，這在發(fā)生shuffle大量讀取時，使用combineByKey性能會比groupByKey好；一個提前聚合，避免了shuffle 傳輸量，第二個是shuffle read 后可能會減少數(shù)據(jù)分析量，減少對內(nèi)存的消耗；

問題：
其中在自定義combineByKey的3個函數(shù)時，第一次使用ObjectIterator作為返回對象時，stage3的shuffle write 數(shù)據(jù)大小為26.2M；第二次改用了Iterable作為返回對象時，stage3的shuffle write 數(shù)據(jù)大小為24M，減少了2.2M，俗話說fastutil的API不是優(yōu)化的么，為什么shuffle write 會增加了呢？

最后編輯于：2019.03.28 16:38:39

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成，瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明：文章內(nèi)容（如有圖片或視頻亦包括在內(nèi)）由作者上傳并發(fā)布，文章內(nèi)容僅代表作者本人觀點，簡書系信息發(fā)布平臺，僅提供信息存儲服務(wù)。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

spark的groupByKey和combineByKey算子的使用情況對比

spark的groupByKey和combineByKey算子的使用情況對比

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

spark的groupByKey和combineByKey算子的使用情況對比

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av