spark 調(diào)優(yōu)實(shí)踐

1、數(shù)據(jù)傾斜
多個topic數(shù)據(jù)量不同,導(dǎo)致task執(zhí)行時間差距很大,這個時候則需要重新進(jìn)行repartition
2、小batch process執(zhí)行時間比大batch執(zhí)行時間 長
原因在于 小batch的數(shù)據(jù)量小,如果partition較多,則用于數(shù)據(jù)分發(fā)時候數(shù)據(jù)的網(wǎng)絡(luò)消耗時間比較大。
3、考慮不同topic的分流 topic內(nèi)包含各種業(yè)務(wù)數(shù)據(jù),但是當(dāng)前的streaming只需要其中某一個。則需要做一個分流器
簡單總結(jié):后續(xù)詳盡的描述一下。有問題歡迎討論

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容