Facebook Spark 60TB Spark應用場景總結

可用性調(diào)優(yōu)

SPARK-13793

之前的PipedRDD實現(xiàn)容錯性較差,只要發(fā)生fetch錯誤時,整個job就會失敗,該PR改進了PipedRDD從而可以更優(yōu)雅地處理fetch錯誤,使得job可以從失敗中恢復;

SPARK-13369

可配置最大fetch失敗次數(shù),對于長時間運行的服務,由于機器重啟導致fetch失敗的次數(shù)可能會顯著增加,這里增加了一個可配置fetch失敗的最大次數(shù)(4-20)從而使得任務更加魯邦。

SPARK-13279

反應遲鈍的driver,當添加一個task時driver會操作(O^2)次導致反應遲鈍,導致job阻塞或者被Killed。當提交200k個tasks時,executor不能再注冊由于driver被阻塞住,通過jstask觀察鎖在TaskSchedulerImpl.submitTasks上。

SPARK-13850

TimSort存在存在一處bug導致處理內(nèi)存操作時導致curruption;

調(diào)節(jié)shuffle service使得可以處理更大量的連接

通過設置spark.shuffle.io.serverThreadsspark.shuffle.io.backLog來處理在shuffle階段executor的timeout情況;

SPARK-13958

發(fā)現(xiàn)host處理4個reduce任務時會發(fā)生OOM,發(fā)現(xiàn)了一處ShuffleExternal溢出內(nèi)存時的bug;

性能提升

性能監(jiān)控工具

  1. SparkUI
  2. jstack
  3. libperfagent for Java symbol生成火焰圖

參考:

最后編輯于
?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容