可用性調(diào)優(yōu)
SPARK-13793
之前的PipedRDD實現(xiàn)容錯性較差,只要發(fā)生fetch錯誤時,整個job就會失敗,該PR改進了PipedRDD從而可以更優(yōu)雅地處理fetch錯誤,使得job可以從失敗中恢復;
SPARK-13369
可配置最大fetch失敗次數(shù),對于長時間運行的服務,由于機器重啟導致fetch失敗的次數(shù)可能會顯著增加,這里增加了一個可配置fetch失敗的最大次數(shù)(4-20)從而使得任務更加魯邦。
SPARK-13279
反應遲鈍的driver,當添加一個task時driver會操作(O^2)次導致反應遲鈍,導致job阻塞或者被Killed。當提交200k個tasks時,executor不能再注冊由于driver被阻塞住,通過jstask觀察鎖在
TaskSchedulerImpl.submitTasks上。
SPARK-13850
TimSort存在存在一處bug導致處理內(nèi)存操作時導致curruption;
調(diào)節(jié)shuffle service使得可以處理更大量的連接
通過設置
spark.shuffle.io.serverThreads和spark.shuffle.io.backLog來處理在shuffle階段executor的timeout情況;
SPARK-13958
發(fā)現(xiàn)host處理4個reduce任務時會發(fā)生OOM,發(fā)現(xiàn)了一處ShuffleExternal溢出內(nèi)存時的bug;
性能提升
性能監(jiān)控工具
- SparkUI
- jstack
- libperfagent for Java symbol生成火焰圖
參考: