千萬數(shù)據(jù)的join或者reduce過程中總是有任務(wù)節(jié)點丟失的情況?
田毅:這個是經(jīng)常出現(xiàn)的問題,最常見原因還是GC導(dǎo)致的長時間卡住,導(dǎo)致心跳超時。可以參考intel他們最近在summit上分享的GC調(diào)優(yōu)方面的實踐。GC問題在1.4版本中已經(jīng)得到改善,比如大量數(shù)據(jù)查重。
Spark生成parquet格式一般建議每個parquet多大?
田毅:這個我的建議是別弄太大,數(shù)據(jù)(壓縮前)最好別超過128M,這個數(shù)不是絕對的,要看你的列數(shù)和壓縮比。
閻志濤:我們的都在幾百兆,parquet主要還是看你讀取出多少列來。如果讀出的列很多,性能就不一定好了。