Spark高級面試問題join丟失節(jié)點、parquet大小

千萬數(shù)據(jù)的join或者reduce過程中總是有任務(wù)節(jié)點丟失的情況?

田毅:這個是經(jīng)常出現(xiàn)的問題,最常見原因還是GC導(dǎo)致的長時間卡住,導(dǎo)致心跳超時。可以參考intel他們最近在summit上分享的GC調(diào)優(yōu)方面的實踐。GC問題在1.4版本中已經(jīng)得到改善,比如大量數(shù)據(jù)查重。

Spark生成parquet格式一般建議每個parquet多大?

田毅:這個我的建議是別弄太大,數(shù)據(jù)(壓縮前)最好別超過128M,這個數(shù)不是絕對的,要看你的列數(shù)和壓縮比。

閻志濤:我們的都在幾百兆,parquet主要還是看你讀取出多少列來。如果讀出的列很多,性能就不一定好了。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 預(yù)覽 Spark SQL是Spark用于結(jié)構(gòu)化數(shù)據(jù)處理的模塊。不同于基本的RDD API,Spark SQL AP...
    sakersun閱讀 1,396評論 0 2
  • spark-submit的時候如何引入外部jar包 在通過spark-submit提交任務(wù)時,可以通過添加配置參數(shù)...
    博弈史密斯閱讀 3,024評論 1 14
  • Spark學(xué)習(xí)筆記 Data Source->Kafka->Spark Streaming->Parquet->S...
    哎喲喂嘍閱讀 6,844評論 0 51
  • Spark SQL的簡介 1. 簡介 Spark SQL是用于處理結(jié)構(gòu)化數(shù)據(jù)的模塊。與Spark RDD不同的是,...
    一生逍遙一生閱讀 2,756評論 0 1
  • 個人心智的成長在人生的每個階段都是很重要的。我不是說雞湯。是在這個百變的時代唯有自我成長才不會被淘汰,而有些東西是...

友情鏈接更多精彩內(nèi)容