1. 背景 隨著公司業(yè)務(wù)的高速發(fā)展,業(yè)務(wù)數(shù)據(jù)的生產(chǎn)速度變得越來越快,離線集群規(guī)??焖倥蛎洠扔袡C(jī)房內(nèi)的機(jī)位急劇消耗,在可預(yù)見的不久的將來會達(dá)到機(jī)...
概述:為解決臨時數(shù)據(jù)導(dǎo)致的集群資源爭用問題,我們采用了container日志分離方案,但在Hadoop Security機(jī)制下,該方案存在跨集群...
動機(jī) 昨天又收到有同學(xué)因數(shù)據(jù)(代碼)問題被rccd的郵件,領(lǐng)導(dǎo)也一再提醒數(shù)據(jù)的安全問題。于是審視了一下硬盤文件,以免存在無心之過… 審視過程中發(fā)...
今天有朋友問之前NodeManager被Shuffle拉掛的問題,借此機(jī)會將之前分析的另一文檔整理一下分享出來。 現(xiàn)象描述及分析 9月27日10...
剛完成SparkR的支持,順手記錄下流程… 1 編譯SparkR 1.1 生成SparkR的lib包 1.2 編譯Spark 1.3 local...
1 問題描述 當(dāng)使用Spark-sql執(zhí)行 Hive UDF時會發(fā)生NullPointerException(NPE),從而導(dǎo)致作業(yè)異常終止。...
1 現(xiàn)象描述及初步分析 近期公司yarn集群中存在NodeManager因OOM 而掛掉的情況, 且發(fā)生OOM前存在大量的Spark Shuf...
1 動機(jī) 不同用戶的應(yīng)用程序使用的python版本及需要的python依賴可能存在不同,若每次缺少依賴都請op去update所有節(jié)點(diǎn),對于大集群...
本文1、2、3節(jié)介紹了Spark 內(nèi)存相關(guān)之識,第4節(jié)描述了常見錯誤類型及產(chǎn)生原因并給出了解決方案。 1 堆內(nèi)和堆外內(nèi)存規(guī)劃 Executor ...