問題背景 筆者所在的部門屬于公司的大數(shù)據(jù)架構(gòu)部,現(xiàn)主要參與公司流式計(jì)算平臺的推廣,個(gè)人負(fù)責(zé)spark的平臺維護(hù)、特性定制、線上問題修改等。為了方...
投稿
問題背景 筆者所在的部門屬于公司的大數(shù)據(jù)架構(gòu)部,現(xiàn)主要參與公司流式計(jì)算平臺的推廣,個(gè)人負(fù)責(zé)spark的平臺維護(hù)、特性定制、線上問題修改等。為了方...
1 問題描述 最近工作中有使用到spark sql的DataFrameWriter.insertInto函數(shù)往Hive表插入數(shù)據(jù)。在一次測試中,...
什么是小文件? 生產(chǎn)上,我們往往將Spark SQL作為Hive的替代方案,來獲得SQL on Hadoop更出色的性能。因此,本文所講的是指存...
一個(gè)Executor對應(yīng)一個(gè)JVM進(jìn)程。 從Spark的角度看,Executor占用的內(nèi)存分為兩部分:ExecutorMemory和Memory...
有時(shí)候會發(fā)現(xiàn)即使是讀取少量的數(shù)據(jù),啟動延時(shí)可能也非常大,針對該現(xiàn)象進(jìn)行分析,并提供一些解決思路。 背景 Spark 一次查詢過程可以簡單抽象為 ...
背景 接觸SparkSQL不久,查找了些別人的資料,感覺對整個(gè)Spark HiveThriftServer2流程講的糊里糊涂的,覺得需要從Bee...
昨天有位大哥問小弟一個(gè)Spark問題,他們想在不停Spark程序的情況下動態(tài)更新UDF的邏輯,他一問我這個(gè)問題的時(shí)候,本豬心里一驚,Spark*...
IQL (項(xiàng)目地址:https://github.com/teeyog/IQL) English | 簡體中文 基于SparkSQL實(shí)現(xiàn)了一套即...
1. 文章開始之前 先附上一句SQL,使用tpc-ds的表結(jié)構(gòu),我們圍繞這句SQL講。 SQL: SQL> selectavg(cs_ext_d...
Spark原本預(yù)計(jì)在2.3版本實(shí)現(xiàn)聚合下推,雖然不知道是何原因最終沒有能夠在2.3版本最終實(shí)現(xiàn),但是因?yàn)楣ぷ餍枰?,必須要從聚合函?shù)下手優(yōu)化Spa...