withColumn / withColumnRenamed 是 spark 中常用的 API,可以用于添加新字段 / 字段重命名 / 修改字...
背景 大數(shù)據(jù)平臺(tái)早期是野蠻生長(zhǎng)的,作業(yè)直接在終端提交運(yùn)行,處于一種完全無管理的自由狀態(tài)。在17年上線了內(nèi)部的大數(shù)據(jù)平臺(tái)后,用戶開始逐漸在平臺(tái)上進(jìn)...
背景 Delta Lake 進(jìn)行數(shù)據(jù)刪除或更新操作時(shí)實(shí)際上只是對(duì)被刪除數(shù)據(jù)文件做了一個(gè) remove 標(biāo)記,在進(jìn)行 vacuum 前并不會(huì)進(jìn)行物...
Delta Lake當(dāng)前版本(0.5)只支持API操作的,但是實(shí)現(xiàn) Insert SQL 語法也不難,可以參考 Delta Lake 平臺(tái)化實(shí)踐...
很久沒寫過部署文檔了,不過 Apache Ranger KMS 的手動(dòng)部署較為繁瑣,網(wǎng)上的相關(guān)資料基本都是散裝的,因此寫了一篇進(jìn)行總結(jié)。 背景 ...
Delta 0.5 已于上周發(fā)布,增加了不少新特性,這篇文章主要講解其 Presto Integration 和 Manifests 機(jī)制。該功...
Delta Lake 是什么?簡(jiǎn)單的說就是為大數(shù)據(jù)場(chǎng)景添加了事務(wù)功能,并且支持了 update/delete/merge into 等功能, D...
對(duì) spark 任務(wù)數(shù)據(jù)落地(HDFS) 碎片文件過多的問題的優(yōu)化實(shí)踐及思考。 背景 此文是關(guān)于公司在 Delta Lake 上線之前對(duì)Spar...
數(shù)據(jù)接入 背景 使用界面化和 sql 的方式將數(shù)據(jù)導(dǎo)入到 druid,提供數(shù)據(jù)給后續(xù)告警,監(jiān)控,查詢等服務(wù)使用。 方案設(shè)計(jì) 數(shù)據(jù)源1:內(nèi)部消息服...