Delta Lake 是什么?簡單的說就是為大數(shù)據(jù)場景添加了事務(wù)功能,并且支持了 update/delete/merge into 等功能, D...
投稿
Delta Lake 是什么?簡單的說就是為大數(shù)據(jù)場景添加了事務(wù)功能,并且支持了 update/delete/merge into 等功能, D...
Delta 0.5 已于上周發(fā)布,增加了不少新特性,這篇文章主要講解其 Presto Integration 和 Manifests 機(jī)制。該功...
前言 Spark YarnShuffleService是作為Hadoop Yarn模塊中NodeManager的輔助服務(wù)寄生在其進(jìn)程內(nèi)部,大家都...
數(shù)據(jù)本地性是 Spark 等計(jì)算引擎從計(jì)算性能方面去考量的一個(gè)重要指標(biāo),對于某個(gè)數(shù)據(jù)分片的運(yùn)算,Spark 在調(diào)度側(cè)會做數(shù)據(jù)本地性的預(yù)測,然后盡...
什么是 ConfigMap 顧名思義,用來存配置的Map,可以存單個(gè)配置或者配置文件,在 POD 中我們可以通過環(huán)境變量來訪問單個(gè)配置和配置文件...
漫談Spark內(nèi)存管理(一)有提到問題:“ Spark中用到內(nèi)存的地方有哪些?存儲內(nèi)存主要消耗在哪些地方?執(zhí)行內(nèi)存主要消耗在哪些地方?”。本文就...
原文 前段時(shí)間工作中踩到SPARK-21444的坑,這里做個(gè)記錄。 1 場景描述 我們的一個(gè)spark app在正常運(yùn)行幾個(gè)月后經(jīng)常出現(xiàn)driv...
場景 spark streaming接受到數(shù)據(jù)后,在spark中進(jìn)行存儲,之后將kafka確認(rèn)信息存儲到zookeeper上(kafka的偏移量...
目錄 流量控制簡介 Spark Streaming流控基本設(shè)置 Spark Streaming反壓機(jī)制的具體實(shí)現(xiàn)動(dòng)態(tài)流量控制器基于PID機(jī)制的速...
在Kafka、Storm、Flink、Spark Streaming等分布式流處理系統(tǒng)中(沒錯(cuò),Kafka本質(zhì)上是流處理系統(tǒng),不是單純的“消息隊(duì)...