一、背景知識(shí) Kafka定義 傳統(tǒng)定義:Kafka 是一個(gè)分布式的基于發(fā)布/訂閱模式的消息隊(duì)列,主要應(yīng)用于大數(shù)據(jù)實(shí)時(shí)處理領(lǐng)域。 最新定義:Kafka 是一個(gè)開源的分布式事件流...
一、背景知識(shí) Kafka定義 傳統(tǒng)定義:Kafka 是一個(gè)分布式的基于發(fā)布/訂閱模式的消息隊(duì)列,主要應(yīng)用于大數(shù)據(jù)實(shí)時(shí)處理領(lǐng)域。 最新定義:Kafka 是一個(gè)開源的分布式事件流...
spark-shuffle Shuffle就是對(duì)數(shù)據(jù)進(jìn)行重組,由于分布式計(jì)算的特性和要求,在實(shí)現(xiàn)細(xì)節(jié)上更加繁瑣和復(fù)雜在MapReduce框架,Shuffle是連接Map和Re...
@[toc] 一、分片介紹 分片是 Elasticsearch 在集群中分發(fā)數(shù)據(jù)的關(guān)鍵。 把分片想象成數(shù)據(jù)的容器。文檔存儲(chǔ)在分片中,然后分片分配到集群中的節(jié)點(diǎn)上。當(dāng)集群擴(kuò)容或...
【福利】探求ETL本質(zhì)http://mp.weixin.qq.com/s?__biz=MjM5MTYwMjI3Mw==&mid=2652093433&idx=1&sn=bd5...
1. Why? 通過 maven-shade-plugin 生成一個(gè) uber-jar,它包含所有的依賴 jar 包。 2. Goals GoalDescriptionsha...
【摘要】 Kafka時(shí)間輪是Kafka實(shí)現(xiàn)高效的延時(shí)任務(wù)的基礎(chǔ),它模擬了現(xiàn)實(shí)生活中的鐘表對(duì)時(shí)間的表示方式,同時(shí),時(shí)間輪的方式并不僅限于Kafka,它是一種通用的時(shí)間表示方式,...
前言:掌握Hbase的重要性不言而喻,掌握Hbase的設(shè)計(jì)原理更是重中之重。本文是對(duì)HBase原理進(jìn)行講解系列文章的開篇,本文盡量詳細(xì)的從整體上介紹HBase的架構(gòu),并對(duì)每個(gè)...