1. 控制reduce端緩沖大小以避免OOM 在Shuffle過程,reduce端task并不是等到map端task將其數(shù)據(jù)全部寫入磁盤后再去拉...
Spark中的數(shù)據(jù)傾斜問題主要指shuffle過程中出現(xiàn)的數(shù)據(jù)傾斜問題,是由于不同的key對(duì)應(yīng)的數(shù)據(jù)量不同導(dǎo)致的不同task所處理的數(shù)據(jù)量不同的...
常規(guī)性能調(diào)優(yōu) 1. 最優(yōu)資源配置 Spark性能調(diào)優(yōu)的第一步,就是為任務(wù)分配更多的資源,在一定范圍內(nèi),增加資源的分配與性能的提升是成正比的,實(shí)現(xiàn)...
Fetch抓取 Fetch抓取是指,Hive中對(duì)某些情況的查詢可以不必使用MapReduce計(jì)算。例如:SELECT * FROM employ...
1. Eureka的自我保護(hù) 默認(rèn)情況下,如果EurekaServer在一定時(shí)間內(nèi)(默認(rèn)90秒)沒有接收到某個(gè)微服務(wù)實(shí)例的心跳,Eureka S...
HBase數(shù)據(jù)模型 邏輯上,HBase的數(shù)據(jù)模型同關(guān)系型數(shù)據(jù)庫很類似,數(shù)據(jù)存儲(chǔ)在一張表中,有行有列。但從HBase的底層物理存儲(chǔ)結(jié)構(gòu)(K-V)來...
HDFS架構(gòu) NameNode: 就是Master,它就是一個(gè)主管,管理者(1)管理hdfs的名稱空間(2)配置副本策略(3)管理數(shù)據(jù)塊(Blo...
Kafka是一個(gè)分布式,基于發(fā)布/訂閱模式的消息隊(duì)列,主要應(yīng)用于大數(shù)據(jù)實(shí)時(shí)處理領(lǐng)域。 基礎(chǔ)架構(gòu) 為了方便擴(kuò)展,并提高吞吐量,一個(gè)topic分為多...
RocketMQ是一個(gè)開源的分布式消息中間件。 集群架構(gòu)與角色 Producer先去NameServer請(qǐng)求,NameServer分配一個(gè)Bro...