Spark core 一、 spark是一個(gè)分布式同通用計(jì)算框架,可用于離線(xiàn)大數(shù)據(jù)處理、實(shí)時(shí)流計(jì)算、交互式計(jì)算、圖計(jì)算等,集成了SparkSQL...
Kafka 一、Kafka是一個(gè)分布式消息隊(duì)列系統(tǒng),以集群方式存在。 優(yōu)點(diǎn):高吞吐率(每秒百萬(wàn)級(jí));基于多分區(qū)多副本實(shí)現(xiàn)高容錯(cuò),并發(fā)能力強(qiáng);易擴(kuò)...
一、基本原理 Hive是基于Hadoop的一個(gè)數(shù)據(jù)倉(cāng)庫(kù)工具,可以將結(jié)構(gòu)化數(shù)據(jù)文件映射成一張表,并提供類(lèi)似SQL的查詢(xún)功能。Hive適用于大數(shù)據(jù)離...
一、YARN:Hadoop集群中的同一資源調(diào)度系統(tǒng)。Hadoop2.0后引入,主要功能有:負(fù)責(zé)集群中資源的統(tǒng)一調(diào)度,響應(yīng)客戶(hù)端的請(qǐng)求。 優(yōu)缺點(diǎn) ...
一、HDFS:hadoop分布式文件存儲(chǔ)系統(tǒng)。 優(yōu)點(diǎn): 1. 基于多副本存儲(chǔ),實(shí)現(xiàn)高容錯(cuò) 2. 適合大數(shù)據(jù)離線(xiàn)批處理,移動(dòng)計(jì)算,不移動(dòng)數(shù)據(jù),將數(shù)...
ZK,分布式應(yīng)用間的協(xié)調(diào)調(diào)度機(jī)制,監(jiān)聽(tīng)和管理分布式服務(wù)器間的連接。 一、 zk的數(shù)據(jù)結(jié)構(gòu)——znode 每個(gè)Znode由3部分組成 :stat:...