MapReduce與Spark相比,有哪些異同點(diǎn)
? ? 1、基本原理上:
? ? ? ? a) MapReduce:基于磁盤的大數(shù)據(jù)批量處理系統(tǒng)。
? ? ? ? b) Spark:基于RDD(Resilient Distributed Datasets,彈性分布式數(shù)據(jù)集)數(shù)據(jù)處理,顯式的將RDD數(shù)據(jù)存儲(chǔ)到磁盤和內(nèi)存中。
? ?2、模型上:
? ? ? ? a) MapReduce:可以處理超大規(guī)模的數(shù)據(jù),適合日志分析挖掘等較少的迭代的長(zhǎng)任務(wù)需求;結(jié)合了數(shù)據(jù)的分布式的計(jì)算。
? ? ? ? b) Spark:適合數(shù)據(jù)的挖掘,機(jī)器學(xué)習(xí)等多輪迭代式計(jì)算任務(wù)。
????3、容錯(cuò)性上:
? ????? a) 數(shù)據(jù)容錯(cuò)性
? ? ? ? b) 節(jié)點(diǎn)容錯(cuò)性
? ? ? ? Spark Lineage,在數(shù)據(jù)發(fā)生丟失時(shí),可以從Lineage上重構(gòu)數(shù)據(jù)結(jié)構(gòu)。