Hadoop權(quán)威指南-ch1概要

0. 寫在最前

某乎的高票答案,《Hadoop權(quán)威指南》是Hadoop入門的必備書籍,目前該書的最新版為第四版,但只有英文版,還沒有中譯版,為了加快閱讀速度,我選擇了第三版的中譯版進(jìn)行學(xué)習(xí)。

1. 基本概念

Hadoop提供了一個(gè)可靠的共享存儲(chǔ)和分析系統(tǒng)。

HDFSMapReduce是它的核心,其中,HDFS(Hadoop Distributed FileSystem)是Hadoop的文件系統(tǒng),實(shí)現(xiàn)了數(shù)據(jù)的存儲(chǔ);MapReduce由map和reduce兩部分組成,實(shí)現(xiàn)數(shù)據(jù)的分析和處理。

MapReduce是一個(gè)批量查詢處理器,能夠在合理的時(shí)間范圍內(nèi)處理針對(duì)整個(gè)數(shù)據(jù)集的動(dòng)態(tài)查詢。

2. Hadoop VS 關(guān)系型數(shù)據(jù)庫RDBMS


關(guān)系型數(shù)據(jù)庫RDBMS適合結(jié)構(gòu)化的數(shù)據(jù)(structured data),如XML或滿足特定預(yù)定義格式的數(shù)據(jù)庫表;Hadoop適合半結(jié)構(gòu)化(semi-structured data),如電子表格,或非結(jié)構(gòu)化的數(shù)據(jù)(unstructured data),如純文本或圖像。

關(guān)系型數(shù)據(jù)庫往往是規(guī)范的(normalized),以保證數(shù)據(jù)的完整性和非冗余,而規(guī)范給MapReduce帶來了問題,因?yàn)樗褂涗涀x取成為非本地操作,而MapReduce的核心假設(shè)之一就是可以進(jìn)行高速的流讀寫操作。

3. MapReduce的特點(diǎn)

數(shù)據(jù)本地化(data locality)特性是MapReduce的核心特征。

MapReduce采用無共享(shared-nothing)框架,能夠?qū)崿F(xiàn)失敗檢測(cè),也就是說,各個(gè)任務(wù)之間是彼此獨(dú)立的,程序員不必?fù)?dān)心系統(tǒng)部分失效的問題,因?yàn)镸apReduce能夠檢測(cè)到并重新執(zhí)行那些失敗的map或reduce任務(wù)。

4. Hadoop大記事



5. Hadoop相關(guān)項(xiàng)目

注:以下僅列出我看到過的,其他的項(xiàng)目沒有列出。

MapReduce:分布式數(shù)據(jù)處理模型和執(zhí)行環(huán)境,運(yùn)行于大型商用機(jī)集群。

HDFS:分布式文件系統(tǒng),運(yùn)行于大型商用機(jī)集群。

Pig:數(shù)據(jù)流語言和運(yùn)行環(huán)境,用以探究非常龐大的數(shù)據(jù)集。Pig運(yùn)行在MapReduce和HDFS集群上。

Hive:一種分布式的、按列存儲(chǔ)的數(shù)據(jù)倉(cāng)庫。Hive管理HDFS中存儲(chǔ)的數(shù)據(jù),并提供基于SQL的查詢語言(由運(yùn)行時(shí)引擎翻譯成MapReduce作業(yè))用以查詢數(shù)據(jù)。

HBase:一種分布式的、按列存儲(chǔ)的數(shù)據(jù)庫。HBase使用HDFS作為低層存儲(chǔ),同時(shí)支持MapReduce的批量式計(jì)算和點(diǎn)查詢(隨機(jī)讀?。?。

Zookeeper:一種分布式的、可用性高的協(xié)調(diào)服務(wù)。Zookeeper提供分布式鎖之類的基本服務(wù)用于構(gòu)建分布式應(yīng)用。

6. Hadoop的版本


2.x系統(tǒng)與1.x系列相比,有一定的改變。現(xiàn)在應(yīng)該已經(jīng)都用2.x系列了,目前打算在我自己的電腦上搭建Hadoop2的偽分布式集群。

注:本書中的代碼及命名方式,詳情看書1.6節(jié)的說明吧,不再贅述

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容