? ? ? Hadoop是一個(gè)由Apache基金會(huì)所開(kāi)發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu),實(shí)現(xiàn)了一個(gè)分布式文件系統(tǒng)。
? ? ? 其憑借著低成本、高可靠、高擴(kuò)展、高有效、高容錯(cuò)等特性成為最流行的大數(shù)據(jù)分析系統(tǒng)。要入門大數(shù)據(jù),最好的辦法就是理清Hadoop的生態(tài)系統(tǒng)
入門大數(shù)據(jù),重點(diǎn)知識(shí)清單:
hadoop項(xiàng)目主要包括以下四個(gè)模塊:

1.? hadoop Common 為其它hadoop模塊提供基礎(chǔ)設(shè)施
2.? hadoop HDFS 一個(gè)可靠、高吞吐量的分布式文件系統(tǒng)
3.? hadoop MapReduce 一個(gè)分布式的離線并行計(jì)算框架
4.? hadoop YARN 任務(wù)調(diào)度與資源管理
hadoop生態(tài)系統(tǒng):

Hadoop:分布式存儲(chǔ)、分布式計(jì)算、資源調(diào)度與任務(wù)管理
HDFS、MapReduce、yarn、common
Nutch開(kāi)源的搜索引擎
Lucene:索引檢索工具包;Solr索引服務(wù)器
HBase/Cassandra:基于谷歌的BigTable開(kāi)源的列式存儲(chǔ)的非關(guān)系型數(shù)據(jù)庫(kù)
Hive:基于SQL的分布式計(jì)算引擎,同時(shí)是一個(gè)數(shù)據(jù)倉(cāng)庫(kù)
? ? ? ? Pig:基于Pig Latin腳本的計(jì)算引擎
Thrift/Avro:RPC框架,用于網(wǎng)絡(luò)通信
BigTop:項(xiàng)目測(cè)試、打包、部署
Oozie/Azakban:大數(shù)據(jù)的工作流框架
Chukwa/Scribe/Flume:數(shù)據(jù)收集框架
Whirr:部署為云服務(wù)的類庫(kù)
Sqoop:數(shù)據(jù)遷移工具
Zookeeper:分布式協(xié)調(diào)服務(wù)框架
HAMA:圖計(jì)算框架
Mahout:機(jī)器學(xué)習(xí)框架