?????? hadoop是一個開源的分布式的分析存儲平臺,hdfs是分布式文件系統(tǒng)用于存儲,mapreduce是并行處理框架用于分析,yarn是集群的資源管理器,zookeeper是分布式服務(wù)框架
? ?? ?? hdfs:其中hdfs主要由數(shù)據(jù)塊,namenode和datanode構(gòu)成,數(shù)據(jù)塊存儲三份,datanode存放了數(shù)據(jù)塊,namenode存放了文件元數(shù)據(jù)
?????? mapreduce:其中mapreduce主要由jobtracker和tasktracker構(gòu)成,jobtracker是作業(yè)調(diào)度,分配任務(wù)給tasktracker去執(zhí)行map任務(wù)和reduce任務(wù),并把結(jié)果輸出
?????? yarn:在hadoop2.0后推出yarn,其中yarn主要由于resourcemanager和nodemanager構(gòu)成,resourcemanager調(diào)度集群資源,nodemanager是節(jié)點管理用于分配容器資源
?????? zookeeper:zookeeper是hadoop中的一個子項目,解決集群中一致性問題,用于監(jiān)控和維護namenode等數(shù)據(jù)狀態(tài)的一致性問題。
?????? hive:hive是建立在hadoop上的數(shù)據(jù)倉庫,不需要開發(fā)mapreduce任務(wù),通過hql提交事務(wù),本身不存儲和計算,借用hadoop中的mapreduce和hdfs完成執(zhí)行,所以慢
????? hbase:hbase是建立在hadoop上的nosql數(shù)據(jù)庫,與hive庫相比,解決了實時性問題,需要實時訪問的數(shù)據(jù)存入hbase數(shù)據(jù)庫
????? 集群的簡單運維:

????? 如上圖所示是一個簡單的hadoop集群,在集群維護中,會遇到多種情況,以下簡單的描述下基本處理方法
》slave節(jié)點掛了
在命令窗口執(zhí)行jps,如果無進程,單個的節(jié)點掛了只需啟動datanode和nodemanager如下:
./hadoop-daemon.sh start datanode
./yarn-daemon.sh start nodemanager
》slava節(jié)點添加
1. 新增:在添加節(jié)點的時候,需要在master主機下,vi etc/hadoop/slaves配置新增節(jié)點
2. 拷貝包:選擇一個slave節(jié)點,把安裝包scp到新增slave節(jié)點主機上
3. 拷貝公鑰:選擇一個slave節(jié)點,把namenode與datanode之間通信的免登陸公鑰拷貝
4. 啟動datanode和nodemanager,并訪問http://localhost:50070頁面查看Dead Nodes和Live Nodes是否有新增的slave節(jié)點
未完待續(xù)。。。