重要tip
- 項目git地址
- hadoop搭建部分,使用了kiwenlau的hadoop dockefile。
- 注意,hadoop的分布式是基于多機器的,而本github是通過docker來模擬實現(xiàn)的(單機多節(jié)點)。其主要目的,是讓大家通過看dockerfile和相關(guān)shell了解基本的配置和搭建過程。說直白點,本dockerfile就是我認為的搭建流程的最簡版。
hadoop,hbase,hive,hue的定位和關(guān)系
- Hadoop實現(xiàn)了一個分布式文件系統(tǒng)(Hadoop Distributed File System),簡稱HDFS。
- hbase是運行于HDFS文件系統(tǒng)之上的nosql。
- hive是基于Hadoop的一個數(shù)據(jù)倉庫工具,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表,并提供簡單的sql查詢功能,可以將sql語句轉(zhuǎn)換為MapReduce任務進行運行。hive映射的表既可以落在hdfs上,也可以落在hbase上。
- hue是支持多種數(shù)據(jù)庫或數(shù)據(jù)倉庫(包括hive)的web界面。
hadoop部署方式
- 單機多節(jié)點。(本git的實現(xiàn)結(jié)果)
- 多機多節(jié)點。
- 鑒于網(wǎng)絡特性,對于一類集群,單個機器至多只能存在該類集群的一個節(jié)點。
- 因為存在多類集群,那么,單機上可以存在每一類集群的一個節(jié)點,即單機上可以存在多個不同類集群的節(jié)點。
- 這種可以結(jié)合docker進行實現(xiàn),但這里docker的network得為host類型的模式。
- 真正的分布式,指的是這一種。
搭建步驟。(基本和下面的參考教程的順序一致,大家可以參考教程其中的細節(jié))
- hadoop
- hbase
- hive
- hive與hbase和hdfs的整合
- hue
- hue與hive的整合
主要參考教程(該部分是我搭建時,參考的教程,基本都是簡易版本。)
- hadoop分布式簡易安裝教程
https://blog.csdn.net/Evankaka/article/details/51612437 - 寫的比較好的,hbase分布式教程。
http://www.ityouknow.com/hbase/2017/07/25/hbase-cluster-setup.html - hive安裝
https://blog.csdn.net/u013310025/article/details/70306421 - hive和hbase整合
https://blog.csdn.net/qq_33689414/article/details/80328665 - hue安裝
https://github.com/cloudera/hue/tree/master/tools/docker/hue - hue與其他存儲引擎的整合
https://blog.csdn.net/maomaosi2009/article/details/45648829
相關(guān)鏡像
- 基于docker實現(xiàn)的單機多節(jié)點的github工程。
https://github.com/kiwenlau/hadoop-cluster-docker - hadoop鏡像。(該鏡像僅供參考)
https://github.com/sequenceiq/hadoop-docker - hue鏡像
https://github.com/cloudera/hue/tree/master/tools/docker/hue