hadoop生態(tài)搭建(包括hbase,hive,hue等)

重要tip

  • 項目git地址
  • hadoop搭建部分,使用了kiwenlau的hadoop dockefile。
  • 注意,hadoop的分布式是基于多機器的,而本github是通過docker來模擬實現(xiàn)的(單機多節(jié)點)。其主要目的,是讓大家通過看dockerfile和相關(guān)shell了解基本的配置和搭建過程。說直白點,本dockerfile就是我認為的搭建流程的最簡版。

hadoop,hbase,hive,hue的定位和關(guān)系

  • Hadoop實現(xiàn)了一個分布式文件系統(tǒng)(Hadoop Distributed File System),簡稱HDFS。
  • hbase是運行于HDFS文件系統(tǒng)之上的nosql。
  • hive是基于Hadoop的一個數(shù)據(jù)倉庫工具,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表,并提供簡單的sql查詢功能,可以將sql語句轉(zhuǎn)換為MapReduce任務進行運行。hive映射的表既可以落在hdfs上,也可以落在hbase上。
  • hue是支持多種數(shù)據(jù)庫或數(shù)據(jù)倉庫(包括hive)的web界面。

hadoop部署方式

  • 單機多節(jié)點。(本git的實現(xiàn)結(jié)果)
  • 多機多節(jié)點。
    • 鑒于網(wǎng)絡特性,對于一類集群,單個機器至多只能存在該類集群的一個節(jié)點。
    • 因為存在多類集群,那么,單機上可以存在每一類集群的一個節(jié)點,即單機上可以存在多個不同類集群的節(jié)點。
    • 這種可以結(jié)合docker進行實現(xiàn),但這里docker的network得為host類型的模式。
    • 真正的分布式,指的是這一種。

搭建步驟。(基本和下面的參考教程的順序一致,大家可以參考教程其中的細節(jié))

  1. hadoop
  2. hbase
  3. hive
  4. hive與hbase和hdfs的整合
  5. hue
  6. hue與hive的整合

主要參考教程(該部分是我搭建時,參考的教程,基本都是簡易版本。)

相關(guān)鏡像

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

友情鏈接更多精彩內(nèi)容