《十小時(shí)入門大數(shù)據(jù)》學(xué)習(xí)筆記之初識(shí)Hadoop

筆記內(nèi)容概括

    1. Hadoop概述
      1.1 Hadoop名字的由來
      1.2 Hadoop介紹
      1.3 Hadoop能做什么
    1. Hadoop核心組件
      2.1 HDFS(分布式文件系統(tǒng))
      2.2 YARN(資源調(diào)度系統(tǒng))
      2.3 MapReduce(分布式計(jì)算框架)
    1. Hadoop優(yōu)勢(shì)
    1. Hadoop發(fā)展史
    1. Hadoop 生態(tài)系統(tǒng)
      5.1 狹義Hadoop VS 廣義Hadoop
      5.2 Hadoop生態(tài)系統(tǒng)的特點(diǎn)
    1. Hadoop發(fā)行版本的選擇

1、Hadoop概述

1.1 Hadoop名字的由來

  • Hadoop項(xiàng)目作者的孩子給一個(gè)棕黃色的大象樣子的填充玩具的命名
    圖片.png
    Hadoop的官網(wǎng):http://hadoop.apache.org ,一定要學(xué)會(huì)看官網(wǎng)、養(yǎng)成看官網(wǎng)的習(xí)慣。
1.2 Hadoop介紹

Hadoop是Apache的一個(gè)頂級(jí)項(xiàng)目、是開源的、分布式存儲(chǔ)+分布式計(jì)算平臺(tái);它由以下幾個(gè)模塊構(gòu)成:
Hadoop Common: 這是支持hadoop其他模塊的通用工具模塊
Hadoop Distributed File System(HDFS):分布式文件系統(tǒng)
Hadoop YARN: 統(tǒng)一資源管理和任務(wù)調(diào)度
Hadoop MapReduce:基于yarn系統(tǒng)的分布式計(jì)算框架
下圖是官網(wǎng)的描述:

圖片.png

1.3 Hadoop能做什么

搭建大型數(shù)據(jù)倉庫,PB級(jí)數(shù)據(jù)的存儲(chǔ)、處理、分析、統(tǒng)計(jì)等業(yè)務(wù),如:智能商業(yè)、日志分析、搜索引擎、數(shù)據(jù)挖掘等場(chǎng)景。

2、Hadoop核心組件

/2.1 HDFS(分布式文件系統(tǒng))

  • 源自于Google的GFS論文,論文發(fā)表于2003年10月
  • HDFS是GFS的克隆版
  • HDFS特點(diǎn):擴(kuò)展性&容錯(cuò)性&海量數(shù)據(jù)存儲(chǔ)
  • 將文件切分成指定大小的數(shù)據(jù)塊并以多副本的存儲(chǔ)在多個(gè)機(jī)器上
  • 數(shù)據(jù)切分、多副本、容錯(cuò)等操作對(duì)用戶是透明的
    圖片.png
2.2 YARN(資源調(diào)度系統(tǒng))
  • YARN: Yet Another Resource Negotiator
  • 負(fù)責(zé)整個(gè)集群資源的管理和調(diào)度
  • YARN特點(diǎn):擴(kuò)展性&容錯(cuò)性&多框架資源統(tǒng)一調(diào)度
    圖片.png
2.3 MapReduce(分布式計(jì)算框架)
  • 源自于Google的MapReduce論文。論文發(fā)表于2004年12月
  • MapReduce是Google MapReduce的克隆版
  • MapReduce特點(diǎn): 擴(kuò)展性&容錯(cuò)性&海量數(shù)據(jù)離線處理
    圖片.png

3、Hadoop優(yōu)勢(shì)

(1)、高可靠性

  • 數(shù)據(jù)存儲(chǔ):數(shù)據(jù)塊多副本
  • 數(shù)據(jù)計(jì)算: 重新調(diào)度作業(yè)計(jì)算
    (2)、高擴(kuò)展性
  • 存儲(chǔ)/計(jì)算資源不夠時(shí),可以橫向的線性擴(kuò)展機(jī)器
  • 一個(gè)集群中可以包含數(shù)以千計(jì)的節(jié)點(diǎn)
    (3)、其他
  • 存儲(chǔ)在廉價(jià)機(jī)器上,降低成本
  • 成熟的生態(tài)圈

4、Hadoop的發(fā)展史

這篇博文有很詳細(xì)的介紹:十年了,Hadoop的前世今生博文鏈接

5、Hadoop生態(tài)系統(tǒng)

5.1 狹義Hadoop VS 廣義Hadoop
  • 狹義Hadoop:
    指的是一個(gè)適合大數(shù)據(jù)分布式存儲(chǔ)(HDFS)、分布式計(jì)算(MapReduce)和資源調(diào)度(YARN)平臺(tái),即傳統(tǒng)意義上的Hadoop。
  • 廣義Hadoop:指的是整個(gè)Hadoop生態(tài)系統(tǒng),Hadoop生態(tài)系統(tǒng)是一個(gè)很龐大的概念,Hadoop是其中最重要最基礎(chǔ)的一部分;生態(tài)系統(tǒng)中的每一個(gè)子系統(tǒng)只能解決某一特定的問題域(甚至可能很窄),不搞統(tǒng)一型的一個(gè)全能系統(tǒng),而是小而精的多個(gè)小系統(tǒng)。
    圖片.png
5.2 Hadoop生態(tài)系統(tǒng)的特點(diǎn)
  • 開源、社區(qū)活躍
  • 囊括了大數(shù)據(jù)處理的方方面面
  • 成熟的生態(tài)圈

6、 Hadoop常用發(fā)行版本和和選型

  • Apcahe Hadoop:存在jar包沖突的問題,一般只用于學(xué)習(xí);
  • CDH(Cloudera Distributed Hadoop):商業(yè)版,不存在jar沖突問題,配置簡單、文檔詳細(xì),具有容易升級(jí)的優(yōu)點(diǎn),生產(chǎn)環(huán)境中大多選擇該版本,缺點(diǎn)是代碼不開源,下載地址
  • HDP(Hortonworks Data Platform):存在安裝升級(jí)和刪除節(jié)點(diǎn)困難的問題,一般也應(yīng)用于商業(yè)場(chǎng)景。

《十小時(shí)入門大數(shù)據(jù)》之系列學(xué)習(xí)筆記

《十小時(shí)入門大數(shù)據(jù)》學(xué)習(xí)筆記之大數(shù)據(jù)概述

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容