Hadoop - HDFS概述

Hadoop - HDFS概述

Hadoop文件系統(tǒng)是使用分布式文件系統(tǒng)設(shè)計(jì)開發(fā)的。它運(yùn)行在商品硬件上。與其他分布式系統(tǒng)不同,HDFS具有高度的容錯(cuò)能力,并采用低成本硬件設(shè)計(jì)。

HDFS擁有非常大量的數(shù)據(jù),并提供更容易的訪問。要存儲這么大的數(shù)據(jù),這些文件存儲在多臺機(jī)器上。這些文件以冗余的方式存儲,以在發(fā)生故障的情況下挽救系統(tǒng)免受可能的數(shù)據(jù)丟失。HDFS還使應(yīng)用程序可以并行處理。

原文鏈接:http://blogxinxiucan.sh1.newtouch.com/2017/07/17/Hadoop-HDFS概述/

HDFS的特點(diǎn)

  • 適用于分布式存儲和處理。
  • Hadoop提供了與HDFS交互的命令界面。
  • namenode和datanode的內(nèi)置服務(wù)器可以幫助用戶輕松檢查集群的狀態(tài)。
  • 流式訪問文件系統(tǒng)數(shù)據(jù)。
  • HDFS提供文件權(quán)限和身份驗(yàn)證。

HDFS架構(gòu)

以下是Hadoop文件系統(tǒng)的體系結(jié)構(gòu)。

HDFS架構(gòu)


HDFS遵循主 - 從架構(gòu),它具有以下元素。

Namenode
namenode是包含GNU / Linux操作系統(tǒng)和namenode軟件的商品硬件。它是可以在商品硬件上運(yùn)行的軟件。具有namenode的系統(tǒng)充當(dāng)主服務(wù)器,它執(zhí)行以下任務(wù):

  • 管理文件系統(tǒng)命名空間。
  • 規(guī)范客戶對文件的訪問。
  • 它還執(zhí)行文件系統(tǒng)操作,如重命名,關(guān)閉和打開文件和目錄。

Datanode
數(shù)據(jù)庫是具有GNU / Linux操作系統(tǒng)和數(shù)據(jù)庫軟件的商品硬件。對于集群中的每個(gè)節(jié)點(diǎn)(商品硬件/系統(tǒng)),將有一個(gè)數(shù)據(jù)庫。這些節(jié)點(diǎn)管理其系統(tǒng)的數(shù)據(jù)存儲。

  • Datanodes根據(jù)客戶端請求對文件系統(tǒng)執(zhí)行讀寫操作。
  • 他們還根據(jù)namenode的說明執(zhí)行塊創(chuàng)建,刪除和復(fù)制等操作。

Block
通常,用戶數(shù)據(jù)存儲在HDFS的文件中。文件系統(tǒng)中的文件將被分成一個(gè)或多個(gè)片段和/或存儲在各個(gè)數(shù)據(jù)節(jié)點(diǎn)中。這些文件段被稱為塊。換句話說,HDFS可以讀取或?qū)懭氲淖钚?shù)據(jù)量稱為塊。默認(rèn)塊大小為64MB,但可根據(jù)需要在HDFS配置中更改。

HDFS目標(biāo)

  • 故障檢測和恢復(fù):由于HDFS包含大量商品硬件,組件故障頻繁。因此,HDFS應(yīng)具有快速自動(dòng)故障檢測和恢復(fù)的機(jī)制。
  • 巨大的數(shù)據(jù)集:HDFS應(yīng)該每個(gè)群集有數(shù)百個(gè)節(jié)點(diǎn)來管理具有巨大數(shù)據(jù)集的應(yīng)用程序。
  • 數(shù)據(jù)硬件:當(dāng)數(shù)據(jù)附近進(jìn)行計(jì)算時(shí),可以有效地完成所請求的任務(wù)。特別是在涉及巨大的數(shù)據(jù)集的情況下,它可以減少網(wǎng)絡(luò)流量并提高吞吐量。
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 首先,我們在使用前先看看HDFS是什麼?這將有助于我們是以后的運(yùn)維使用和故障排除思路的獲得。 HDFS采用mast...
    W_Bousquet閱讀 4,459評論 0 2
  • 先思考問題 我們處在一個(gè)大數(shù)據(jù)的時(shí)代已經(jīng)是不爭的事實(shí),這主要表現(xiàn)在數(shù)據(jù)源多且大,如互聯(lián)網(wǎng)數(shù)據(jù),人們也認(rèn)識到數(shù)據(jù)里往...
    墻角兒的花閱讀 7,663評論 0 9
  • HDFS的設(shè)計(jì)目標(biāo) 通過上一篇文章的介紹我們已經(jīng)了解到HDFS到底是怎樣的東西,以及它是怎樣通過多副本機(jī)制來提供高...
    陌上疏影涼閱讀 1,535評論 0 3
  • 我只能用思想 想象著你上班匆匆關(guān)上的房門 在路上顛簸好遠(yuǎn)的路程 伏案工作,然后忘記吃飯 我好想決絕地踏上尋你的征途...
    王不煩閱讀 173評論 0 0
  • 申請頭條號有一段時(shí)間了,指數(shù)波動(dòng)挺大,但就沒能上到650,不過遇到一個(gè)小驚喜,終于能夠開通自營廣告了。 但是在申請...
    yulele閱讀 664評論 0 1

友情鏈接更多精彩內(nèi)容