Hadoop - HDFS概述
Hadoop文件系統(tǒng)是使用分布式文件系統(tǒng)設(shè)計(jì)開發(fā)的。它運(yùn)行在商品硬件上。與其他分布式系統(tǒng)不同,HDFS具有高度的容錯(cuò)能力,并采用低成本硬件設(shè)計(jì)。
HDFS擁有非常大量的數(shù)據(jù),并提供更容易的訪問。要存儲這么大的數(shù)據(jù),這些文件存儲在多臺機(jī)器上。這些文件以冗余的方式存儲,以在發(fā)生故障的情況下挽救系統(tǒng)免受可能的數(shù)據(jù)丟失。HDFS還使應(yīng)用程序可以并行處理。

原文鏈接:http://blogxinxiucan.sh1.newtouch.com/2017/07/17/Hadoop-HDFS概述/
HDFS的特點(diǎn)
- 適用于分布式存儲和處理。
- Hadoop提供了與HDFS交互的命令界面。
- namenode和datanode的內(nèi)置服務(wù)器可以幫助用戶輕松檢查集群的狀態(tài)。
- 流式訪問文件系統(tǒng)數(shù)據(jù)。
- HDFS提供文件權(quán)限和身份驗(yàn)證。
HDFS架構(gòu)
以下是Hadoop文件系統(tǒng)的體系結(jié)構(gòu)。
HDFS架構(gòu)

HDFS遵循主 - 從架構(gòu),它具有以下元素。
Namenode
namenode是包含GNU / Linux操作系統(tǒng)和namenode軟件的商品硬件。它是可以在商品硬件上運(yùn)行的軟件。具有namenode的系統(tǒng)充當(dāng)主服務(wù)器,它執(zhí)行以下任務(wù):
- 管理文件系統(tǒng)命名空間。
- 規(guī)范客戶對文件的訪問。
- 它還執(zhí)行文件系統(tǒng)操作,如重命名,關(guān)閉和打開文件和目錄。
Datanode
數(shù)據(jù)庫是具有GNU / Linux操作系統(tǒng)和數(shù)據(jù)庫軟件的商品硬件。對于集群中的每個(gè)節(jié)點(diǎn)(商品硬件/系統(tǒng)),將有一個(gè)數(shù)據(jù)庫。這些節(jié)點(diǎn)管理其系統(tǒng)的數(shù)據(jù)存儲。
- Datanodes根據(jù)客戶端請求對文件系統(tǒng)執(zhí)行讀寫操作。
- 他們還根據(jù)namenode的說明執(zhí)行塊創(chuàng)建,刪除和復(fù)制等操作。
Block
通常,用戶數(shù)據(jù)存儲在HDFS的文件中。文件系統(tǒng)中的文件將被分成一個(gè)或多個(gè)片段和/或存儲在各個(gè)數(shù)據(jù)節(jié)點(diǎn)中。這些文件段被稱為塊。換句話說,HDFS可以讀取或?qū)懭氲淖钚?shù)據(jù)量稱為塊。默認(rèn)塊大小為64MB,但可根據(jù)需要在HDFS配置中更改。
HDFS目標(biāo)
- 故障檢測和恢復(fù):由于HDFS包含大量商品硬件,組件故障頻繁。因此,HDFS應(yīng)具有快速自動(dòng)故障檢測和恢復(fù)的機(jī)制。
- 巨大的數(shù)據(jù)集:HDFS應(yīng)該每個(gè)群集有數(shù)百個(gè)節(jié)點(diǎn)來管理具有巨大數(shù)據(jù)集的應(yīng)用程序。
- 數(shù)據(jù)硬件:當(dāng)數(shù)據(jù)附近進(jìn)行計(jì)算時(shí),可以有效地完成所請求的任務(wù)。特別是在涉及巨大的數(shù)據(jù)集的情況下,它可以減少網(wǎng)絡(luò)流量并提高吞吐量。