Hadoop簡(jiǎn)介

Hadoop概述
開(kāi)源分布式計(jì)算平臺(tái),以HDFS、MapReduce為核心,為用戶(hù)提供了系統(tǒng)底層細(xì)節(jié)透明的分布式基礎(chǔ)架構(gòu).
高容錯(cuò)、高伸縮
MR允許用戶(hù)在不了解分布式系統(tǒng)底層細(xì)節(jié)的情況下開(kāi)發(fā)并行應(yīng)用程序,充分利用集群的計(jì)算和存儲(chǔ)能力,完成海量數(shù)據(jù)的處理.
NameNode,元數(shù)據(jù)的管理者
DataNode
JobTracker
TaskTracker

數(shù)據(jù)分割Partition
把map任務(wù)輸出的中間結(jié)果按key的范圍劃分成R份,劃分時(shí)通常使用hash函數(shù),這樣可以保證某一范圍內(nèi)的key一定是由一個(gè)reduce任務(wù)來(lái)處理的,可以簡(jiǎn)化reduce的過(guò)程

數(shù)據(jù)合并Combine
在數(shù)據(jù)分割之前,還可以先對(duì)中間結(jié)果進(jìn)行數(shù)據(jù)合并,即將中間結(jié)果中有相同key的<key,value>對(duì)合并成一對(duì)。Combine作為map任務(wù)的一部分,在執(zhí)行完map函數(shù)后緊接著執(zhí)行。Combine能夠減少中間結(jié)果中<key,value>對(duì)的數(shù)據(jù),從而降低網(wǎng)絡(luò)流量

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 目的這篇教程從用戶(hù)的角度出發(fā),全面地介紹了Hadoop Map/Reduce框架的各個(gè)方面。先決條件請(qǐng)先確認(rèn)Had...
    SeanC52111閱讀 1,835評(píng)論 0 1
  • Hadoop簡(jiǎn)介 *Hadoop 擅長(zhǎng)處理一次寫(xiě)入,多次讀出的數(shù)據(jù) hadoop兩大核心組件是 HDFS 和 ma...
    衛(wèi)漸行閱讀 461評(píng)論 0 0
  • 1. Hadoop簡(jiǎn)介 由于幾乎所有的書(shū)中都會(huì)提到Hadoop的發(fā)展史, 這里就不說(shuō)Hadoop的歷史時(shí)間線了. ...
    Andrew_liu閱讀 2,149評(píng)論 1 13
  • 文/蘇卿揚(yáng) 3. 深夜,寂靜如斯。 馮老七躺在床上,身上的被子掉落在床邊,身體呈大字型,毫無(wú)品相的呼呼大睡著。 突...
    蘇卿揚(yáng)閱讀 367評(píng)論 0 0
  • 第一次知道這個(gè)短語(yǔ)是因?yàn)榭戳薵aga老師的一篇談?wù)撚⒄Z(yǔ)學(xué)習(xí)法的文章。她講到這個(gè)學(xué)習(xí)法的時(shí)候舉了幾個(gè)例子:說(shuō)報(bào)名...
    黃遷遷閱讀 370評(píng)論 0 1

友情鏈接更多精彩內(nèi)容