HDFS集中式緩存管理

Hadoop從2.3.0版本開(kāi)始支持HDFS緩存機(jī)制,HDFS允許用戶將一部分目錄或文 件緩存在HDFS當(dāng)中,NameNode會(huì)通知擁有對(duì)應(yīng)塊的DataNodes將其緩存在
DataNode的內(nèi)存當(dāng)中。

優(yōu)勢(shì)

  • 防止那些被頻繁使用的數(shù)據(jù)從內(nèi)存中清除
  • 因?yàn)镈ataNode的緩存由NameNode來(lái)管理,applications在做任務(wù)安排時(shí)可以查詢這個(gè)緩 存的列表,使用一個(gè)被緩存的塊副本能夠提高讀性能
  • 當(dāng)塊被DataNode緩存之后,客戶端可以使用一個(gè)新的、高效的、zero-copy的讀API,因 為緩存中的數(shù)據(jù)已經(jīng)被計(jì)算過(guò)checksum,當(dāng)使用新API時(shí),客戶端基本上是零開(kāi)銷的
  • 可以提高集群的內(nèi)存利用率。當(dāng)使用操作系統(tǒng)的緩存時(shí),對(duì)一個(gè)塊的重復(fù)讀會(huì)導(dǎo)致所有 的副本都會(huì)被放到緩沖區(qū)當(dāng)中,當(dāng)使用集中式緩存時(shí),用戶可以指定n個(gè)副本中的m個(gè) 才會(huì)被緩存,可以節(jié)約n-m的內(nèi)存

使用場(chǎng)景

  • 集中式緩存對(duì)那些頻繁訪問(wèn)的的文件是非常有用的,例如hive中經(jīng)常被使用的fact表就 非常適合緩存
  • 另一方面,緩存一年的查詢結(jié)果可能沒(méi)那么有用了,因?yàn)檫@個(gè)結(jié)果可能只會(huì)被查看一次
    有助于提高混合類型作業(yè)的SLA性能,把高優(yōu)先級(jí)的數(shù)據(jù)緩存起來(lái)可以確保它不會(huì)與低 優(yōu)先級(jí)的數(shù)據(jù)競(jìng)爭(zhēng)磁盤IO

命令行

image.png
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 首先,我們?cè)谑褂们跋瓤纯碒DFS是什麼?這將有助于我們是以后的運(yùn)維使用和故障排除思路的獲得。 HDFS采用mast...
    W_Bousquet閱讀 4,459評(píng)論 0 2
  • hadoop HDFS原理解析01 HDFS架構(gòu)?NameNode?DataNode?Sencondary Nam...
    白菜青蘿卜閱讀 2,852評(píng)論 2 30
  • hdfs是什么? 問(wèn)題: 1. hdfs是基于什么樣的原理將文件分塊存儲(chǔ)到分布式環(huán)境中的各個(gè)設(shè)備上的? 2. h...
    4762d2980c91閱讀 4,859評(píng)論 0 6
  • 本次參加的21天理財(cái)小白課是23期16班4組,這次課程即將結(jié)束了,翻看自己的筆記本,記的滿滿的知識(shí)點(diǎn),真是感慨萬(wàn)千...
    王麗燕199閱讀 3,265評(píng)論 8 11
  • 我一直以為,自己會(huì)不錯(cuò),畢竟在大學(xué)里也算混得還不錯(cuò)。為什么要說(shuō)混,這肯定是有原因的。原來(lái)的我總以為自己在高中歲月里...
    sanchuan閱讀 418評(píng)論 0 0

友情鏈接更多精彩內(nèi)容