Hadoop權(quán)威指南第三版-中文-ch3 (6)Hadoop存檔

注:本文涉及書中3.9小結(jié)

Hadoop存檔

1. 綜述

Hadoop存檔文件或HAR文件,是一個高效的文件存檔工具,它將文件存入HDFS塊,在減少namenode內(nèi)存使用的同時,允許對文件進行透明地訪問。具體來說,Hadoop存檔文件可以用作MapReduce的輸入。


個人理解:為什么需要Hadoop存檔文件?

Hadoop存檔文件的出現(xiàn),可以解決HDFS的小文件處理問題。

某博客對Hadoop存檔的詳細解釋:https://blog.csdn.net/helloxiaozhe/article/details/79159799


2. 創(chuàng)建工具

Hadoop存檔是通過archive工具根據(jù)一組文件創(chuàng)建而來的,Hadoop存檔文件可以用作MapReduce的輸入。

3. 缺點

(1)新建一個存檔文件會創(chuàng)建原始文件的一個副本,因此至少需要與要存檔的文件容量相同大小的磁盤空間。

(2)存檔文件在創(chuàng)建后不能進行修改。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容