注:本文涉及書中3.9小結(jié)
Hadoop存檔
1. 綜述
Hadoop存檔文件或HAR文件,是一個高效的文件存檔工具,它將文件存入HDFS塊,在減少namenode內(nèi)存使用的同時,允許對文件進行透明地訪問。具體來說,Hadoop存檔文件可以用作MapReduce的輸入。
個人理解:為什么需要Hadoop存檔文件?
Hadoop存檔文件的出現(xiàn),可以解決HDFS的小文件處理問題。
某博客對Hadoop存檔的詳細解釋:https://blog.csdn.net/helloxiaozhe/article/details/79159799
2. 創(chuàng)建工具
Hadoop存檔是通過archive工具根據(jù)一組文件創(chuàng)建而來的,Hadoop存檔文件可以用作MapReduce的輸入。
3. 缺點
(1)新建一個存檔文件會創(chuàng)建原始文件的一個副本,因此至少需要與要存檔的文件容量相同大小的磁盤空間。
(2)存檔文件在創(chuàng)建后不能進行修改。