注:本文涉及書(shū)中5.1~5.7小結(jié) MapReduce編程流程 step1. 首先寫(xiě)map函數(shù)和reduce函數(shù),并使用單元測(cè)試來(lái)確保函數(shù)的運(yùn)行...
注:本文涉及書(shū)中4.5小結(jié) 基于文件的數(shù)據(jù)結(jié)構(gòu) 有兩種文件格式: 1. SequenceFile 2. MapFile · SequenceFi...
注:本文涉及書(shū)中4.4小結(jié) 數(shù)據(jù)序列化系統(tǒng)Avro Apache Avro是一個(gè)獨(dú)立于編程語(yǔ)言的數(shù)據(jù)序列化系統(tǒng),旨在解決Hadoop中Writa...
注:本文涉及書(shū)中4.3小結(jié) 序列化與反序列化 1. 定義 序列化(serialization):將結(jié)構(gòu)化對(duì)象轉(zhuǎn)化為字節(jié)流。 反序列化(deser...
注:本文涉及書(shū)中4.2小結(jié) 文件壓縮 好處:減少存儲(chǔ)文件的磁盤(pán)空間,加速網(wǎng)絡(luò)和磁盤(pán)的數(shù)據(jù)傳輸。 所有的壓縮方法都要權(quán)衡空間/時(shí)間,也就是說(shuō),壓縮...
注:本文涉及書(shū)中4.1小結(jié) 數(shù)據(jù)完整性 1. HDFS的完整性檢測(cè) 檢測(cè)數(shù)據(jù)損壞的方法:計(jì)算校驗(yàn)和。 以下情況HDFS會(huì)檢測(cè)數(shù)據(jù)的完整性: (1...
注:本文涉及書(shū)中3.9小結(jié) Hadoop存檔 1. 綜述 Hadoop存檔文件或HAR文件,是一個(gè)高效的文件存檔工具,它將文件存入HDFS塊,在...
注:本文涉及書(shū)中3.7~3.8小結(jié) 使用現(xiàn)成的工具將數(shù)據(jù)導(dǎo)入HDFS中 可以使用現(xiàn)成的工具,如Flume和Sqoop,而非寫(xiě)程序來(lái)將數(shù)據(jù)導(dǎo)入HD...
注:本文涉及書(shū)中3.6小結(jié) 數(shù)據(jù)流 1. 文件讀取 結(jié)合上圖,客戶(hù)端通過(guò)調(diào)用FileSystem對(duì)象的open()方法來(lái)打開(kāi)希望讀取的文件 st...