Map階段2個步驟
第一步:設(shè)置inputFormat類,將我們的數(shù)據(jù)切分成key,value對,輸入到第二步
第二步:自定義map邏輯,處理我們第一步的輸入數(shù)據(jù),然后轉(zhuǎn)換成新的key,value對進行輸出
shuffle階段4個步驟
第三步:對輸出的key,value對進行分區(qū)
第四步:對不同分區(qū)的數(shù)據(jù)按照相同的key進行排序
第五步:對分組后的數(shù)據(jù)進行規(guī)約(combine操作),降低數(shù)據(jù)的網(wǎng)絡(luò)拷貝
第六步:對排序后的額數(shù)據(jù)進行分組,分組的過程中,將相同key的value放到一個集合當(dāng)中
reduce階段2個步驟
第七步:對多個map的任務(wù)進行合并,排序,編寫自己的reduce函數(shù)邏輯,對輸入的key,value對進行處理,轉(zhuǎn)換成新的key,value對進行輸出
第八步:設(shè)置outputformat將輸出的key,value對數(shù)據(jù)進行保存到文件中