在Hadoop中默認(rèn)運(yùn)行一個reduce,所有reduce任務(wù)會放到一個單一的reduce中去執(zhí)行。
比較好的配置reduce數(shù)量是根據(jù)集群中所有的reduce任務(wù)槽的數(shù)目,一般認(rèn)為集群節(jié)點中運(yùn)行reduce任務(wù)節(jié)點及機(jī)器數(shù)目的2倍,因為每個節(jié)點上默認(rèn)使用2個任務(wù)槽。
reduce任務(wù)的具體數(shù)量是由
Mapred.Reduce.Tasks屬性設(shè)置。
在本地環(huán)境中進(jìn)行任務(wù)處理的時候,即構(gòu)建本地測試環(huán)境時,必須有0個或者1個reduce。
使用多個reduce任務(wù)進(jìn)行處理的時候,必須使用集群才行,需要將文件打成jar包。
job.setNumReduceTasks(3); ? ? ? ? ? ?//設(shè)置同時3個reduce
分區(qū)后的reduce,默認(rèn)只是依次使用3個reduce。
job.setNumReduceTasks(1); ? ? ? ? ? ?//設(shè)置1個reduce
job.setPartitionerClass(HashPartitioner.class); ? ? ? ? ? ?//設(shè)置分片方法
partitioner類就是為了確定Map處理后的文件需要使用哪個Reduce進(jìn)行處理,默認(rèn)使用HashPartitioner,對其所對應(yīng)的鍵進(jìn)行哈希操作,用來決定該記錄使用哪個分區(qū)進(jìn)行處理。
eg.自定義HashPartitioner類
class MyPartitioner extends?Partitioner{
? ? @Override
? ? public int getPartition(Object key, Object value, int numPartitioners){
????????if(values.toString().startsWith("GoodWord"))
? ? ? ? ? ? return 1;
? ? ? ? if(values.toString().startsWith("hello"))
? ? ? ? ? ? return 2;
? ? ? ? else return 0;
????}
}
對輸入的值進(jìn)行處理,根據(jù)輸入的不同,返回不同的分類。
以“GoodWord”開頭的全部用reduce1處理,
以“hello”開頭的全部用reduce2處理,
else全部用reduce0處理。