Hadoop執(zhí)行多個reduce

在Hadoop中默認(rèn)運(yùn)行一個reduce,所有reduce任務(wù)會放到一個單一的reduce中去執(zhí)行。

比較好的配置reduce數(shù)量是根據(jù)集群中所有的reduce任務(wù)槽的數(shù)目,一般認(rèn)為集群節(jié)點中運(yùn)行reduce任務(wù)節(jié)點及機(jī)器數(shù)目的2倍,因為每個節(jié)點上默認(rèn)使用2個任務(wù)槽。

reduce任務(wù)的具體數(shù)量是由

Mapred.Reduce.Tasks屬性設(shè)置。

在本地環(huán)境中進(jìn)行任務(wù)處理的時候,即構(gòu)建本地測試環(huán)境時,必須有0個或者1個reduce。

使用多個reduce任務(wù)進(jìn)行處理的時候,必須使用集群才行,需要將文件打成jar包。

job.setNumReduceTasks(3); ? ? ? ? ? ?//設(shè)置同時3個reduce

分區(qū)后的reduce,默認(rèn)只是依次使用3個reduce。

job.setNumReduceTasks(1); ? ? ? ? ? ?//設(shè)置1個reduce

job.setPartitionerClass(HashPartitioner.class); ? ? ? ? ? ?//設(shè)置分片方法

partitioner類就是為了確定Map處理后的文件需要使用哪個Reduce進(jìn)行處理,默認(rèn)使用HashPartitioner,對其所對應(yīng)的鍵進(jìn)行哈希操作,用來決定該記錄使用哪個分區(qū)進(jìn)行處理。

eg.自定義HashPartitioner類

class MyPartitioner extends?Partitioner{

? ? @Override

? ? public int getPartition(Object key, Object value, int numPartitioners){

????????if(values.toString().startsWith("GoodWord"))

? ? ? ? ? ? return 1;

? ? ? ? if(values.toString().startsWith("hello"))

? ? ? ? ? ? return 2;

? ? ? ? else return 0;

????}

}

對輸入的值進(jìn)行處理,根據(jù)輸入的不同,返回不同的分類。

以“GoodWord”開頭的全部用reduce1處理,

以“hello”開頭的全部用reduce2處理,

else全部用reduce0處理。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容