黑猴子的家:Hive 數(shù)據(jù)傾斜優(yōu)化之 Reduce 數(shù)

1、調(diào)整reduce個數(shù)方法一

(1)每個Reduce處理的數(shù)據(jù)量默認是256MB

hive.exec.reducers.bytes.per.reducer=256000000

(2)每個任務(wù)最大的reduce數(shù),默認為1009

hive.exec.reducers.max=1009

(3)計算reducer數(shù)的公式
N=min(參數(shù)2,總輸入數(shù)據(jù)量/參數(shù)1)

2、調(diào)整reduce個數(shù)方法二

在hadoop的mapred-default.xml文件中修改
設(shè)置每個job的Reduce個數(shù)

set mapreduce.job.reduces = 15;

3、reduce個數(shù)并不是越多越好

1)過多的啟動和初始化reduce也會消耗時間和資源;

2)另外,有多少個reduce,就會有多少個輸出文件,如果生成了很多個小文件,那么如果這些小文件作為下一個任務(wù)的輸入,則也會出現(xiàn)小文件過多的問題;

在設(shè)置reduce個數(shù)的時候也需要考慮這兩個原則:處理大數(shù)據(jù)量利用合適的reduce數(shù);使單個reduce任務(wù)處理數(shù)據(jù)量大小要合適;

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容