1 bucket-mapjoin
1.1 條件
1) set hive.optimize.bucketmapjoin = true;
2) 一個(gè)表的bucket數(shù)是另一個(gè)表bucket數(shù)的整數(shù)倍
3) bucket列 == join列
4) 必須是應(yīng)用在map join的場(chǎng)景中
1.2 注意
1)如果表不是bucket的,只是做普通join。
2 smb-join(針對(duì)bucket mapjoin 的一種優(yōu)化)
2.1 條件
1)參數(shù)設(shè)置
set hive.auto.convert.sortmerge.join=true;
set hive.optimize.bucketmapjoin = true;
set hive.optimize.bucketmapjoin.sortedmerge = true;
set hive.auto.convert.sortmerge.join.noconditionaltask=true;
2) 小表的bucket數(shù)=大表bucket數(shù)
3) Bucket 列 == Join 列 == sort 列
4) 必須是應(yīng)用在bucket mapjoin 的場(chǎng)景中
2.2 注意事項(xiàng)
hive并不檢查兩個(gè)join的表是否已經(jīng)做好bucket且sorted,需要用戶自己去保證join的表,否則可能數(shù)據(jù)不正確。有兩個(gè)辦法
1)hive.enforce.sorting 設(shè)置為 true。
2)手動(dòng)生成符合條件的數(shù)據(jù),通過(guò)在sql中用distributed c1 sort by c1 或者 cluster by c1
表創(chuàng)建時(shí)必須是CLUSTERED且SORTED,如下
create table test_smb_2(mid string,age_id string)
CLUSTERED BY(mid) SORTED BY(mid) INTO 500 BUCKETS;
3 smb-join: 即sorted merge join
smb-join基于sorted-merge的有序bucket可實(shí)現(xiàn)在map端完成join操作,可以有限地減少或避免shuffle的數(shù)據(jù)量。