久久少妇激情一区二区,福利一级轮理专区,黄AV在线精品

Hive Distinct的實(shí)現(xiàn)原理

Distinct的實(shí)現(xiàn)原理

select dealid, count(distinct uid) num from order group by dealid;

當(dāng)只有一個(gè)distinct字段時(shí)，如果不考慮Map階段的Hash GroupBy，只需要將GroupBy字段和Distinct字段組合為map輸出key，利用mapreduce的排序，同時(shí)將GroupBy字段作為reduce的key，在reduce階段保存LastKey即可完成去重

Distinct? mapreduce過程

說明：? 因?yàn)槭荄istinct所以圖的下半部分? ?從三行變成了兩行，這里只列出不一樣的行標(biāo)記為1（value只是標(biāo)記），方便后續(xù)統(tǒng)計(jì)，map排序后將相同key排在一起，此時(shí)相同的又只計(jì)數(shù)為一個(gè)，所以最終是? 1001? 不同的個(gè)數(shù)是2，? 1002不同的也是2

如果有多個(gè)distinct字段呢，如下面的SQL

select dealid, count(distinct uid), count(distinct date) from order group by dealid;

實(shí)現(xiàn)方式有兩種：

（1）如果仍然按照上面一個(gè)distinct字段的方法，即下圖這種實(shí)現(xiàn)方式，無法跟據(jù)uid和date分別排序，也就無法通過LastKey去重，仍然需要在reduce階段在內(nèi)存中通過Hash去重

（2）第二種實(shí)現(xiàn)方式，可以對所有的distinct字段編號，每行數(shù)據(jù)生成n行數(shù)據(jù)，那么相同字段就會分別排序，這時(shí)只需要在reduce階段記錄LastKey即可去重。這種實(shí)現(xiàn)方式很好的利用了MapReduce的排序，節(jié)省了reduce階段去重的內(nèi)存消耗，但是缺點(diǎn)是增加了shuffle的數(shù)據(jù)量。需要注意的是，在生成reduce value時(shí)，除第一個(gè)distinct字段所在行需要保留value值，其余distinct數(shù)據(jù)行value字段均可為空。

出處

最后編輯于：2020.03.11 22:07:46

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成，瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明：文章內(nèi)容（如有圖片或視頻亦包括在內(nèi)）由作者上傳并發(fā)布，文章內(nèi)容僅代表作者本人觀點(diǎn)，簡書系信息發(fā)布平臺，僅提供信息存儲服務(wù)。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

Hive Distinct的實(shí)現(xiàn)原理

Hive Distinct的實(shí)現(xiàn)原理

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

Hive Distinct的實(shí)現(xiàn)原理

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av