Distinct的實(shí)現(xiàn)原理
select dealid, count(distinct uid) num from order group by dealid;
當(dāng)只有一個(gè)distinct字段時(shí),如果不考慮Map階段的Hash GroupBy,只需要將GroupBy字段和Distinct字段組合為map輸出key,利用mapreduce的排序,同時(shí)將GroupBy字段作 為reduce的key,在reduce階段保存LastKey即可完成去重

說明:? 因?yàn)槭荄istinct所以圖的下半部分? ?從三行變成了兩行,這里只列出不一樣的行標(biāo)記為1(value只是標(biāo)記),方便后續(xù)統(tǒng)計(jì),map排序后將相同key排在一起,此時(shí)相同的又只計(jì)數(shù)為一個(gè),所以最終是? 1001? 不同的個(gè)數(shù)是2,? 1002不同的也是2
如果有多個(gè)distinct字段呢,如下面的SQL
select dealid, count(distinct uid), count(distinct date) from order group by dealid;
實(shí)現(xiàn)方式有兩種:
(1)如果仍然按照上面一個(gè)distinct字段的方法,即下圖這種實(shí)現(xiàn)方式,無法跟據(jù)uid和date分別排序,也就無法通過LastKey去重,仍然需要在reduce階段在內(nèi)存中通過Hash去重

(2)第二種實(shí)現(xiàn)方式,可以對所有的distinct字段編號,每行數(shù)據(jù)生成n行數(shù)據(jù),那么相同字段就會分別排序,這時(shí)只需要在reduce階段記錄LastKey即可去重。這種實(shí)現(xiàn)方式很好的利用了MapReduce的排序,節(jié)省了reduce階段去重的內(nèi)存消耗,但是缺點(diǎn)是增加了shuffle的數(shù)據(jù)量。需要注意的是,在生成reduce value時(shí),除第一個(gè)distinct字段所在行需要保留value值,其余distinct數(shù)據(jù)行value字段均可為空。
