1 分組聚合的原因
SQL中分組函數(shù)和聚合函數(shù)之前的文章已經(jīng)介紹過,單說這兩個(gè)函數(shù)有可能比較好理解,分組函數(shù)就是group by,聚合函數(shù)就是COUNT、MAX、MIN、AVG、SUM。

拿上圖中的數(shù)據(jù)進(jìn)行解釋,假設(shè)按照product_type這個(gè)字段進(jìn)行分組,分組之后結(jié)果如下圖。
SELECT product_type from product
group by product_type

從圖中可以看出被分為了三組,分別為廚房用具、衣服和辦公用品,就相當(dāng)于對(duì)product_type這個(gè)字段進(jìn)行了去重,確實(shí)group by函數(shù)有去重的作用。
SELECT DISTINCT product_type from product
假設(shè)分組之后,我想看一下價(jià)格,也就是sale_price這個(gè)字段的值,按照如下這個(gè)寫法,會(huì)報(bào)如下錯(cuò)誤。
SELECT product_type,sale_price from product
group by product_type

這是為什么呢?原表按照product_type分組之后,廚房用具對(duì)應(yīng)4個(gè)值,衣服對(duì)應(yīng)2個(gè)值,辦公用品對(duì)應(yīng)2個(gè)值,這就是在取sale_price這個(gè)字段的時(shí)候?yàn)槭裁磮?bào)錯(cuò)了,一個(gè)空格中不能填入多個(gè)值,這時(shí)候就可以用聚合函數(shù)了,比如求和,求平均,求最大最小值,求行數(shù)。聚合之后的值就只有一個(gè)值了。

SELECT product_type,sum(sale_price),avg(sale_price),count(sale_price),max(sale_price) from product
group by product_type

對(duì)于多個(gè)字段的分組,其原理是一樣的。從上述中記住兩點(diǎn):分組去重和分組聚合。
2 distinct和group by去重的區(qū)別
- Distinct 和group by 設(shè)計(jì)時(shí)側(cè)重點(diǎn)不一樣
distinct只是為了去重,而group by是為了聚合統(tǒng)計(jì)的。
- 兩者都有去重的效果,但是執(zhí)行的效率不一樣
單個(gè)字段去重
--DISTINCT
SELECT distinct product_type from product
--GROUP BY
select product_type from product
GROUP BY product_type

多個(gè)字段去重
--DISTINCT
SELECT distinct product_name, product_type from product
--GROUP BY
select product_name, product_type from product
GROUP BY product_name, product_type

執(zhí)行效率
select <列名1>,<列名2>
from<表名>
where 查詢條件
group by 分組類別
having 對(duì)分組結(jié)果指定條件
order by <列名> (desc)
limit 數(shù)字

SQL語言的運(yùn)行順序,先執(zhí)行上圖中的第一步,然后再執(zhí)行select子句,最后對(duì)結(jié)果進(jìn)行篩選。distinct是在select子句中,而group by在第一步中,所以group by去重比distinct去重在效率上要高。
文章持續(xù)更新,可以微信搜索「 大數(shù)據(jù)分析師知識(shí)分享」第一時(shí)間閱讀,回復(fù)【666】獲取大數(shù)據(jù)相關(guān)資料。