在HIVE中,除了COUNT(*)外,COUNT還可以有很多高級用法。
SELECT
type ,
count(*),
count(DISTINCT u),
count(CASE WHEN plat=1 THEN u ELSE NULL END),
count(DISTINCT CASE WHEN plat=1 THEN u ELSE NULL END) ,
count(CASE WHEN (type=2 OR type=6) THEN u ELSE NULL END),
count(DISTINCT CASE WHEN (type=2 OR type=6) THEN u ELSE NULL END)
FROM
t
WHERE
dt in ("2012-1-12-02", "2012-1-12-03")
GROUP BY
type
ORDER BY
type
可以看到,count可以根據(jù)條件表達(dá)式進(jìn)行過濾,但下面的用法是不對的,親測不對:
count("plat=1")
這樣的效果其實是和count(*)的效果是一樣的,達(dá)不到過濾的效果。
還有一種情況是我們這樣寫
count(CASE WHEN plat=1 THEN u ELSE 0 END)
看上去完美無缺,但其實統(tǒng)計結(jié)果與count(*)仍然是一致的,因為count統(tǒng)計的是非NULL的數(shù)量,0也是非NULL的當(dāng)然會被統(tǒng)計到,所以應(yīng)該是NULL,或者使用sum
sum(CASE WHEN plat=1 THEN u ELSE 0 END)