
image.png
Hadoop 生態(tài)中,我們使用 Hive 將 SQL 語(yǔ)句編譯為 MapReduce 任務(wù),對(duì)海量數(shù)據(jù)進(jìn)行操作;Druid 則是一款獨(dú)立的分布式列式存儲(chǔ)系統(tǒng),通常用于執(zhí)行面向最終用戶的即席查詢和實(shí)時(shí)分析。
Druid 的高速查詢主要得益于列式存儲(chǔ)和倒排索引,其中倒排索引是和 Hive 的主要區(qū)別。數(shù)據(jù)表中的維度字段越多,查詢速度也會(huì)越快。不過(guò) Druid 也有其不適用的場(chǎng)景,如無(wú)法支持大數(shù)據(jù)量的 Join 操作,對(duì)標(biāo)準(zhǔn) SQL 的實(shí)現(xiàn)也十分有限。
Druid 和 Hive 的結(jié)合方式是這樣的:首先使用 Hive 對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,生成 OLAP Cube 存入 Druid;當(dāng)發(fā)生查詢時(shí),使用 Calcite 優(yōu)化器進(jìn)行分析,使用合適的引擎(Hive 或 Druid)執(zhí)行操作。如,Druid 擅長(zhǎng)執(zhí)行維度匯總、TopN、時(shí)間序列查詢,而 Hive 則能勝任 Join、子查詢、UDF 等操作。