結(jié)合 Apache Hive 和 Druid 實(shí)現(xiàn)高速 OLAP 查詢

image.png

Hadoop 生態(tài)中,我們使用 Hive 將 SQL 語(yǔ)句編譯為 MapReduce 任務(wù),對(duì)海量數(shù)據(jù)進(jìn)行操作;Druid 則是一款獨(dú)立的分布式列式存儲(chǔ)系統(tǒng),通常用于執(zhí)行面向最終用戶的即席查詢和實(shí)時(shí)分析。

Druid 的高速查詢主要得益于列式存儲(chǔ)和倒排索引,其中倒排索引是和 Hive 的主要區(qū)別。數(shù)據(jù)表中的維度字段越多,查詢速度也會(huì)越快。不過(guò) Druid 也有其不適用的場(chǎng)景,如無(wú)法支持大數(shù)據(jù)量的 Join 操作,對(duì)標(biāo)準(zhǔn) SQL 的實(shí)現(xiàn)也十分有限。

Druid 和 Hive 的結(jié)合方式是這樣的:首先使用 Hive 對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,生成 OLAP Cube 存入 Druid;當(dāng)發(fā)生查詢時(shí),使用 Calcite 優(yōu)化器進(jìn)行分析,使用合適的引擎(Hive 或 Druid)執(zhí)行操作。如,Druid 擅長(zhǎng)執(zhí)行維度匯總、TopN、時(shí)間序列查詢,而 Hive 則能勝任 Join、子查詢、UDF 等操作。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容