Click house 初體驗(yàn)

簡(jiǎn)介

戰(zhàn)斗民族開發(fā)的 olap 數(shù)據(jù)庫(kù),適用于渠道漏斗分析、app 點(diǎn)擊行為路徑分析等業(yè)務(wù)場(chǎng)景

關(guān)鍵特性

優(yōu)點(diǎn)

# 描述 備注
多引擎支持 支持多引擎 engine,生產(chǎn)環(huán)境主要是 merge tree,有點(diǎn)類似 LSM 但是不寫內(nèi)存,直接寫磁盤,每次攝入數(shù)據(jù)都會(huì)生成一個(gè)目錄,并會(huì)生成相關(guān)的 idx、mrk、bin 文件,所以適合批量攝入,實(shí)時(shí)攝入最好能夠進(jìn)行時(shí)間與 batch 批量攝入,server 端會(huì)異步進(jìn)行數(shù)據(jù) merge,單條攝入一定要杜絕,將會(huì)對(duì)服務(wù)端造成極大壓力
向量化(SIMD) 向量化計(jì)算充分利用 cpu 資源
code gen code gen 生成優(yōu)化后的物理執(zhí)行計(jì)劃
列式存儲(chǔ) 每個(gè)列都有單獨(dú)的 mrk、bin 文件存儲(chǔ),對(duì)于壓縮友好
TTL 支持字段級(jí)和表級(jí)別的 TTL
MVCC 查詢時(shí)支持多版本,不會(huì)進(jìn)行加鎖
SQL 支持良好,分析函數(shù)豐富 提供了很多方便漏斗分析,路徑分析的函數(shù)方便進(jìn)行 olap 分析,如:sequenceMatch,groupArray等,還支持高階函數(shù),如 arrayFilter ,arrayFirstIndex 等

缺點(diǎn)

# 描述 備注
不支持事務(wù) OLAP 引擎,無(wú)可厚非
僅支持 batch 攝入 由于 merge tree 本身的設(shè)計(jì)(類似 lsm,但是無(wú) log 和 memory store,不寫內(nèi)存,直接寫入磁盤),僅對(duì) batch 寫入支持友好,單條頻繁攝入將對(duì) server 端性能造成極大影響,server 端會(huì)頻繁 merge 造成 load 升高 實(shí)時(shí)數(shù)據(jù)攝入時(shí)需要注意
不支持二級(jí)索引
寫放大 merge tree 會(huì)定期進(jìn)行 merge,導(dǎo)致寫入放大,當(dāng)前類 lsm 結(jié)構(gòu)的通病
主鍵可重復(fù) 比較詭異的地方,不一定算劣勢(shì),部分場(chǎng)景需要考慮業(yè)務(wù)層面做去重
稀疏索引不適合點(diǎn)查 稀疏索引導(dǎo)致其不適合點(diǎn)查,kv 查詢更適合使用 hbase redis 等

JDBC 客戶端

github鏈接 描述
clickhouse-jdbc 官方提供,基于 http 實(shí)現(xiàn),與 server 的 8123 端口進(jìn)行通信
ClickHouse-Native-JDBC 第三方lib,基于 tcp 實(shí)現(xiàn),與 server 的 9000 端口進(jìn)行通訊 性能相對(duì)更優(yōu),推薦使用

對(duì)比

OLAP數(shù)據(jù)庫(kù) 數(shù)據(jù)攝入 存儲(chǔ)方式 查詢性能 用戶友好程度 場(chǎng)景
Druid 支持離線 Hdfs 數(shù)據(jù)攝入和實(shí)時(shí) Kafka 數(shù)據(jù)攝入 LSM 變種,采用一層全維度的 roll up 進(jìn)行預(yù)計(jì)算,不存儲(chǔ)明細(xì) 查詢時(shí)在 broker 層面進(jìn)行更加深層的聚合計(jì)算,毫秒級(jí)到秒級(jí) 組件繁多,包含 coordinator、 overlord、broker、historical、middle manager 等多種組件和進(jìn)程,依賴 ZK 和 mysql,運(yùn)維相對(duì)復(fù)雜,維度度量修改支持在線修改,對(duì)用戶友好,需要時(shí)間字段 iot、實(shí)時(shí)監(jiān)控指標(biāo)產(chǎn)出、實(shí)時(shí)渠道聚合分析等
Kylin 支持 Hive 和 Kafka 攝入,由于使用基于 mr 和 spark 的計(jì)算引擎進(jìn)行 cube 構(gòu)建,難以達(dá)到分鐘級(jí)延遲,延遲至少在十分鐘至半小時(shí)級(jí)別 全維度預(yù)計(jì)算構(gòu)建 cube,支持一些策略的剪枝,減少無(wú)用計(jì)算量,開源版本依賴 HBase 作為 Storage 基于全量預(yù)計(jì)算產(chǎn)出、亞秒級(jí) 依賴 Hadoop 生態(tài),適合維度、度量相對(duì)穩(wěn)定的 cube 分析,一旦需要修改維度、度量需要重新配置,重新構(gòu)建,不一定需要時(shí)間字段 維度、度量明確的場(chǎng)景、偏離線 T+1 或 H+1、分析聚合維度多樣化,維度盡量不要超過(guò) 20 維,否則將產(chǎn)生維度爆炸
ClickHouse 支持離線在線數(shù)據(jù)錄入,但是由于存儲(chǔ)設(shè)計(jì)實(shí)時(shí)數(shù)據(jù)攝入千萬(wàn)不能單條頻繁攝入,一定要做 batch 匯總,秒級(jí)攝入 qps 不要超過(guò) 1 與 kylin、druid 不同,不做預(yù)計(jì)算,完全是通過(guò)索引、列式存儲(chǔ)、壓縮、向量化、code gen 等充分壓榨 cpu 等計(jì)算資源達(dá)到快速計(jì)算的目的 毫秒級(jí)至秒級(jí)不等 單一組件、sql 支持良好、分析函數(shù)豐富,易上手,需要時(shí)間字段 渠道漏斗分析、app 點(diǎn)擊路徑事件分析

參考文檔

怎么用ClickHouse做漏斗分析?

轉(zhuǎn)化漏斗的基本實(shí)現(xiàn)

ClickHouse主鍵探討[譯文+補(bǔ)充]

使用ClickHouse一鍵接管MySQL數(shù)據(jù)分析

How to realize funnel analysis by ClickHouse (with our illustrating example) ?

https://clickhouse.yandex/docs/en/single/

ClickHouse 使用

數(shù)據(jù)庫(kù)稠密索引與稀疏索引

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容