簡(jiǎn)介
戰(zhàn)斗民族開發(fā)的 olap 數(shù)據(jù)庫(kù),適用于渠道漏斗分析、app 點(diǎn)擊行為路徑分析等業(yè)務(wù)場(chǎng)景
關(guān)鍵特性
優(yōu)點(diǎn)
| # |
描述 |
備注 |
| 多引擎支持 |
支持多引擎 engine,生產(chǎn)環(huán)境主要是 merge tree,有點(diǎn)類似 LSM 但是不寫內(nèi)存,直接寫磁盤,每次攝入數(shù)據(jù)都會(huì)生成一個(gè)目錄,并會(huì)生成相關(guān)的 idx、mrk、bin 文件,所以適合批量攝入,實(shí)時(shí)攝入最好能夠進(jìn)行時(shí)間與 batch 批量攝入,server 端會(huì)異步進(jìn)行數(shù)據(jù) merge,單條攝入一定要杜絕,將會(huì)對(duì)服務(wù)端造成極大壓力 |
|
| 向量化(SIMD) |
向量化計(jì)算充分利用 cpu 資源 |
|
| code gen |
code gen 生成優(yōu)化后的物理執(zhí)行計(jì)劃 |
|
| 列式存儲(chǔ) |
每個(gè)列都有單獨(dú)的 mrk、bin 文件存儲(chǔ),對(duì)于壓縮友好 |
|
| TTL |
支持字段級(jí)和表級(jí)別的 TTL |
|
| MVCC |
查詢時(shí)支持多版本,不會(huì)進(jìn)行加鎖 |
|
| SQL 支持良好,分析函數(shù)豐富 |
提供了很多方便漏斗分析,路徑分析的函數(shù)方便進(jìn)行 olap 分析,如:sequenceMatch,groupArray等,還支持高階函數(shù),如 arrayFilter ,arrayFirstIndex 等 |
|
缺點(diǎn)
| # |
描述 |
備注 |
| 不支持事務(wù) |
OLAP 引擎,無(wú)可厚非 |
|
| 僅支持 batch 攝入 |
由于 merge tree 本身的設(shè)計(jì)(類似 lsm,但是無(wú) log 和 memory store,不寫內(nèi)存,直接寫入磁盤),僅對(duì) batch 寫入支持友好,單條頻繁攝入將對(duì) server 端性能造成極大影響,server 端會(huì)頻繁 merge 造成 load 升高 |
實(shí)時(shí)數(shù)據(jù)攝入時(shí)需要注意 |
| 不支持二級(jí)索引 |
|
|
| 寫放大 |
merge tree 會(huì)定期進(jìn)行 merge,導(dǎo)致寫入放大,當(dāng)前類 lsm 結(jié)構(gòu)的通病 |
|
| 主鍵可重復(fù) |
比較詭異的地方,不一定算劣勢(shì),部分場(chǎng)景需要考慮業(yè)務(wù)層面做去重 |
|
| 稀疏索引不適合點(diǎn)查 |
稀疏索引導(dǎo)致其不適合點(diǎn)查,kv 查詢更適合使用 hbase redis 等 |
|
JDBC 客戶端
對(duì)比
| OLAP數(shù)據(jù)庫(kù) |
數(shù)據(jù)攝入 |
存儲(chǔ)方式 |
查詢性能 |
用戶友好程度 |
場(chǎng)景 |
| Druid |
支持離線 Hdfs 數(shù)據(jù)攝入和實(shí)時(shí) Kafka 數(shù)據(jù)攝入 |
LSM 變種,采用一層全維度的 roll up 進(jìn)行預(yù)計(jì)算,不存儲(chǔ)明細(xì) |
查詢時(shí)在 broker 層面進(jìn)行更加深層的聚合計(jì)算,毫秒級(jí)到秒級(jí) |
組件繁多,包含 coordinator、 overlord、broker、historical、middle manager 等多種組件和進(jìn)程,依賴 ZK 和 mysql,運(yùn)維相對(duì)復(fù)雜,維度度量修改支持在線修改,對(duì)用戶友好,需要時(shí)間字段 |
iot、實(shí)時(shí)監(jiān)控指標(biāo)產(chǎn)出、實(shí)時(shí)渠道聚合分析等 |
| Kylin |
支持 Hive 和 Kafka 攝入,由于使用基于 mr 和 spark 的計(jì)算引擎進(jìn)行 cube 構(gòu)建,難以達(dá)到分鐘級(jí)延遲,延遲至少在十分鐘至半小時(shí)級(jí)別 |
全維度預(yù)計(jì)算構(gòu)建 cube,支持一些策略的剪枝,減少無(wú)用計(jì)算量,開源版本依賴 HBase 作為 Storage |
基于全量預(yù)計(jì)算產(chǎn)出、亞秒級(jí) |
依賴 Hadoop 生態(tài),適合維度、度量相對(duì)穩(wěn)定的 cube 分析,一旦需要修改維度、度量需要重新配置,重新構(gòu)建,不一定需要時(shí)間字段 |
維度、度量明確的場(chǎng)景、偏離線 T+1 或 H+1、分析聚合維度多樣化,維度盡量不要超過(guò) 20 維,否則將產(chǎn)生維度爆炸 |
| ClickHouse |
支持離線在線數(shù)據(jù)錄入,但是由于存儲(chǔ)設(shè)計(jì)實(shí)時(shí)數(shù)據(jù)攝入千萬(wàn)不能單條頻繁攝入,一定要做 batch 匯總,秒級(jí)攝入 qps 不要超過(guò) 1 |
與 kylin、druid 不同,不做預(yù)計(jì)算,完全是通過(guò)索引、列式存儲(chǔ)、壓縮、向量化、code gen 等充分壓榨 cpu 等計(jì)算資源達(dá)到快速計(jì)算的目的 |
毫秒級(jí)至秒級(jí)不等 |
單一組件、sql 支持良好、分析函數(shù)豐富,易上手,需要時(shí)間字段 |
渠道漏斗分析、app 點(diǎn)擊路徑事件分析 |
參考文檔
怎么用ClickHouse做漏斗分析?
轉(zhuǎn)化漏斗的基本實(shí)現(xiàn)
ClickHouse主鍵探討[譯文+補(bǔ)充]
使用ClickHouse一鍵接管MySQL數(shù)據(jù)分析
How to realize funnel analysis by ClickHouse (with our illustrating example) ?
https://clickhouse.yandex/docs/en/single/
ClickHouse 使用
數(shù)據(jù)庫(kù)稠密索引與稀疏索引
最后編輯于 :
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。