??why hadoop2.X?IBM上有篇論文講的夠詳細(xì)了:文章鏈接。??最直觀的改進(jìn)就是是2.X多了Yarn資源管理器優(yōu)化資源分配,以及新增有HA模式防止單點(diǎn)故障,搭建時(shí)...
??why hadoop2.X?IBM上有篇論文講的夠詳細(xì)了:文章鏈接。??最直觀的改進(jìn)就是是2.X多了Yarn資源管理器優(yōu)化資源分配,以及新增有HA模式防止單點(diǎn)故障,搭建時(shí)...
Clickhouse的特點(diǎn) 一,列式存儲(chǔ) IdNameAge1張三182李四223王五34 采用行式存儲(chǔ)時(shí),數(shù)據(jù)在磁盤上的組織結(jié)構(gòu)為: 1張三182李四223王五34 行式存...
Clickhouse表引擎 表引擎是Clickhouse的一大特色,表引擎決定了如何存儲(chǔ)數(shù)據(jù),包括: 數(shù)據(jù)的存儲(chǔ)方式和位置,寫到哪里以及從哪里讀取數(shù)據(jù) 支持哪些查詢以及如何支...
一、Maxwell maxwell是有美國(guó)zendesk開源,用Java編寫的Mysql實(shí)時(shí)抓取軟件;其抓取的原理也是基于binlog 二、Maxwell與Canal的對(duì)比 ...
實(shí)時(shí)數(shù)倉(cāng)中架構(gòu)如下圖: 實(shí)時(shí)架構(gòu)主要數(shù)據(jù)來(lái)源有3塊 日志文件(或設(shè)備上的心跳數(shù)據(jù)),由Flume或者Springboot程序直接寫到kafka中 接口API,使用程序調(diào)用接口...
1、精確一次消費(fèi) 1.1 定義 精確一次消費(fèi)(Exact once):指消息一定會(huì)被處理且只會(huì)被處理一次;不多不少就一次處理。 如果達(dá)不到精確一次消費(fèi),可能會(huì)達(dá)到另外兩種情況...
離線實(shí)踐 主要業(yè)務(wù):用戶分析和敏捷BI數(shù)據(jù)導(dǎo)入:由外部事務(wù)保證的T+1離線數(shù)據(jù) 離線實(shí)踐思路: 將數(shù)據(jù)根據(jù)業(yè)務(wù)邏輯使用Spark在Hive或HDFS將數(shù)據(jù)生成好,在HDFS上...
一、配置azkaban-web-server配置文件 1. 記得指定executor.port,不然當(dāng)executor重啟時(shí),會(huì)重新分配一個(gè)port,這樣會(huì)導(dǎo)致之前的再跑任務(wù)...
一、Checkpoints的算法原理 Checkpoints是flink自動(dòng)存儲(chǔ)快照 1. Barrier(checkpoint分割線) 二、Savepoints(保存點(diǎn)) ...
時(shí)間語(yǔ)義 Event Time:事件創(chuàng)建的時(shí)間 Ingestion Time: 數(shù)據(jù)進(jìn)入Flink的時(shí)間 Processing Time: 執(zhí)行操作算子的本地系統(tǒng)時(shí)間,與機(jī)器...