時間語義 Event Time:事件創(chuàng)建的時間 Ingestion Time: 數(shù)據(jù)進入Flink的時間 Processing Time: 執(zhí)行操作算子的本地系統(tǒng)時間,與機器...
一、配置azkaban-web-server配置文件 1. 記得指定executor.port,不然當executor重啟時,會重新分配一個port,這樣會導致之前的再跑任務...
一、Checkpoints的算法原理 Checkpoints是flink自動存儲快照 1. Barrier(checkpoint分割線) 二、Savepoints(保存點) ...
離線實踐 主要業(yè)務:用戶分析和敏捷BI數(shù)據(jù)導入:由外部事務保證的T+1離線數(shù)據(jù) 離線實踐思路: 將數(shù)據(jù)根據(jù)業(yè)務邏輯使用Spark在Hive或HDFS將數(shù)據(jù)生成好,在HDFS上...
1、精確一次消費 1.1 定義 精確一次消費(Exact once):指消息一定會被處理且只會被處理一次;不多不少就一次處理。 如果達不到精確一次消費,可能會達到另外兩種情況...
實時數(shù)倉中架構如下圖: 實時架構主要數(shù)據(jù)來源有3塊 日志文件(或設備上的心跳數(shù)據(jù)),由Flume或者Springboot程序直接寫到kafka中 接口API,使用程序調用接口...
一、Maxwell maxwell是有美國zendesk開源,用Java編寫的Mysql實時抓取軟件;其抓取的原理也是基于binlog 二、Maxwell與Canal的對比 ...
Clickhouse的特點 一,列式存儲 IdNameAge1張三182李四223王五34 采用行式存儲時,數(shù)據(jù)在磁盤上的組織結構為: 1張三182李四223王五34 行式存...
Clickhouse表引擎 表引擎是Clickhouse的一大特色,表引擎決定了如何存儲數(shù)據(jù),包括: 數(shù)據(jù)的存儲方式和位置,寫到哪里以及從哪里讀取數(shù)據(jù) 支持哪些查詢以及如何支...
??why hadoop2.X?IBM上有篇論文講的夠詳細了:文章鏈接。??最直觀的改進就是是2.X多了Yarn資源管理器優(yōu)化資源分配,以及新增有HA模式防止單點故障,搭建時...