這一章節(jié)繼續(xù)深入講解數(shù)據(jù)處理模式,介紹魯棒的去數(shù)據(jù)亂序數(shù)據(jù)的核心概念,這些概念的應(yīng)用是流式系統(tǒng)超越批系統(tǒng)的關(guān)鍵所在。 路線圖 第一章中講述了兩個(gè)重要的概念 事件時(shí)間VS處理時(shí)...
這一章節(jié)繼續(xù)深入講解數(shù)據(jù)處理模式,介紹魯棒的去數(shù)據(jù)亂序數(shù)據(jù)的核心概念,這些概念的應(yīng)用是流式系統(tǒng)超越批系統(tǒng)的關(guān)鍵所在。 路線圖 第一章中講述了兩個(gè)重要的概念 事件時(shí)間VS處理時(shí)...
1. 為什么要流式計(jì)算 業(yè)務(wù)需求:業(yè)務(wù)需要更及時(shí)計(jì)算結(jié)果,而流數(shù)據(jù)處理可以獲得更低的延時(shí) 數(shù)據(jù)特點(diǎn):海量的無邊界數(shù)據(jù)在現(xiàn)代企業(yè)中越來越普遍,而流數(shù)據(jù)處理系統(tǒng)就是為此而生的 硬...
使用Runable接口和Thread類實(shí)現(xiàn)線程的異同 相同之處 在實(shí)現(xiàn)Runable接口的類和繼承Thread的類中均需要重寫run()方法 在啟動(dòng)線程時(shí)均通過調(diào)用start...
批處理的 WordCount 程序分析: https://t.zsxq.com/YJ2Zrfi 博客 1、Flink 從0到1學(xué)習(xí) —— Apache Flink 介紹 2、...
前言 最近正在將一些原本用Spark Streaming實(shí)現(xiàn)的流計(jì)算任務(wù)遷移到Flink,最簡(jiǎn)單也是最有代表性的就是實(shí)時(shí)點(diǎn)擊量(PV)統(tǒng)計(jì)。除了PV之外,我們還希望同時(shí)將內(nèi)容...
Hive基礎(chǔ) Hive簡(jiǎn)介:(1)hql相對(duì)于MR程序沒有復(fù)雜的代碼,上手簡(jiǎn)單,會(huì)寫sql的同學(xué),hql也不在話下,區(qū)別不是很大。(2)Hive作為數(shù)據(jù)倉庫使用,工作中常...
Hadoop進(jìn)階 地址:Hadoop進(jìn)階源碼地址:github 1 第一章 概述 hadoop的體系架構(gòu) 塊: DataNode: NameNode: Secondary N...
簡(jiǎn)介 通常生產(chǎn)環(huán)境我們會(huì)用集群代替單機(jī),主要是解決兩個(gè)問題: 效率 穩(wěn)定 如何提升效率?一個(gè)大大大任務(wù),讓一個(gè)人干需要一年,拆解一下讓12個(gè)人同時(shí)干,可能只需要1個(gè)月。對(duì)于數(shù)...
集群規(guī)劃 集群架構(gòu) 其中 Distribute 是指創(chuàng)建分布式表的機(jī)器,在此文章中是將 Distribute 單獨(dú)部署的,也可以將 Distribute 角色劃分到每個(gè) Re...