FLink Checkpoint 介紹 前提假設(shè) 這一篇主要整理下Lightweight Asynchronous Snapshots for Distributed Dat...
全局一致性快照機制 網(wǎng)上文章已經(jīng)很多了,這里只做以前閱讀paper的總結(jié)。 如何確定分布式系統(tǒng)中事件的先后順序 這個問題要解決的是如何決定快照是屬于哪一時間范圍的,那么在fl...
SQL優(yōu)化器詳解 無論calcite還是antrl,在sql到物理執(zhí)行計劃的過程中,過程基本一致,這里只以calcite進行介紹。 SQL計算引擎是如何實現(xiàn)的? calcit...
Logical Clock 這里首先簡單回顧下分布式系統(tǒng)以及分布式計算概念和特性。 什么是分布式系統(tǒng)? 什么是分布式計算? 如何決定分布式系統(tǒng)中事件的先后順序? 在分布式系統(tǒng)...
問題 window是解決流計算中的什么問題? 怎么劃分window?有哪幾種window?window與時間屬性之間的關(guān)系? window里面的數(shù)據(jù)何時被計算? window...
FLINK有兩種比較好的調(diào)試方式 第一種,直接通過IDEA WINDOWS調(diào)試 前提是Flink所有依賴已經(jīng)導(dǎo)入,直接在Test中打斷點,然后直接Debug。 第二種,遠(yuǎn)程調(diào)...
用sparkstreaming寫hive table如何才能保證exactly once呢?比如ds.foreahRD{ rdd => rdd append to table1,insert into table hivetable from select table1}之類的,這個如何才能保證寫入hive的沒有重復(fù)呢
Spark Streaming Crash 如何保證Exactly Once Semantics這篇文章只是為了闡述Spark Streaming 意外Crash掉后,如何保證Exactly Once Semantics。本來這個是可以直接給出答案的,但是我還是啰嗦的講...
這里主要轉(zhuǎn)載一篇李呈祥的文章,覺得講的非常不錯,容易理解,備份下用于自己學(xué)習(xí)深入理解Apache Flink核心技術(shù)
Flink on yarn的啟動流程可以參見前面的文章 Flink on Yarn啟動流程,下面主要是從源碼角度看下這個實現(xiàn),可能有的地方理解有誤,請給予指正,多謝。 -->...
Flink On Yarn 架構(gòu) 前提條件首先需要配置YARN_CONF_DIR, HADOOP_CONF_DIR ,HADOOP_CONF_PATH其中一個用來確保Flin...
實時計算的一個方向 實時計算未來會成為一個趨勢,基本上所有的離線計算任務(wù)都能通過實時計算來完成,對于實時計算來算,除了性能,延遲性和吞吐量這些硬指標(biāo)要求以外,我覺得易用性上面...
Structure Stream訪問方式 code examples 結(jié)論 basedir = /home/testhdfs支持:mv file to basedir(/ho...