Spark Streaming No Receivers 方式的createDirectStream 方法不使用接收器,而是創(chuàng)建輸入流直接從Kafka 集群節(jié)點(diǎn)拉取消息。輸入...
Spark Streaming No Receivers 方式的createDirectStream 方法不使用接收器,而是創(chuàng)建輸入流直接從Kafka 集群節(jié)點(diǎn)拉取消息。輸入...
本文分享主要是ClickHouse的數(shù)據(jù)導(dǎo)入方式,本文主要介紹如何使用Flink、Spark、Kafka、MySQL、Hive將數(shù)據(jù)導(dǎo)入ClickHouse,具體內(nèi)容包括: ...
元數(shù)據(jù)管理是數(shù)據(jù)倉庫的核心,它不僅定義了數(shù)據(jù)倉庫有什么,還指明了數(shù)據(jù)倉庫中數(shù)據(jù)的內(nèi)容和位置,刻畫了數(shù)據(jù)的提取和轉(zhuǎn)換規(guī)則,存儲(chǔ)了與數(shù)據(jù)倉庫主題有關(guān)的各種商業(yè)信息。本文主要介紹H...
Flink最大的亮點(diǎn)是實(shí)時(shí)處理部分,F(xiàn)link認(rèn)為批處理是流處理的特殊情況,可以通過一套引擎處理批量和流式數(shù)據(jù),而Flink在未來也會(huì)重點(diǎn)投入更多的資源到批流融合中。我在Fl...
Apache Spark最初在2009年誕生于美國加州大學(xué)伯克利分校的APM實(shí)驗(yàn)室,并于2010年開源,如今是Apache軟件基金會(huì)下的頂級開源項(xiàng)目之一。Spark的目標(biāo)是設(shè)...
在《第一篇|Spark概覽》一文中,對Spark的整體面貌進(jìn)行了闡述。本文將深入探究Spark的核心組件--Spark core,Spark Core是Spark平臺的基礎(chǔ)通...
在《第二篇|Spark Core編程指南》一文中,對Spark的核心模塊進(jìn)行了講解。本文將討論Spark的另外一個(gè)重要模塊--Spark SQL,Spark SQL是在Sha...
窗口是流式計(jì)算中非常常用的算子之一,通過窗口可以將無限流切分成有限流,然后在每個(gè)窗口之上使用計(jì)算函數(shù),可以實(shí)現(xiàn)非常靈活的操作。Flink提供了豐富的窗口操作,除此之外,用戶還...