Extractor Object是有unapply方法的對象。apply方法像是構(gòu)造函數(shù),可以帶參數(shù)以及創(chuàng)建對象,unapply方法根據(jù)對象嘗試...
正則表達(dá)式是用于找出數(shù)據(jù)中模式的字符串。任何字符串都可以使用.r方法轉(zhuǎn)換為正則表達(dá)式。 在上面例子中,numberPattern是一個Regex...
緩存/持久化 和RDD類似,DStream允許開發(fā)者將流數(shù)據(jù)持久化到內(nèi)存。使用在DStream上使用persist()方法會自動持久化DStre...
DStreams轉(zhuǎn)換(Transformation) 和RDD類似,轉(zhuǎn)換中允許輸入DStream中的數(shù)據(jù)被修改。DStream支持很多Spark...
本文適用于Kafka broker 0.8.2.1及更高版本。 這里會說明如何配置Spark Streaming接收Kafka的數(shù)據(jù)。有兩種方法...
鏈接 和Spark類似,Spark Streaming通過Maven Central提供。為編寫Spark Streaming程序,需要添加下面...
概述 Spark Streaming是核心Spark API的擴(kuò)展,對實(shí)時數(shù)據(jù)流地處理具有可擴(kuò)展,高吞吐量和容錯特性。數(shù)據(jù)可從很多源獲取,如Ka...
共享變量 通常,當(dāng)一個函數(shù)傳遞給在遠(yuǎn)程集群節(jié)點(diǎn)上執(zhí)行的Spark操作(如map或reduce)時,函數(shù)使用的是所有變量的獨(dú)立副本。這些變量會拷貝...
介紹 概述 Apache Flume是一個分布式的,可靠的,高可用的系統(tǒng),用于高效地從多個不同的數(shù)據(jù)源收集,匯總及遷移大量日志數(shù)據(jù)到集中的數(shù)據(jù)儲...