[flow]Flume+SparkStreaming+Kafka已經(jīng)發(fā)展為一個(gè)比較成熟的實(shí)時(shí)日志收集與計(jì)算架構(gòu)

SparkSQL結(jié)合SparkStreaming,使用SQL完成實(shí)時(shí)計(jì)算中的數(shù)據(jù)統(tǒng)計(jì) – lxw的大數(shù)據(jù)田地
http://lxw1234.com/archives/2015/11/552.htm
關(guān)鍵字:SparkSQL、Spark Streaming、SQL、實(shí)時(shí)計(jì)算

Flume+Kafka+SparkStreaming已經(jīng)發(fā)展為一個(gè)比較成熟的實(shí)時(shí)日志收集與計(jì)算架構(gòu),利用Kafka,即可以支持將用于離線分析的數(shù)據(jù)流到HDFS,又可以同時(shí)支撐多個(gè)消費(fèi)者實(shí)時(shí)消費(fèi)數(shù)據(jù),包括SparkStreaming。然而,在SparkStreaming程序中如果有復(fù)雜業(yè)務(wù)邏輯的統(tǒng)計(jì),使用scala代碼實(shí)現(xiàn)起來(lái)比較困難,也不易于別人理解。但如果在SparkSteaming中也使用SQL來(lái)做統(tǒng)計(jì)分析,是不是就簡(jiǎn)單的多呢?

本文介紹將SparkSQL與SparkStreaming結(jié)合起來(lái),使用SQL完成實(shí)時(shí)的日志數(shù)據(jù)統(tǒng)計(jì)。
SparkStreaming程序以yarn-cluster模式運(yùn)行在YARN上,不單獨(dú)部署Spark集群。

//實(shí)時(shí)統(tǒng)計(jì)需求
以60秒為間隔,統(tǒng)計(jì)60秒內(nèi)的pv,ip數(shù),uv
最終結(jié)果包括:
時(shí)間點(diǎn):pv:ips:uv

原始日志格式


Paste_Image.png

每條日志包含7個(gè)字段,分隔符為|~|,其中,第3列為ip,第7列為cookieid。假設(shè)原始日志已經(jīng)由Flume流到Kafka中。


Spark Streaming+Flume對(duì)接實(shí)驗(yàn) – lxw的大數(shù)據(jù)田地
http://lxw1234.com/archives/2015/05/217.htm


最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容