flume要點知識

flume是一款可以從不同的數(shù)據(jù)源把數(shù)據(jù)集中存到HDFS或者Hbase中,flume通過agent來完成接受收集數(shù)據(jù),agent是一個獨立的守護(hù)進(jìn)程,從客戶端處接受數(shù)據(jù),傳給下一個節(jié)點的agent,agent的內(nèi)部有三個組件Source、channel、sink。

1.source:一個flume源,對一個外部數(shù)據(jù)源負(fù)責(zé),將外部源上的事件以可以識別的格式發(fā)送到flume中,將事件傳送給channel

2.channel:是一個短暫的存儲容器,把source發(fā)送過來的event緩存起來,等到sink來消費掉,可以連接到任意數(shù)量的source和sink,channel是一個完整的事物,保證數(shù)據(jù)在接受和存儲的時候達(dá)到一致性目的;可以通過參數(shù)設(shè)置event的數(shù)量;flume的channel有FileChannel和MemoryChannel,一般情況下使用前者,以保證數(shù)據(jù)不會丟失(wal:預(yù)寫功能)

3.sink:從channel中消費數(shù)據(jù),把數(shù)據(jù)存儲到HDFS或者Hbase上,或者到下一個agent;sink取出event之后,channel中的event也被移除了

;sink必須對應(yīng)一個確切的channel;

flume的數(shù)據(jù)流

flume可以對數(shù)據(jù)進(jìn)行過濾,這個功能被稱為Interceptor,這個功能被設(shè)置在source,一個source可以設(shè)置多個intercept,按照順序處理,目前攔截形式有:timestamp、host、static等等

flume的可靠性:

1.處理過程中,如果因為各種原因,在某一步被迫結(jié)束了,這個數(shù)據(jù)會在下一次開啟重新傳輸

2.channel會存儲數(shù)據(jù),以供再次可以傳輸

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 博客原文 翻譯作品,水平有限,如有錯誤,煩請留言指正。原文請見 官網(wǎng)英文文檔 引言 概述 Apache Flume...
    rabbitGYK閱讀 11,701評論 13 34
  • 閱讀目錄(Content) 一、Flume簡介 二、Flume特點 三、Flume的一些核心概念 3.1、Agen...
    達(dá)微閱讀 4,876評論 0 9
  • 一、Flume簡介 flume 作為 cloudera 開發(fā)的實時日志收集系統(tǒng),受到了業(yè)界的認(rèn)可與廣泛應(yīng)用。Flu...
    superxcp閱讀 1,064評論 0 2
  • 介紹 概述 Apache Flume是為有效收集聚合和移動大量來自不同源到中心數(shù)據(jù)存儲而設(shè)計的可分布,可靠的,可用...
    ximengchj閱讀 3,665評論 0 13
  • title: Flume構(gòu)建日志采集系統(tǒng)date: 2018-02-03 19:45tags: [flume,k...
    溯水心生閱讀 16,275評論 3 25

友情鏈接更多精彩內(nèi)容