【監(jiān)控】Kafka - 詳細(xì)指標(biāo)

本文關(guān)鍵詞:Kafka、Prometheus

kafka作為流行的隊(duì)列工具其強(qiáng)大之處相信不用多說,而使用kafka時(shí)相信大多數(shù)人都會(huì)有這樣一個(gè)需求,那就是實(shí)時(shí)監(jiān)測(cè)kafka的指標(biāo),比如消費(fèi)、堆積、性能等等。
通過指令我們可以在kafka集群的主機(jī)上查看某個(gè)group相關(guān)的指標(biāo)

[root@mx-kafka-1 ~]# pwd
/root
[root@mx-kafka-1 ~]# kafka-consumer-groups.sh --bootstrap-server mx-kafka-1:9092,mx-kafka-2:9092,mx-kafka-3:9092,mx-kafka-4:9092,mx-kafka-5:9092 --group jiguang-log-group --describe

TOPIC           PARTITION  CURRENT-OFFSET  LOG-END-OFFSET  LAG             CONSUMER-ID                                 HOST            CLIENT-ID
sdk-log-data    1          14182138146     14196116659     13978513        sarama-53c5a1da-3a57-4e94-9458-ded077d103a6 /10.10.130.244  sarama
sdk-log-data    9          14181723308     14196601937     14878629        sarama-b00f3db5-cd3a-440c-bfc2-9025687e1043 /10.10.168.51   sarama
sdk-log-data    8          14182893809     14197037268     14143459        sarama-a6eadc47-5fcb-4fb0-8369-4e72109d42dc /10.10.130.244  sarama
sdk-log-data    3          14183305596     14197462703     14157107        sarama-65dd3c57-7a6e-4bee-944d-405dc17df3d9 /10.10.121.26   sarama
sdk-log-data    4          14182059026     14196893966     14834940        sarama-7ae68ed4-69e7-4380-9e6a-2a2e0dba9c9a /10.10.121.26   sarama
sdk-log-data    10         14180872923     14196189590     15316667        sarama-bb893b6c-fb97-4ca9-8c15-daa1abb008d1 /10.10.121.26   sarama
sdk-log-data    7          14182722934     14197033917     14310983        sarama-984a34d5-df0a-4202-a4f9-716664d8ef04 /10.10.130.244  sarama
sdk-log-data    0          14182510828     14197824186     15313358        sarama-0fdec84e-a572-44de-b9e5-3452a242f43f /10.10.168.51   sarama
sdk-log-data    11         14184173437     14198067999     13894562        sarama-deb5a7b0-6de4-4bd1-bd1c-3db60739f0e3 /10.10.121.26   sarama
sdk-log-data    6          14183175300     14197123342     13948042        sarama-94242065-4149-422c-b961-9718dd7c9d6b /10.10.168.51   sarama
sdk-log-data    5          14182922569     14198291576     15369007        sarama-84ebf3bf-b7de-4752-8025-3d6fb6e10215 /10.10.130.244  sarama
sdk-log-data    2          14182493952     14196799617     14305665        sarama-62121b97-3b76-48b4-a564-44d9eee794cc /10.10.168.51   sarama

在上面的指標(biāo)中,CURRENT-OFFSET 表示當(dāng)前消費(fèi)的offset,LOG-END-OFFSET 表示最新的offset,也就是生產(chǎn)者最新的offset,LAG表示堆積

在與Prometheus的合作中,網(wǎng)絡(luò)上很多的exporter其數(shù)據(jù)都來源于zookeeper,自kafka升級(jí)到版本2以后,數(shù)據(jù)不往zookeeper中寫入了,則大多exporter再也無法拿到數(shù)據(jù),這期間我經(jīng)歷了公司kafka的升級(jí),之前的好些exporter監(jiān)控方式及圖表都已廢棄這里不表。

面對(duì)版本2以后的kafka,我使用了kafka-offset-exporter來作為kafka的exporter與Prometheus配合,有博客介紹如下
Monitoring Kafka Consumer Offsets
。
在它的指標(biāo)中,
kafka_offset_newest對(duì)應(yīng)系統(tǒng)中查詢出來的LOG-END-OFFSET ,
kafka_offset_consumer對(duì)應(yīng)系統(tǒng)中查詢出來的CURRENT-OFFSET
堆積(LAG)的計(jì)算方式為kafka_offset_newest - on(topic,partition) group_right kafka_offset_consumer{group="jiguang-log-group"}
但是它同樣有一個(gè)問題。部分partition的指標(biāo)不準(zhǔn),這導(dǎo)致計(jì)算出來的部分結(jié)果與實(shí)際相去甚遠(yuǎn)。

監(jiān)控需要尋求新的方式

萬幸,kafka本身就已經(jīng)自帶了監(jiān)控,通過Yammer Metrics進(jìn)行指標(biāo)暴露與注冊(cè),可通過JMX進(jìn)行指標(biāo)收集。官網(wǎng)鏈接

這里有一些博客可做參考

如何對(duì)kafka進(jìn)行監(jiān)控
fxjwind - kafka中支持的jmx reporter
JMX與系統(tǒng)管理
利用jmx_exporter獲取kafka metrics數(shù)據(jù)
kafka各種監(jiān)控指標(biāo)
還有這個(gè)異常說明無法使用 service:jmx:rmi:///jndi/rmi://111.11.11.111:10001/jmxrmi 連接到111.11.11.111:10001
以及kafka的官網(wǎng)對(duì)每個(gè)指標(biāo)都做了說明。
Monitoring Kafka
kafka學(xué)習(xí)之監(jiān)控
jmx_exporter
Monitor Kafka with Prometheus +Grafana
Grafana Darshbord

監(jiān)控方式一 JVM:

本次測(cè)試環(huán)境:
kafka_2.11-2.1.0
jmx_prometheus_javaagent-0.3.1.jar

1、下載最新的 JMX to Prometheus Exporter到/opt/kafka目錄
https://repo1.maven.org/maven2/io/prometheus/jmx/jmx_prometheus_javaagent/0.3.1/jmx_prometheus_javaagent-0.3.1.jar
2、在/opt/kafka目錄編輯kafka-agent.yaml
配置1(面向kafka2.0以前的版本):【部分指標(biāo)匹配,且部分配置只在低版本kafka有效,例如kafka.consumer等】

hostPort: 127.0.0.1:9999
lowercaseOutputName: true
whitelistObjectNames:
- "kafka.server:type=BrokerTopicMetrics,name=MessagesInPerSec"
- "kafka.server:type=BrokerTopicMetrics,name=BytesInPerSec"
- "kafka.network:type=RequestMetrics,name=RequestsPerSec,request={Produce|FetchConsumer|FetchFollower}"
- "kafka.server:type=BrokerTopicMetrics,name=BytesOutPerSec"
- "kafka.network:type=RequestMetrics,name=TotalTimeMs,request={Produce|FetchConsumer|FetchFollower}"
- "kafka.network:type=RequestMetrics,name=RequestQueueTimeMs,request={Produce|FetchConsumer|FetchFollower}"
#- "kafka.consumer:type=consumer-fetch-manager-metrics,client-id={client-id}"
- "kafka.server:type={Produce|Fetch},user=([-.\\w]+),client-id=([-.\\w]+)"
- "kafka.server:type=Request,user=([-.\\w]+),client-id=([-.\\w]+)"
- "kafka.[producer|consumer|connect]:type=[producer|consumer|connect]-metrics,client-id=([-.\\w]+)"
- "kafka.producer:type=[consumer|producer|connect]-node-metrics,client-id=([-.\\w]+),node-id=([0-9]+)"
- "kafka.producer:type=producer-metrics,client-id=([-.\\w]+)"
- "kafka.producer:type=producer-topic-metrics,client-id=([-.\\w]+),topic=([-.\\w]+)"
- "kafka.consumer:type=consumer-coordinator-metrics,client-id=([-.\\w]+)"
- "kafka.consumer:type=consumer-fetch-manager-metrics,client-id={client-id}"
- "kafka.consumer:type=consumer-fetch-manager-metrics,client-id={client-id},topic={topic}"
- "kafka.streams:type=stream-metrics,client-id=([-.\\w]+)"
- "kafka.streams:type=stream-task-metrics,client-id=([-.\\w]+),task-id=([-.\\w]+)"
- "kafka.streams:type=stream-processor-node-metrics,client-id=([-.\\w]+),task-id=([-.\\w]+),processor-node-id=([-.\\w]+)"
- "kafka.streams:type=stream-[store-type]-state-metrics,client-id=([-.\\w]+),task-id=([-.\\w]+),[store-type]-state-id=([-.\\w]+)"
- "kafka.streams:type=stream-record-cache-metrics,client-id=([-.\\w]+),task-id=([-.\\w]+),record-cache-id=([-.\\w]+)"

配置2(面向kafka2.0以后的版本):【kafka2.0以后,匹配所有jmx指標(biāo)(虛擬機(jī)測(cè)試每次請(qǐng)求約2秒,生產(chǎn)環(huán)境大約10秒。Prometheus默認(rèn)15秒請(qǐng)求一次)】

lowercaseOutputName: true
jmxUrl: service:jmx:rmi:///jndi/rmi://192.168.112.129:9999/jmxrmi
ssl: false
rules:
  - pattern : JMImplementation<type=(.+)><>(.*)
  - pattern : com.sun.management<type=(.+)><>(.*)
  - pattern : java.lang<type=(.+)><>(.*)
  - pattern : java.nio<type=(.+)><>(.*)
  - pattern : java.util.logging<type=(.+)><>(.*)
  - pattern : kafka<type=(.+)><>(.*)
  - pattern : kafka.controller<type=(.+)><>(.*)
  - pattern : kafka.coordinator.group<type=(.+)><>(.*)
  - pattern : kafka.coordinator.transaction<type=(.+)><>(.*)
  - pattern : kafka.log<type=(.+)><>(.*)
  - pattern : kafka.network<type=(.+)><>(.*)
  - pattern : kafka.server<type=(.+)><>(.*)
  - pattern : kafka.utils<type=(.+)><>(.*)

說明:
(1)、端口9999表示jmx暴露數(shù)據(jù)的端口,與jmx exporter通信。
(2)、在我的虛擬機(jī)測(cè)試中,只為kafka新建過一個(gè)topic,以及一個(gè)consumer,配置中所涉及的指標(biāo)只有kafka.server有效,其他未顯示出來。具體以生產(chǎn)環(huán)境為準(zhǔn)。

3、編輯bin/kafka-server-start.sh添加

export JMX_PORT="9999"
export KAFKA_OPTS="-javaagent:/opt/kafka/jmx_prometheus_javaagent-0.3.1.jar=9990:/opt/kafka/kafka-agent.yaml"

說明:
(1)、端口9990表示jmx暴露的端口,以后訪問http://127.0.0.1:9999/metrics獲取指標(biāo)數(shù)據(jù)。

4、Prometheus配置添加

scrape_configs:
  - job_name: kafka
    static_configs:
      - targets: ["192.168.112.129:9990"]

說明:
(1):這里的192.168.112.129為我的虛擬機(jī)地址

5、Grafana導(dǎo)入dashboard,ID為721。這是網(wǎng)絡(luò)上使用最多的kafkadashboard,但是內(nèi)容依舊非常陳舊,需要自行修改?!疽韵轮笜?biāo)圖表來自較早版本的導(dǎo)出配置,新的配置包含所有jmx指標(biāo),需要自行繪圖】

image.png

這里有必要說一點(diǎn),我第一次使用的配置是配置1的陳舊內(nèi)容,不能拿到完全的數(shù)據(jù),實(shí)際是kafka版本升級(jí)到2.0以后帶來的變化導(dǎo)致,比如通過工具VisualVM連接JMX端口后無法看到kafka.consumer的數(shù)據(jù),實(shí)際運(yùn)行的時(shí)候也是匹配不到的。所以后來覺得這個(gè)方法不行又繞了很多彎路,再后來查了很多資料才發(fā)現(xiàn)是自己沒看到kafka升級(jí)到2.x以后擯棄了一些東西。也是最終使用兩個(gè)方式并行監(jiān)控的基礎(chǔ)了。


監(jiān)控方式二:

為了監(jiān)控更準(zhǔn)確的消費(fèi)者數(shù)據(jù)
新的數(shù)據(jù)采集方式經(jīng)過驗(yàn)證,可以以如下流程圖解釋

image.png

在kafka集群中的某一臺(tái)主機(jī),開啟JMX_PORT=9999端口,運(yùn)行burrow采集9999端口的數(shù)據(jù),使用burrow-exporter將burrow采集到的數(shù)據(jù)轉(zhuǎn)換成Prometheus是認(rèn)識(shí)的形式,然后暴露給Prometheus進(jìn)行拉取。

具體操作流程如下:
1、配置kafka,暴露JMX_PORT端口
在kafka-run-class.sh文件中添加-Djava.rmi.server.hostname=ip地址

if [ -z "$KAFKA_JMX_OPTS" ]; then
  KAFKA_JMX_OPTS="-Dcom.sun.management.jmxremote -Dcom.sun.management.jmxremote.authenticate=false  -Dcom.sun.management.jmxremote.ssl=false "
fi

KAFKA_JMX_OPTS="-Dcom.sun.management.jmxremote -Djava.rmi.server.hostname=10.10.0.18
 -Dcom.sun.management.jmxremote.authenticate=false  -Dcom.sun.management.jmxremote.ssl=false "

新添加的語句是KAFKA_JMX_OPTS="-Dcom.sun.management.jmxremote -Djava.rmi.server.hostname=10.10.0.18 -Dcom.sun.management.jmxremote.authenticate=false -Dcom.sun.management.jmxremote.ssl=false "
事實(shí)上只有-Djava.rmi.server.hostname=10.10.0.18是新加的,其他的是從#JMX settings下的if語句里拷貝出來的。

注意:如果不添加上一條,則使用JMX暴露出來的端口可能無法使用甚至無法被鏈接

啟動(dòng)kafka的時(shí)候,語句為JMX_PORT=9999 kafka-server-start.sh -daemon /opt/kafka_2.11-2.0.0/config/server.properties
這樣就能將端口9999暴露出來,且運(yùn)行方式為守護(hù)進(jìn)程的方式

2、啟動(dòng)Burrow
本次操作時(shí)間是2018.1.10,Github上最新的release版本還是2018.5.15日提交的。由于kafka升級(jí)到了2.0,該版本并不適用,如果直接使用,會(huì)導(dǎo)致部分consumer數(shù)據(jù)無法拿到。
依據(jù)github上的操作指示,使用新的go版本和dep工具包,拉取master分支并重新打包一份Burrow.
(當(dāng)然這一步是需要懂go語言的來做最好了)

我在/data/Burrow目錄下載了老版的release版本解壓以獲取里面的config目錄下的文件,并上傳新打包的Burrow替換掉老版本的文件。
在config目錄下替換burrow.toml文件內(nèi)容為:

[general]
access-control-allow-origin="*"

[logging]
level="info"

[zookeeper]
servers=["10.10.0.18:2181","10.10.80.94:2181","10.10.125.117:2181", "10.10.4.149:2181", "10.10.104.108:2181"]

[client-profile.kafka-profile]
kafka-version="2.0.0"
client-id="burrow-client"

[cluster.gw]
class-name="kafka"
client-profile="kafka-profile"
servers=["10.10.0.18:9092","10.10.80.94:9092","10.10.125.117:9092","10.10.4.149:9092","10.10.104.108:9092"]
topic-refresh=120
offset-refresh=10

[consumer.consumer_kafka]
class-name="kafka"
cluster="gw"
servers=["10.10.0.18:9092","10.10.80.94:9092","10.10.125.117:9092","10.10.4.149:9092","10.10.104.108:9092"]
client-profile="kafka-profile"
start-latest=true
offsets-topic="__consumer_offsets"
group-whitelist=".*"
group-blacklist="^(console-consumer-|python-kafka-consumer-).*$"

[httpserver.default]
address=":8000"

配置文件來自另一個(gè)開源項(xiàng)目ignatev/burrow-kafka-dashboard,該項(xiàng)目是在kubernetes下實(shí)現(xiàn)的,我這里借用了他的配置方式。

使用命令nohup ./Burrow --config-dir ./config &后臺(tái)啟動(dòng)burrow
訪問http://10.10.0.18:8000/v3/kafka可以看到結(jié)果

{"error":false,"message":"cluster list returned","clusters":["gw"],"request":{"url":"/v3/kafka","host":"mx-kafka-1"}}

表示成功。
burrow沒有好看的UI界面,只能提供接口返回json格式的數(shù)據(jù),具體使用方式可以參看博客
Kafka消費(fèi)積壓Lag監(jiān)控工具Burrow的使用
Control Center User Interface

3、轉(zhuǎn)換burrow的指標(biāo)使Prometheus可見
在實(shí)際使用的時(shí)候,由于需要將指標(biāo)導(dǎo)入prometheus,所以需要一個(gè)工具對(duì)burrow的指標(biāo)進(jìn)行轉(zhuǎn)換,在這里,我使用開源的burrow_exporter

新建并進(jìn)入目錄/data/burrow-exporter/
下載最新的release版本的burrow-exporter,解壓后可以直接運(yùn)行里面的burrow-exporter文件,從help里可以看到需要配置的參數(shù)
啟動(dòng)命令如下

nohup ./burrow-exporter --burrow-addr="http://10.10.0.18:8000" --metrics-addr="0.0.0.0:9254" --interval="15" --api-version="3" &

注意:--burrow-addr表示burrow的地址,--metrics-addr表示暴露給Prometheus可以訪問的地址和端口,-interval表示采集burrow的時(shí)間間隔,最需要注意的是 --api-version表示的版本就是burrow暴露出來的版本,比如先前訪問burrow時(shí)使用的鏈接是http://10.10.0.18:8000/v3/kafka,那么這里就需要設(shè)置3,老版本如果使用v2那么就要設(shè)置2,不過默認(rèn)就是2,否則會(huì)導(dǎo)致異常無法連接。

訪問http://10.10.0.18:9254/metrics,便可以看到熟悉的Prometheus指標(biāo)

最終方案:

但是
通過burrow所采集到的指標(biāo)只包含consumer的offset和lag,通過burrow在github上的簡(jiǎn)介可以發(fā)現(xiàn)這一點(diǎn)。
為了更完整的獲取kafka的數(shù)據(jù),我再次搜索了很多地方,終于確訂了最終的數(shù)據(jù)依舊還是jvm所暴露出來的最為完整,在這之前,我測(cè)試的時(shí)候所使用的配置文件是舊版本的配置文件,自kafka升級(jí)到2.0以后,他棄用了kafka.consumer等指標(biāo)對(duì)象,但是kafka.server等其他指標(biāo)對(duì)象依舊可以拿到burrow所不具備的數(shù)據(jù)。所以最終的kafka監(jiān)視方案變更為 burrow + jmx_exporter,流程圖如下:

image.png

在前兩個(gè)方案中我已詳細(xì)描述過如何通過端口采集到kafka的數(shù)據(jù),這里就不再重復(fù)。

最后提一點(diǎn)重要的,jmx_exporter直接導(dǎo)入到Prometheus的方式采集的是單臺(tái)主機(jī)的數(shù)據(jù),如果你有一個(gè)kafka集群,那么每一臺(tái)都需要如此配置監(jiān)控;而burrow的方式,可以從單臺(tái)主機(jī)中拿到集群的消費(fèi)者數(shù)據(jù),所以只需要部署在集群中的其中一臺(tái)即可。(并未測(cè)試多集群,如果你有多個(gè)kafka集群,可能需要變更配置了,請(qǐng)自行尋找解決方案)

配合node_exporter的基礎(chǔ)指標(biāo)監(jiān)控,對(duì)于kafka的監(jiān)控才算完整,當(dāng)然,這些圖表只能自己畫了,因?yàn)榫W(wǎng)上并沒有現(xiàn)成的。

image.png
image.png
image.png
image.png
image.png
附加說明:

1、關(guān)于配置文件的編寫,我的配置2會(huì)匹配所有的指標(biāo),不過由于不同的人需求不一樣,可以參考配置1的方式,通過VisualVM工具在MBeans中所暴露出來的對(duì)象,根據(jù)規(guī)律自行編寫。舉個(gè)例子比如像要獲取BytesInPersec對(duì)應(yīng)__consumer__offsets這個(gè)指標(biāo)在VisualVM工具中如圖

image.png

而此時(shí),在Metadata欄的ObjectName欄則可以看到他的匹配方式,同類型的,使用正則替換即可,具體參考配置1就好。[圖片上傳失敗...(image-3fa8ad-1548668115387)]

image.png

2、出現(xiàn)過的問題:
(1):生產(chǎn)環(huán)境鏈接超時(shí)問題。
原因:kafka默認(rèn)設(shè)置的單次拉取超時(shí)時(shí)間為15s,而由于生產(chǎn)環(huán)境主機(jī)壓力大,15s獲取還沒有返回,導(dǎo)致數(shù)據(jù)總是拉取不成功。
解決方案:根據(jù)我們自己的實(shí)際情況,很多java指標(biāo)是可以不要的,所以在配置中注釋了除去kafka.*其他的所有指標(biāo),拉取時(shí)間維持在最多10s,基本滿足需求,以后有需要再行優(yōu)化(比如只拉取需要的指標(biāo),其他一律忽略等等)。

(2):Prometheus遠(yuǎn)程寫入influxDB報(bào)錯(cuò)問題。
原因:influxDB不支持+/-Inf的字段類型,這點(diǎn)從日志中可以看出來。
日志:如下

prometheus     | level=warn ts=2019-01-22T07:00:37.113970782Z caller=queue_manager.go:531 component=remote queue="0:http://influxdb:8086/api/v1/prom/write?db=prometheus&u=prom&p=prom" msg="Error sending samples to remote storage" count=100 err="server returned HTTP status 400 Bad Request: {\"error\":\"+/-Inf is an unsupported value for field value\"}"

解決方案:在指標(biāo)頁(yè)中找到返回值為+/-Inf的指標(biāo)名,從配置文件中將其忽略。(待進(jìn)一步驗(yàn)證,我設(shè)置了一個(gè),告警減少了,但是依然存在,可能有多個(gè)指標(biāo),某些沒照出來吧)

scrape_configs:
   - job_name: 'my_job'
     static_configs:
       - targets:
       - my_target:1234
     metric_relabel_configs:
        - source_labels: [ __name__ ]
          regex: 'my_too_large_metric'
          action: drop

3、一些自己使用到的指標(biāo)計(jì)算,每個(gè)人的需求不一樣,僅供參考(如果發(fā)現(xiàn)錯(cuò)誤,請(qǐng)不吝批評(píng)指正)

名稱 指標(biāo)與公式
Bytes Out Per Topic sum(kafka_server_brokertopicmetrics_oneminuterate{name="BytesOutPerSec",topic!=""}) by (topic)
Kafka log size by topic sum(kafka_log_log_value{name="Size",topic!=""}) by (topic)
堆積 by Group sum(kafka_burrow_partition_lag) by (group)
Rebalance kafka_server_delayedoperationpurgatory_value{name="NumDelayedOperations",delayedOperation="Rebalance"}
消費(fèi)速率 by Group /每秒 sum(rate(kafka_burrow_partition_current_offset[1m])) by (group)

依葫蘆畫瓢的東西我就不多寫了,大都差不多。另外node_exporter攜帶上來的關(guān)于主機(jī)性能方面的指標(biāo)也不寫了,grafana可以搜索到很多node_exporter的dashboard使用。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容