本文關(guān)鍵詞:Kafka、Prometheus
kafka作為流行的隊(duì)列工具其強(qiáng)大之處相信不用多說,而使用kafka時(shí)相信大多數(shù)人都會(huì)有這樣一個(gè)需求,那就是實(shí)時(shí)監(jiān)測(cè)kafka的指標(biāo),比如消費(fèi)、堆積、性能等等。
通過指令我們可以在kafka集群的主機(jī)上查看某個(gè)group相關(guān)的指標(biāo)
[root@mx-kafka-1 ~]# pwd
/root
[root@mx-kafka-1 ~]# kafka-consumer-groups.sh --bootstrap-server mx-kafka-1:9092,mx-kafka-2:9092,mx-kafka-3:9092,mx-kafka-4:9092,mx-kafka-5:9092 --group jiguang-log-group --describe
TOPIC PARTITION CURRENT-OFFSET LOG-END-OFFSET LAG CONSUMER-ID HOST CLIENT-ID
sdk-log-data 1 14182138146 14196116659 13978513 sarama-53c5a1da-3a57-4e94-9458-ded077d103a6 /10.10.130.244 sarama
sdk-log-data 9 14181723308 14196601937 14878629 sarama-b00f3db5-cd3a-440c-bfc2-9025687e1043 /10.10.168.51 sarama
sdk-log-data 8 14182893809 14197037268 14143459 sarama-a6eadc47-5fcb-4fb0-8369-4e72109d42dc /10.10.130.244 sarama
sdk-log-data 3 14183305596 14197462703 14157107 sarama-65dd3c57-7a6e-4bee-944d-405dc17df3d9 /10.10.121.26 sarama
sdk-log-data 4 14182059026 14196893966 14834940 sarama-7ae68ed4-69e7-4380-9e6a-2a2e0dba9c9a /10.10.121.26 sarama
sdk-log-data 10 14180872923 14196189590 15316667 sarama-bb893b6c-fb97-4ca9-8c15-daa1abb008d1 /10.10.121.26 sarama
sdk-log-data 7 14182722934 14197033917 14310983 sarama-984a34d5-df0a-4202-a4f9-716664d8ef04 /10.10.130.244 sarama
sdk-log-data 0 14182510828 14197824186 15313358 sarama-0fdec84e-a572-44de-b9e5-3452a242f43f /10.10.168.51 sarama
sdk-log-data 11 14184173437 14198067999 13894562 sarama-deb5a7b0-6de4-4bd1-bd1c-3db60739f0e3 /10.10.121.26 sarama
sdk-log-data 6 14183175300 14197123342 13948042 sarama-94242065-4149-422c-b961-9718dd7c9d6b /10.10.168.51 sarama
sdk-log-data 5 14182922569 14198291576 15369007 sarama-84ebf3bf-b7de-4752-8025-3d6fb6e10215 /10.10.130.244 sarama
sdk-log-data 2 14182493952 14196799617 14305665 sarama-62121b97-3b76-48b4-a564-44d9eee794cc /10.10.168.51 sarama
在上面的指標(biāo)中,CURRENT-OFFSET 表示當(dāng)前消費(fèi)的offset,LOG-END-OFFSET 表示最新的offset,也就是生產(chǎn)者最新的offset,LAG表示堆積
在與Prometheus的合作中,網(wǎng)絡(luò)上很多的exporter其數(shù)據(jù)都來源于zookeeper,自kafka升級(jí)到版本2以后,數(shù)據(jù)不往zookeeper中寫入了,則大多exporter再也無法拿到數(shù)據(jù),這期間我經(jīng)歷了公司kafka的升級(jí),之前的好些exporter監(jiān)控方式及圖表都已廢棄這里不表。
面對(duì)版本2以后的kafka,我使用了kafka-offset-exporter來作為kafka的exporter與Prometheus配合,有博客介紹如下
Monitoring Kafka Consumer Offsets。
在它的指標(biāo)中,
kafka_offset_newest對(duì)應(yīng)系統(tǒng)中查詢出來的LOG-END-OFFSET ,
kafka_offset_consumer對(duì)應(yīng)系統(tǒng)中查詢出來的CURRENT-OFFSET
堆積(LAG)的計(jì)算方式為kafka_offset_newest - on(topic,partition) group_right kafka_offset_consumer{group="jiguang-log-group"}
但是它同樣有一個(gè)問題。部分partition的指標(biāo)不準(zhǔn),這導(dǎo)致計(jì)算出來的部分結(jié)果與實(shí)際相去甚遠(yuǎn)。
監(jiān)控需要尋求新的方式
萬幸,kafka本身就已經(jīng)自帶了監(jiān)控,通過Yammer Metrics進(jìn)行指標(biāo)暴露與注冊(cè),可通過JMX進(jìn)行指標(biāo)收集。官網(wǎng)鏈接
這里有一些博客可做參考
如何對(duì)kafka進(jìn)行監(jiān)控
fxjwind - kafka中支持的jmx reporter
JMX與系統(tǒng)管理
利用jmx_exporter獲取kafka metrics數(shù)據(jù)
kafka各種監(jiān)控指標(biāo)
還有這個(gè)異常說明無法使用 service:jmx:rmi:///jndi/rmi://111.11.11.111:10001/jmxrmi 連接到111.11.11.111:10001
以及kafka的官網(wǎng)對(duì)每個(gè)指標(biāo)都做了說明。
Monitoring Kafka
kafka學(xué)習(xí)之監(jiān)控
jmx_exporter
Monitor Kafka with Prometheus +Grafana
Grafana Darshbord
監(jiān)控方式一 JVM:
本次測(cè)試環(huán)境:
kafka_2.11-2.1.0
jmx_prometheus_javaagent-0.3.1.jar
1、下載最新的 JMX to Prometheus Exporter到/opt/kafka目錄
https://repo1.maven.org/maven2/io/prometheus/jmx/jmx_prometheus_javaagent/0.3.1/jmx_prometheus_javaagent-0.3.1.jar
2、在/opt/kafka目錄編輯kafka-agent.yaml
配置1(面向kafka2.0以前的版本):【部分指標(biāo)匹配,且部分配置只在低版本kafka有效,例如kafka.consumer等】
hostPort: 127.0.0.1:9999
lowercaseOutputName: true
whitelistObjectNames:
- "kafka.server:type=BrokerTopicMetrics,name=MessagesInPerSec"
- "kafka.server:type=BrokerTopicMetrics,name=BytesInPerSec"
- "kafka.network:type=RequestMetrics,name=RequestsPerSec,request={Produce|FetchConsumer|FetchFollower}"
- "kafka.server:type=BrokerTopicMetrics,name=BytesOutPerSec"
- "kafka.network:type=RequestMetrics,name=TotalTimeMs,request={Produce|FetchConsumer|FetchFollower}"
- "kafka.network:type=RequestMetrics,name=RequestQueueTimeMs,request={Produce|FetchConsumer|FetchFollower}"
#- "kafka.consumer:type=consumer-fetch-manager-metrics,client-id={client-id}"
- "kafka.server:type={Produce|Fetch},user=([-.\\w]+),client-id=([-.\\w]+)"
- "kafka.server:type=Request,user=([-.\\w]+),client-id=([-.\\w]+)"
- "kafka.[producer|consumer|connect]:type=[producer|consumer|connect]-metrics,client-id=([-.\\w]+)"
- "kafka.producer:type=[consumer|producer|connect]-node-metrics,client-id=([-.\\w]+),node-id=([0-9]+)"
- "kafka.producer:type=producer-metrics,client-id=([-.\\w]+)"
- "kafka.producer:type=producer-topic-metrics,client-id=([-.\\w]+),topic=([-.\\w]+)"
- "kafka.consumer:type=consumer-coordinator-metrics,client-id=([-.\\w]+)"
- "kafka.consumer:type=consumer-fetch-manager-metrics,client-id={client-id}"
- "kafka.consumer:type=consumer-fetch-manager-metrics,client-id={client-id},topic={topic}"
- "kafka.streams:type=stream-metrics,client-id=([-.\\w]+)"
- "kafka.streams:type=stream-task-metrics,client-id=([-.\\w]+),task-id=([-.\\w]+)"
- "kafka.streams:type=stream-processor-node-metrics,client-id=([-.\\w]+),task-id=([-.\\w]+),processor-node-id=([-.\\w]+)"
- "kafka.streams:type=stream-[store-type]-state-metrics,client-id=([-.\\w]+),task-id=([-.\\w]+),[store-type]-state-id=([-.\\w]+)"
- "kafka.streams:type=stream-record-cache-metrics,client-id=([-.\\w]+),task-id=([-.\\w]+),record-cache-id=([-.\\w]+)"
配置2(面向kafka2.0以后的版本):【kafka2.0以后,匹配所有jmx指標(biāo)(虛擬機(jī)測(cè)試每次請(qǐng)求約2秒,生產(chǎn)環(huán)境大約10秒。Prometheus默認(rèn)15秒請(qǐng)求一次)】
lowercaseOutputName: true
jmxUrl: service:jmx:rmi:///jndi/rmi://192.168.112.129:9999/jmxrmi
ssl: false
rules:
- pattern : JMImplementation<type=(.+)><>(.*)
- pattern : com.sun.management<type=(.+)><>(.*)
- pattern : java.lang<type=(.+)><>(.*)
- pattern : java.nio<type=(.+)><>(.*)
- pattern : java.util.logging<type=(.+)><>(.*)
- pattern : kafka<type=(.+)><>(.*)
- pattern : kafka.controller<type=(.+)><>(.*)
- pattern : kafka.coordinator.group<type=(.+)><>(.*)
- pattern : kafka.coordinator.transaction<type=(.+)><>(.*)
- pattern : kafka.log<type=(.+)><>(.*)
- pattern : kafka.network<type=(.+)><>(.*)
- pattern : kafka.server<type=(.+)><>(.*)
- pattern : kafka.utils<type=(.+)><>(.*)
說明:
(1)、端口9999表示jmx暴露數(shù)據(jù)的端口,與jmx exporter通信。
(2)、在我的虛擬機(jī)測(cè)試中,只為kafka新建過一個(gè)topic,以及一個(gè)consumer,配置中所涉及的指標(biāo)只有kafka.server有效,其他未顯示出來。具體以生產(chǎn)環(huán)境為準(zhǔn)。
3、編輯bin/kafka-server-start.sh添加
export JMX_PORT="9999"
export KAFKA_OPTS="-javaagent:/opt/kafka/jmx_prometheus_javaagent-0.3.1.jar=9990:/opt/kafka/kafka-agent.yaml"
說明:
(1)、端口9990表示jmx暴露的端口,以后訪問http://127.0.0.1:9999/metrics獲取指標(biāo)數(shù)據(jù)。
4、Prometheus配置添加
scrape_configs:
- job_name: kafka
static_configs:
- targets: ["192.168.112.129:9990"]
說明:
(1):這里的192.168.112.129為我的虛擬機(jī)地址
5、Grafana導(dǎo)入dashboard,ID為721。這是網(wǎng)絡(luò)上使用最多的kafkadashboard,但是內(nèi)容依舊非常陳舊,需要自行修改?!疽韵轮笜?biāo)圖表來自較早版本的導(dǎo)出配置,新的配置包含所有jmx指標(biāo),需要自行繪圖】

這里有必要說一點(diǎn),我第一次使用的配置是
配置1的陳舊內(nèi)容,不能拿到完全的數(shù)據(jù),實(shí)際是kafka版本升級(jí)到2.0以后帶來的變化導(dǎo)致,比如通過工具VisualVM連接JMX端口后無法看到kafka.consumer的數(shù)據(jù),實(shí)際運(yùn)行的時(shí)候也是匹配不到的。所以后來覺得這個(gè)方法不行又繞了很多彎路,再后來查了很多資料才發(fā)現(xiàn)是自己沒看到kafka升級(jí)到2.x以后擯棄了一些東西。也是最終使用兩個(gè)方式并行監(jiān)控的基礎(chǔ)了。
監(jiān)控方式二:
為了監(jiān)控更準(zhǔn)確的消費(fèi)者數(shù)據(jù)
新的數(shù)據(jù)采集方式經(jīng)過驗(yàn)證,可以以如下流程圖解釋

在kafka集群中的某一臺(tái)主機(jī),開啟JMX_PORT=9999端口,運(yùn)行burrow采集9999端口的數(shù)據(jù),使用burrow-exporter將burrow采集到的數(shù)據(jù)轉(zhuǎn)換成Prometheus是認(rèn)識(shí)的形式,然后暴露給Prometheus進(jìn)行拉取。
具體操作流程如下:
1、配置kafka,暴露JMX_PORT端口
在kafka-run-class.sh文件中添加-Djava.rmi.server.hostname=ip地址
if [ -z "$KAFKA_JMX_OPTS" ]; then
KAFKA_JMX_OPTS="-Dcom.sun.management.jmxremote -Dcom.sun.management.jmxremote.authenticate=false -Dcom.sun.management.jmxremote.ssl=false "
fi
KAFKA_JMX_OPTS="-Dcom.sun.management.jmxremote -Djava.rmi.server.hostname=10.10.0.18
-Dcom.sun.management.jmxremote.authenticate=false -Dcom.sun.management.jmxremote.ssl=false "
新添加的語句是KAFKA_JMX_OPTS="-Dcom.sun.management.jmxremote -Djava.rmi.server.hostname=10.10.0.18 -Dcom.sun.management.jmxremote.authenticate=false -Dcom.sun.management.jmxremote.ssl=false "
事實(shí)上只有-Djava.rmi.server.hostname=10.10.0.18是新加的,其他的是從#JMX settings下的if語句里拷貝出來的。
注意:如果不添加上一條,則使用JMX暴露出來的端口可能無法使用甚至無法被鏈接
啟動(dòng)kafka的時(shí)候,語句為JMX_PORT=9999 kafka-server-start.sh -daemon /opt/kafka_2.11-2.0.0/config/server.properties
這樣就能將端口9999暴露出來,且運(yùn)行方式為守護(hù)進(jìn)程的方式
2、啟動(dòng)Burrow
本次操作時(shí)間是2018.1.10,Github上最新的release版本還是2018.5.15日提交的。由于kafka升級(jí)到了2.0,該版本并不適用,如果直接使用,會(huì)導(dǎo)致部分consumer數(shù)據(jù)無法拿到。
依據(jù)github上的操作指示,使用新的go版本和dep工具包,拉取master分支并重新打包一份Burrow.
(當(dāng)然這一步是需要懂go語言的來做最好了)
我在/data/Burrow目錄下載了老版的release版本解壓以獲取里面的config目錄下的文件,并上傳新打包的Burrow替換掉老版本的文件。
在config目錄下替換burrow.toml文件內(nèi)容為:
[general]
access-control-allow-origin="*"
[logging]
level="info"
[zookeeper]
servers=["10.10.0.18:2181","10.10.80.94:2181","10.10.125.117:2181", "10.10.4.149:2181", "10.10.104.108:2181"]
[client-profile.kafka-profile]
kafka-version="2.0.0"
client-id="burrow-client"
[cluster.gw]
class-name="kafka"
client-profile="kafka-profile"
servers=["10.10.0.18:9092","10.10.80.94:9092","10.10.125.117:9092","10.10.4.149:9092","10.10.104.108:9092"]
topic-refresh=120
offset-refresh=10
[consumer.consumer_kafka]
class-name="kafka"
cluster="gw"
servers=["10.10.0.18:9092","10.10.80.94:9092","10.10.125.117:9092","10.10.4.149:9092","10.10.104.108:9092"]
client-profile="kafka-profile"
start-latest=true
offsets-topic="__consumer_offsets"
group-whitelist=".*"
group-blacklist="^(console-consumer-|python-kafka-consumer-).*$"
[httpserver.default]
address=":8000"
配置文件來自另一個(gè)開源項(xiàng)目ignatev/burrow-kafka-dashboard,該項(xiàng)目是在kubernetes下實(shí)現(xiàn)的,我這里借用了他的配置方式。
使用命令nohup ./Burrow --config-dir ./config &后臺(tái)啟動(dòng)burrow
訪問http://10.10.0.18:8000/v3/kafka可以看到結(jié)果
{"error":false,"message":"cluster list returned","clusters":["gw"],"request":{"url":"/v3/kafka","host":"mx-kafka-1"}}
表示成功。
burrow沒有好看的UI界面,只能提供接口返回json格式的數(shù)據(jù),具體使用方式可以參看博客
Kafka消費(fèi)積壓Lag監(jiān)控工具Burrow的使用
Control Center User Interface
3、轉(zhuǎn)換burrow的指標(biāo)使Prometheus可見
在實(shí)際使用的時(shí)候,由于需要將指標(biāo)導(dǎo)入prometheus,所以需要一個(gè)工具對(duì)burrow的指標(biāo)進(jìn)行轉(zhuǎn)換,在這里,我使用開源的burrow_exporter
新建并進(jìn)入目錄/data/burrow-exporter/
下載最新的release版本的burrow-exporter,解壓后可以直接運(yùn)行里面的burrow-exporter文件,從help里可以看到需要配置的參數(shù)
啟動(dòng)命令如下
nohup ./burrow-exporter --burrow-addr="http://10.10.0.18:8000" --metrics-addr="0.0.0.0:9254" --interval="15" --api-version="3" &
注意:--burrow-addr表示burrow的地址,--metrics-addr表示暴露給Prometheus可以訪問的地址和端口,-interval表示采集burrow的時(shí)間間隔,最需要注意的是 --api-version表示的版本就是burrow暴露出來的版本,比如先前訪問burrow時(shí)使用的鏈接是
http://10.10.0.18:8000/v3/kafka,那么這里就需要設(shè)置3,老版本如果使用v2那么就要設(shè)置2,不過默認(rèn)就是2,否則會(huì)導(dǎo)致異常無法連接。
訪問http://10.10.0.18:9254/metrics,便可以看到熟悉的Prometheus指標(biāo)
最終方案:
但是
通過burrow所采集到的指標(biāo)只包含consumer的offset和lag,通過burrow在github上的簡(jiǎn)介可以發(fā)現(xiàn)這一點(diǎn)。
為了更完整的獲取kafka的數(shù)據(jù),我再次搜索了很多地方,終于確訂了最終的數(shù)據(jù)依舊還是jvm所暴露出來的最為完整,在這之前,我測(cè)試的時(shí)候所使用的配置文件是舊版本的配置文件,自kafka升級(jí)到2.0以后,他棄用了kafka.consumer等指標(biāo)對(duì)象,但是kafka.server等其他指標(biāo)對(duì)象依舊可以拿到burrow所不具備的數(shù)據(jù)。所以最終的kafka監(jiān)視方案變更為 burrow + jmx_exporter,流程圖如下:

在前兩個(gè)方案中我已詳細(xì)描述過如何通過端口采集到kafka的數(shù)據(jù),這里就不再重復(fù)。
最后提一點(diǎn)重要的,jmx_exporter直接導(dǎo)入到Prometheus的方式采集的是單臺(tái)主機(jī)的數(shù)據(jù),如果你有一個(gè)kafka集群,那么每一臺(tái)都需要如此配置監(jiān)控;而burrow的方式,可以從單臺(tái)主機(jī)中拿到集群的消費(fèi)者數(shù)據(jù),所以只需要部署在集群中的其中一臺(tái)即可。(并未測(cè)試多集群,如果你有多個(gè)kafka集群,可能需要變更配置了,請(qǐng)自行尋找解決方案)
配合node_exporter的基礎(chǔ)指標(biāo)監(jiān)控,對(duì)于kafka的監(jiān)控才算完整,當(dāng)然,這些圖表只能自己畫了,因?yàn)榫W(wǎng)上并沒有現(xiàn)成的。





附加說明:
1、關(guān)于配置文件的編寫,我的配置2會(huì)匹配所有的指標(biāo),不過由于不同的人需求不一樣,可以參考配置1的方式,通過VisualVM工具在MBeans中所暴露出來的對(duì)象,根據(jù)規(guī)律自行編寫。舉個(gè)例子比如像要獲取BytesInPersec對(duì)應(yīng)__consumer__offsets這個(gè)指標(biāo)在VisualVM工具中如圖

而此時(shí),在Metadata欄的ObjectName欄則可以看到他的匹配方式,同類型的,使用正則替換即可,具體參考配置1就好。[圖片上傳失敗...(image-3fa8ad-1548668115387)]

2、出現(xiàn)過的問題:
(1):生產(chǎn)環(huán)境鏈接超時(shí)問題。
原因:kafka默認(rèn)設(shè)置的單次拉取超時(shí)時(shí)間為15s,而由于生產(chǎn)環(huán)境主機(jī)壓力大,15s獲取還沒有返回,導(dǎo)致數(shù)據(jù)總是拉取不成功。
解決方案:根據(jù)我們自己的實(shí)際情況,很多java指標(biāo)是可以不要的,所以在配置中注釋了除去kafka.*其他的所有指標(biāo),拉取時(shí)間維持在最多10s,基本滿足需求,以后有需要再行優(yōu)化(比如只拉取需要的指標(biāo),其他一律忽略等等)。
(2):Prometheus遠(yuǎn)程寫入influxDB報(bào)錯(cuò)問題。
原因:influxDB不支持+/-Inf的字段類型,這點(diǎn)從日志中可以看出來。
日志:如下
prometheus | level=warn ts=2019-01-22T07:00:37.113970782Z caller=queue_manager.go:531 component=remote queue="0:http://influxdb:8086/api/v1/prom/write?db=prometheus&u=prom&p=prom" msg="Error sending samples to remote storage" count=100 err="server returned HTTP status 400 Bad Request: {\"error\":\"+/-Inf is an unsupported value for field value\"}"
解決方案:在指標(biāo)頁(yè)中找到返回值為+/-Inf的指標(biāo)名,從配置文件中將其忽略。(待進(jìn)一步驗(yàn)證,我設(shè)置了一個(gè),告警減少了,但是依然存在,可能有多個(gè)指標(biāo),某些沒照出來吧)
scrape_configs:
- job_name: 'my_job'
static_configs:
- targets:
- my_target:1234
metric_relabel_configs:
- source_labels: [ __name__ ]
regex: 'my_too_large_metric'
action: drop
3、一些自己使用到的指標(biāo)計(jì)算,每個(gè)人的需求不一樣,僅供參考(如果發(fā)現(xiàn)錯(cuò)誤,請(qǐng)不吝批評(píng)指正)
| 名稱 | 指標(biāo)與公式 |
|---|---|
| Bytes Out Per Topic | sum(kafka_server_brokertopicmetrics_oneminuterate{name="BytesOutPerSec",topic!=""}) by (topic) |
| Kafka log size by topic | sum(kafka_log_log_value{name="Size",topic!=""}) by (topic) |
| 堆積 by Group | sum(kafka_burrow_partition_lag) by (group) |
| Rebalance | kafka_server_delayedoperationpurgatory_value{name="NumDelayedOperations",delayedOperation="Rebalance"} |
| 消費(fèi)速率 by Group /每秒 | sum(rate(kafka_burrow_partition_current_offset[1m])) by (group) |
依葫蘆畫瓢的東西我就不多寫了,大都差不多。另外node_exporter攜帶上來的關(guān)于主機(jī)性能方面的指標(biāo)也不寫了,grafana可以搜索到很多node_exporter的dashboard使用。