Linux Kafka监控哪些关键指标
导读:Linux Kafka监控关键指标清单 一 主机与JVM资源 资源类:CPU使用率/核均负载、内存使用率、磁盘容量使用率与I/O(await、svctm、util)、网络吞吐与TCP连接数/文件描述符。这些直接影响Broker吞吐与稳定性...
Linux Kafka监控关键指标清单
一 主机与JVM资源
- 资源类:CPU使用率/核均负载、内存使用率、磁盘容量使用率与I/O(await、svctm、util)、网络吞吐与TCP连接数/文件描述符。这些直接影响Broker吞吐与稳定性,磁盘与网络是Kafka的关键瓶颈点。建议同时采集节点级指标与Kafka业务指标进行关联分析。
- JVM类:堆内存使用、Full GC次数与停顿、线程数。Kafka为JVM进程,GC抖动会放大请求时延,需重点监控并联动告警。
二 Broker核心指标
- 吞吐与请求:MessagesIn/BytesIn、MessagesOut/BytesOut(按Broker/主题/分区维度)、各类RequestsPerSec(Produce/Fetch)、请求时延TotalTimeMs(含Queue/Local/Remote/Send各阶段)。用于判断负载高低与性能瓶颈所在。
- 副本与可用性:UnderReplicatedPartitions(应长期为0)、ISRShrink/ISRExpand(频繁变化需排查Follower异常/网络抖动)、LeaderElectionRateAndTimeMs、UncleanLeaderElectionsPerSec(出现即可能有数据丢失风险,理想为0)、offlinePartitionCount(应为0)、ActiveControllerCount(集群中必须且仅有1个为1)。
- 分区与负载:PartitionCount、LeaderCount(应在Broker间相对均衡,避免热点与倾斜)、LogFlushRateAndTimeMs(落盘速率与时延,权衡持久性与吞吐)。
三 主题分区与数据分布
- 生产与消费速率:按Topic/分区观察BytesIn/BytesOut、MessagesIn/MessagesOut,识别热点分区与流量倾斜。
- 堆积与消费健康:按消费者组与分区监控records-lag / group_msgs(堆积消息数),并结合分区可消费消息数(topic_messages_remained)判断消费能力是否匹配生产。
- 数据均衡:关注节点间/分区间数据不均(流量、分区数量、Key分布、扩容后分区未重分配等原因),必要时调整分区与副本布局。
四 消费者组与客户端
- 消费延迟与速率:records-lag(分区级)与group_msgs(消费组级)趋势,配合消费速率判断是否存在阻塞或处理能力不足。
- 位点与提交:监控消费位点推进与提交间隔/成功率,避免“处理未完成即提交”导致丢失或“提交过晚”导致重复消费。
- 生产者视角:关注request-latency-avg(平均请求时延)、waiting-threads(发送缓冲区阻塞线程数),识别网络/服务端瓶颈与背压。
五 采集与告警实践
- 采集方式:开启JMX暴露Kafka指标,使用kafka_exporter对接Prometheus,在Grafana构建统一看板;同时用kafka-topics.sh / kafka-consumer-groups.sh做配置与位点核查。
- 关键告警示例:
- UnderReplicatedPartitions > 0 或 offlinePartitionCount > 0
- UncleanLeaderElectionsPerSec > 0
- ActiveControllerCount != 1
- records-lag / group_msgs 持续增长或突增
- 磁盘使用率 接近阈值、CPU/网络持续高负载
- Full GC次数/停顿 异常升高
- 可视化与巡检:建设Broker/主题/消费组多维看板,定期巡检分区均衡、副本健康、连接与文件描述符使用。
声明:本文内容由网友自发贡献,本站不承担相应法律责任。对本内容有异议或投诉,请联系2913721942#qq.com核实处理,我们将尽快回复您,谢谢合作!
若转载请注明出处: Linux Kafka监控哪些关键指标
本文地址: https://pptw.com/jishu/769218.html
