Debian Hadoop集群监控技巧

时间2025-12-15 08:38:03发布访客分类主机资讯浏览245

导读：Debian Hadoop 集群监控技巧一监控体系与工具选型建议采用“内置 UI + 指标监控 + 主机监控 + 日志告警”的组合：内置 UI：快速查看组件健康与作业状态，包含 NameNode UI（50070）、Resour...

Debian Hadoop 集群监控技巧

一监控体系与工具选型

二快速落地步骤 Prometheus Grafana

安装与启动
- 部署 Prometheus（配置抓取间隔等），部署 Grafana 并添加 Prometheus 为数据源。
暴露 Hadoop 指标
- 在各 Hadoop 节点启用 JMX，通过 JMX Exporter 暴露指标（HTTP 端口如 9090），在 Prometheus 中配置抓取目标。
可视化与告警
- 在 Grafana 导入或创建 HDFS/YARN/节点资源 仪表盘；在 Prometheus 配置告警规则并对接 Alertmanager（邮件/企业微信/钉钉等）。

三关键指标与阈值建议

维度	关键指标	常见阈值或关注点	主要用途
HDFS	Capacity Used %、Missing Blocks、Under-Replicated Blocks、DataNode 存活数	容量使用率持续接近80%告警；出现 Missing/Under-Replicated 立即处理	容量与副本健康
YARN	Apps Pending、NodeManager 心跳丢失、Container 失败数、队列资源使用率	Pending 持续> 0或心跳丢失告警；容器失败突增	调度与稳定性
主机	CPU 使用率、内存使用率、磁盘 IO 等待、磁盘使用率、网络丢包/错包	CPU/内存长期> 80%告警；磁盘使用率> 80%预警	资源瓶颈定位
JVM	Heap Memory Used、GC 次数/时间、线程数	Full GC 频繁或 GC 时间过长告警	内存与 GC 健康
服务端口	NameNode 50070、ResourceManager 8088、DataNode 50075/50010、NodeManager 8042	端口不可达即告警	服务可用性

采集建议：Hadoop 组件通过 JMX 暴露指标；主机层面由 Node Exporter 提供系统指标；在 Grafana 中按“HDFS/YARN/主机/JVM”分面板展示。

四命令行巡检与即时诊断

五告警与故障排查要点

告警策略
- 容量与副本：HDFS Capacity Used %、Missing/Under-Replicated Blocks 设置多级阈值与升级策略。
- 调度与失败：YARN Apps Pending、NodeManager 心跳丢失、Container 失败数 触发即时告警。
- 主机资源：CPU/内存/磁盘 IO/磁盘使用率 超过阈值告警，结合趋势判断容量规划。
- 服务可用性：NameNode/ResourceManager/DataNode/NodeManager 端口与服务状态异常即告警。
故障排查
- 先查 NameNode/ResourceManager UI 定位组件与作业层面问题；再结合 Grafana/Prometheus 时序定位资源瓶颈；必要时查看 节点日志 与 GC 日志 深入分析。

声明：本文内容由网友自发贡献，本站不承担相应法律责任。对本内容有异议或投诉，请联系2913721942#qq.com核实处理，我们将尽快回复您，谢谢合作！