Debian Hadoop 集群监控方法
导读:Debian Hadoop 集群监控方法 一 原生 Web UI 快速巡检 访问 ResourceManager Web UI:8088,查看集群与作业的全局状态,包括已提交、待处理、运行中、已完成的应用数量,以及调度策略与队列使用情况。...
Debian Hadoop 集群监控方法
一 原生 Web UI 快速巡检
- 访问 ResourceManager Web UI:8088,查看集群与作业的全局状态,包括已提交、待处理、运行中、已完成的应用数量,以及调度策略与队列使用情况。
- 访问 NameNode Web UI:50070,查看 HDFS 健康度、活跃/总节点数、存储使用、块报告 等。
- 访问 NodeManager Web UI:8042,核对单节点的资源容量与已用资源、容器运行情况。
- 访问 JobHistory Server:19888,回溯历史作业日志与任务级指标。
- 建议将以上地址加入内网监控或堡垒机的只读访问清单,便于日常巡检与审计。
二 系统与服务层监控
- 进程存活与健康:在各节点执行 jps,确认 NameNode、DataNode、ResourceManager、NodeManager、JournalNode(如启用 HA) 等进程存在且 PID 稳定。
- 资源瓶颈定位:使用 top/vmstat/iostat 观察 CPU、内存、磁盘 I/O,快速识别慢盘、CPU 飙升、内存紧张等常见瓶颈。
- 日志与系统事件:实时查看 HADOOP_HOME/logs 下各组件日志(如 namenode.log、datanode.log、yarn-*.log),并结合 journalctl -u hadoop-* 或 tail -f /var/log/syslog 排查系统侧异常。
- 网络连通性:对关键端口(如 50070/8088/8042/19888)执行 nc -vz 或 curl 探测,排除防火墙、路由、DNS 配置问题。
- 配置基线核对:复核 core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml 关键参数(如副本数、内存/容器上限、心跳与超时),避免因错误配置引发雪崩或亚健康。
三 指标采集与可视化
- Prometheus + Grafana(推荐):
- 以 Pull 方式采集 JMX Exporter 暴露的 Hadoop 指标(NameNode/DataNode/ResourceManager/NodeManager 等),在 Grafana 中构建 HDFS、YARN、队列、节点资源 等看板,并设置阈值告警。
- 适合需要长期留存、横向对比与自定义阈值的团队。
- Apache Ambari(或 Cloudera Manager):
- 提供 集中管理 + 实时监控 + 告警 的一体化能力,适合 CDH/HDP 或兼容发行版,降低多组件运维复杂度。
- Ganglia:
- 轻量级分布式监控,适合 中小规模 集群或对历史趋势有需求的场景。
四 告警与日常巡检清单
- 告警策略建议:
- 服务可用性:任一 NameNode/ResourceManager 进程异常或 Web UI 不可达 即告警。
- HDFS:可用空间低于阈值、Missing/Under-Replicated Blocks > 0、DataNode 失联。
- YARN:Active/Total Applications 异常波动、不健康 NodeManager 数量增加、队列容量 长时间打满。
- 系统层:磁盘使用率 > 80%、1 分钟负载 持续高于 CPU 核数、I/O 等待 高企。
- 日常巡检要点:
- 每日核对 集群健康页 与 队列使用;每周复盘 慢作业/失败作业 与 节点资源趋势;每月验证 备份与恢复流程 与 告警有效性。
五 快速排障与恢复
- 先查“活不活着”:各节点 jps;异常则优先拉起对应服务或回滚最近变更。
- 再看“通不通”:对 50070/8088/8042/19888 做连通性测试,排除 防火墙/安全组 与 DNS 问题。
- 然后看“错在哪儿”:tail -f 组件日志与 journalctl,定位异常堆栈与时间点。
- 资源与配置:用 top/vmstat/iostat 识别瓶颈;复核 xml 配置 与 YARN 容器/队列 设置是否合理。
- 必要时滚动重启:先停 NodeManager → 再停 ResourceManager → 按需停 NameNode(HA 场景遵循先备后主),启动顺序相反;变更前做好 配置与数据备份。
声明:本文内容由网友自发贡献,本站不承担相应法律责任。对本内容有异议或投诉,请联系2913721942#qq.com核实处理,我们将尽快回复您,谢谢合作!
若转载请注明出处: Debian Hadoop 集群监控方法
本文地址: https://pptw.com/jishu/789903.html
