Hadoop在Linux中如何监控状态

时间2025-11-17 15:14:03发布访客分类主机资讯浏览755

导读：Hadoop在Linux上的监控实践一快速巡检命令进程存活检查：使用jps确认关键进程是否存在（如：NameNode、DataNode、SecondaryNameNode、ResourceManager、NodeManager）。...

Hadoop在Linux上的监控实践

一快速巡检命令

进程存活检查：使用jps确认关键进程是否存在（如：NameNode、DataNode、SecondaryNameNode、ResourceManager、NodeManager）。
HDFS整体状态：执行hdfs dfsadmin -report，查看总容量、已用、剩余、DataNode存活与容量等。
HDFS健康与一致性：执行hdfs fsck / 检查文件系统完整性与块健康。
YARN节点与资源：执行yarn node -list -all查看节点状态；yarn application -list -appStates ALL查看应用状态。
日志与系统资源：Hadoop日志默认在**$HADOOP_HOME/logs**；系统层面用top/htop、vmstat、df -h观察CPU、内存、磁盘与IO。

二 Web UI与健康页

访问组件Web UI进行可视化巡检（默认端口示例）：
- NameNode：50070（Hadoop 2.x）/ 9870（Hadoop 3.x）
- ResourceManager：8088
- DataNode：50075（Hadoop 2.x）/ 50010（Hadoop 3.x）
在UI中关注：集群健康（Healthy/Decommissioning/Stale）、Live Nodes、DFS Used%、Apps 运行/失败、Node Utilization。

三指标监控与可视化

JMX直连：Hadoop（含YARN）支持JMX，可开启远程JMX并用jconsole/VisualVM连接对应端口，查看JVM、RPC、队列与容器等指标。
Prometheus + Grafana：部署Hadoop Exporter或JMX Exporter，以Prometheus采集指标，用Grafana构建面板，覆盖HDFS容量/块、YARN资源与队列、NodeManager/Container等。
企业/开源方案：小规模可用Ganglia；传统监控可用Zabbix/Nagios；托管/企业级可用Ambari、Cloudera Manager、Datadog。

四日志与告警

日志集中与检索：启用日志聚合（Log Aggregation），将各节点日志汇总到HDFS并配合ELK（Elasticsearch、Logstash、Kibana）做检索与可视化；实时排查可用tail -f与grep定位异常。
告警建议：对关键指标设置阈值告警（如HDFS Used% > 80%、NodeManager/DataNode 心跳丢失、YARN 应用失败数激增），并结合Prometheus Alertmanager或Zabbix通知渠道。

五常见故障定位清单

进程与连通：用jps确认进程；ping/traceroute检查节点网络；核对防火墙放行8088、50070/9870、50075/50010等端口。
配置与资源：核对core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml；检查HADOOP_HOME、PATH；用top/htop、vmstat、df -h排查资源瓶颈。
HDFS与YARN专项：用hdfs dfsadmin -report与hdfs fsck /检查HDFS；用yarn node -list -all与yarn application -list -appStates ALL检查YARN；必要时查看NameNode/DataNode与ResourceManager/NodeManager日志。

声明：本文内容由网友自发贡献，本站不承担相应法律责任。对本内容有异议或投诉，请联系2913721942#qq.com核实处理，我们将尽快回复您，谢谢合作！