Hadoop在Linux中如何监控状态
导读:Hadoop在Linux上的监控实践 一 快速巡检命令 进程存活检查:使用jps确认关键进程是否存在(如:NameNode、DataNode、SecondaryNameNode、ResourceManager、NodeManager)。...
Hadoop在Linux上的监控实践
一 快速巡检命令
- 进程存活检查:使用jps确认关键进程是否存在(如:NameNode、DataNode、SecondaryNameNode、ResourceManager、NodeManager)。
- HDFS整体状态:执行hdfs dfsadmin -report,查看总容量、已用、剩余、DataNode存活与容量等。
- HDFS健康与一致性:执行hdfs fsck / 检查文件系统完整性与块健康。
- YARN节点与资源:执行yarn node -list -all查看节点状态;yarn application -list -appStates ALL查看应用状态。
- 日志与系统资源:Hadoop日志默认在**$HADOOP_HOME/logs**;系统层面用top/htop、vmstat、df -h观察CPU、内存、磁盘与IO。
二 Web UI与健康页
- 访问组件Web UI进行可视化巡检(默认端口示例):
- NameNode:50070(Hadoop 2.x)/ 9870(Hadoop 3.x)
- ResourceManager:8088
- DataNode:50075(Hadoop 2.x)/ 50010(Hadoop 3.x)
- 在UI中关注:集群健康(Healthy/Decommissioning/Stale)、Live Nodes、DFS Used%、Apps 运行/失败、Node Utilization。
三 指标监控与可视化
- JMX直连:Hadoop(含YARN)支持JMX,可开启远程JMX并用jconsole/VisualVM连接对应端口,查看JVM、RPC、队列与容器等指标。
- Prometheus + Grafana:部署Hadoop Exporter或JMX Exporter,以Prometheus采集指标,用Grafana构建面板,覆盖HDFS容量/块、YARN资源与队列、NodeManager/Container等。
- 企业/开源方案:小规模可用Ganglia;传统监控可用Zabbix/Nagios;托管/企业级可用Ambari、Cloudera Manager、Datadog。
四 日志与告警
- 日志集中与检索:启用日志聚合(Log Aggregation),将各节点日志汇总到HDFS并配合ELK(Elasticsearch、Logstash、Kibana)做检索与可视化;实时排查可用tail -f与grep定位异常。
- 告警建议:对关键指标设置阈值告警(如HDFS Used% > 80%、NodeManager/DataNode 心跳丢失、YARN 应用失败数激增),并结合Prometheus Alertmanager或Zabbix通知渠道。
五 常见故障定位清单
- 进程与连通:用jps确认进程;ping/traceroute检查节点网络;核对防火墙放行8088、50070/9870、50075/50010等端口。
- 配置与资源:核对core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml;检查HADOOP_HOME、PATH;用top/htop、vmstat、df -h排查资源瓶颈。
- HDFS与YARN专项:用hdfs dfsadmin -report与hdfs fsck /检查HDFS;用yarn node -list -all与yarn application -list -appStates ALL检查YARN;必要时查看NameNode/DataNode与ResourceManager/NodeManager日志。
声明:本文内容由网友自发贡献,本站不承担相应法律责任。对本内容有异议或投诉,请联系2913721942#qq.com核实处理,我们将尽快回复您,谢谢合作!
若转载请注明出处: Hadoop在Linux中如何监控状态
本文地址: https://pptw.com/jishu/748986.html
