Debian上Hadoop故障排查步骤有哪些

时间2025-12-11 09:09:03发布访客分类主机资讯浏览649

导读：Debian上Hadoop故障排查步骤一快速定位流程查看进程：运行jps，核对是否存在NameNode、DataNode、ResourceManager、NodeManager等关键进程，缺失即定位到对应组件异常。查看日志：到**...

Debian上Hadoop故障排查步骤

一快速定位流程

查看进程：运行jps，核对是否存在NameNode、DataNode、ResourceManager、NodeManager等关键进程，缺失即定位到对应组件异常。
查看日志：到**$HADOOP_HOME/logs目录，用tail -f *.log或grep “ERROR” *.log聚焦最近报错，优先看以.log**结尾的文件（启动脚本提示的.out只是重定向，详细错误在.log）。
检查配置：核对core-site.xml、hdfs-site.xml、mapred-site.xml/yarn-site.xml与hadoop-env.sh中的关键项（如JAVA_HOME、fs.defaultFS、dfs.datanode.data.dir、yarn.resourcemanager.hostname等）。
验证网络：节点间执行ping < IP/主机名> ；必要时用ssh < 节点> 测试免密登录；排查/etc/hosts与DNS解析是否一致；检查iptables/ufw是否放行相关端口。
资源与系统：用top、iostat -x 1、vmstat 1观察CPU、内存、磁盘IO；查看**/var/log/syslog、dmesg、journalctl -xe**获取系统级错误。
Web UI：访问http://< NameNode_IP> :50070（HDFS NameNode）与http://< RM_IP> :8088（YARN ResourceManager）查看集群健康与任务状态。

二常见故障与修复要点

环境类
- “jps: command not found”：未正确设置JAVA_HOME或未把**$JAVA_HOME/bin加入PATH**；在**~/.bashrc或/etc/profile**中导出变量并source使其生效。
- Hadoop脚本找不到或Java不匹配：在hadoop-env.sh中显式设置JAVA_HOME，确保与Hadoop版本兼容。
配置类
- “Could not resolve hostname”：检查**/etc/hosts主机名与IP映射、环境变量（如HADOOP_HOME**）及本机主机名配置。
- 首次部署或元数据异常：按需执行hdfs namenode -format（仅在首次或明确数据可丢弃时执行，避免数据丢失）。
网络与SSH类
- 节点间不通或SSH失败：核对ping、ssh连通性，排查防火墙/安全组策略，统一**/etc/hosts解析，确保SSH免密**配置正确。
进程与数据目录类
- DataNode反复退出或无法注册：检查dfs.datanode.data.dir目录权限/磁盘空间；必要时清理DataNode数据目录后重启（会丢数据，谨慎）。
日志与告警类
- 大量“WARN util.NativeCodeLoader: Unable to load native-hadoop library …”：为兼容性提示，通常可忽略，不影响功能。

三关键端口与连通性检查

四服务重启与变更控制

重启顺序建议：先停YARN再停HDFS，启动则相反。
- 停止：./sbin/stop-yarn.sh → ./sbin/stop-dfs.sh
- 启动：./sbin/start-dfs.sh → ./sbin/start-yarn.sh
如仍异常，可全停后全启：./stop-all.sh → ./start-all.sh（脚本存在与否取决于发行与版本）。
变更前务必备份重要数据与配置，变更后在Web UI与日志中复核状态。

五性能与稳定性排查

声明：本文内容由网友自发贡献，本站不承担相应法律责任。对本内容有异议或投诉，请联系2913721942#qq.com核实处理，我们将尽快回复您，谢谢合作！