CentOS系统故障排查与解决方法
导读:CentOS系统故障排查与解决 一 快速定位与信息收集 查看系统健康与服务状态:使用uptime了解负载,top/htop观察资源占用,free -m检查内存,df -h查看磁盘空间,**systemctl status **定位异常服务...
CentOS系统故障排查与解决
一 快速定位与信息收集
- 查看系统健康与服务状态:使用uptime了解负载,top/htop观察资源占用,free -m检查内存,df -h查看磁盘空间,**systemctl status **定位异常服务。
- 集中日志分析:优先用journalctl -xe查看本次启动的详细日志;同时检查**/var/log/messages**(系统事件)、/var/log/secure(认证与授权)。
- 内核与硬件线索:用dmesg查看内核环缓冲与驱动加载信息,有助于发现硬件检测与驱动问题。
- 变更回滚准备:若近期有配置或软件变更,先准备回滚方案/备份,再进行修复操作。
二 启动失败与紧急修复
- 进入维护环境:重启,在GRUB菜单按e编辑启动项;在以linux16/linuxefi开头的行末尾添加single进入单用户模式,或使用rw init=/sysroot/bin/sh获取紧急模式的 root shell;必要时进入救援模式挂载原系统分区修复。
- 定位挂载问题:在紧急/单用户下执行journalctl -xb或journalctl -xe,用**/mount搜索挂载失败项;编辑/etc/fstab**,注释或修正错误条目后重启。
- 文件系统修复:对疑似异常的分区执行fsck(如:fsck /dev/sda1);若为XFS,可用xfs_repair /dev/sda5 -L(请先确认设备并谨慎操作)。
- 引导与内核问题:在GRUB中临时移除rhgb与quiet以显示详细启动信息;必要时调整**/boot/grub/grub.cfg中的内核启动顺序,优先尝试旧内核**;检查**/boot下内核相关文件是否齐全(如vmlinuz-**、initramfs-.img、System.map-)。
- 根分区满或 inode 耗尽:清理日志与临时文件,释放空间后再尝试启动。
- SELinux 与权限:若怀疑策略导致异常,可临时设为宽容模式setenforce 0验证;若恢复正常,进一步修复上下文或策略后再恢复enforcing。
三 网络故障排查
- 物理与链路:确认网线/交换机端口/网卡指示灯正常;虚拟机检查NAT/桥接等网络模式是否正确。
- 接口与地址:用ip addr或ifconfig确认网卡UP且有IP;检查配置文件**/etc/sysconfig/network-scripts/ifcfg-中的ONBOOT=yes**、BOOTPROTO(dhcp/static)、IPADDR/NETMASK/GATEWAY等是否正确。
- 路由与连通性:用ip route确认default路由;先ping网关,再ping 8.8.8.8验证外连;必要时用traceroute定位路由中断点。
- DNS 解析:检查**/etc/resolv.conf是否配置nameserver 8.8.8.8/114.114.114.114**;用nslookup/dig验证域名解析。
- 防火墙与服务:用firewall-cmd --list-all核对规则,必要时临时systemctl stop firewalld做排除法;确认网络服务(如 NetworkManager/传统 network 服务)状态与自启。
- 常见症状速解:
- 网卡显示NO-CARRIER:检查物理连接、交换机端口/VLAN、网线;确认接口为UP并尝试ifup ;必要时核对配置文件并重启网络服务。
- 能 ping 通网关但外网不通:多为路由或DNS问题,按上步逐项验证。
- 虚拟机网络异常:核对NAT/桥接设置与宿主网络。
四 磁盘 内存与系统资源
- 磁盘空间与 Inode:用df -h与du -sh定位大文件/目录;若inode耗尽,清理大量小文件(如旧日志、缓存)。
- 文件系统错误:在救援/单用户下对分区执行fsck;XFS使用xfs_repair(必要时加**-L**),操作前请确认设备并谨慎执行。
- 磁盘健康:用smartctl查看**S.M.A.R.T.**信息,提前发现硬盘故障征兆。
- 内存问题:出现DIMM报错或随机重启,优先更换/重插内存条;也可在GRUB选择memtest86+进行内存检测,建议至少完成1 个完整循环。
五 服务异常与日志分析
- 失败服务定位:用systemctl list-units --type=service --state=failed列出失败单元,结合**journalctl -u **查看详细错误。
- 配置与语法:核对服务配置文件语法与路径;对Web/DB等服务,分别查看**/var/log/httpd/error_log**、/var/log/mysql/error.log等业务日志。
- 变更回滚与重装:若因近期变更引发,先回滚;软件损坏则重新安装相关包。
- 安全与策略:排查SELinux与firewalld策略是否阻断必要访问;必要时临时切换为Permissive验证,再恢复并修正策略。
- 通用建议:操作前备份关键数据;记录故障现象—排查步骤—根因—修复措施,形成可复用的运维手册。
声明:本文内容由网友自发贡献,本站不承担相应法律责任。对本内容有异议或投诉,请联系2913721942#qq.com核实处理,我们将尽快回复您,谢谢合作!
若转载请注明出处: CentOS系统故障排查与解决方法
本文地址: https://pptw.com/jishu/750090.html
