CentOS Dolphin故障排查指南
导读:CentOS 上 Dolphin 故障排查指南 一 适用范围与快速判断 本指南覆盖 CentOS 上常见的三类 “Dolphin” 组件: DolphinDB(分布式时序数据库/集群) DolphinScheduler(分布式任务调度平...
CentOS 上 Dolphin 故障排查指南
一 适用范围与快速判断
- 本指南覆盖 CentOS 上常见的三类 “Dolphin” 组件:
- DolphinDB(分布式时序数据库/集群)
- DolphinScheduler(分布式任务调度平台)
- Dolphin 文件管理器(KDE 图形文件管理器)
- 快速判断路径:
- 出现端口占用、集群状态异常、license 报错、ODBC 崩溃等,多为 DolphinDB。
- 出现 8088/19888 端口问题、Master/Worker 无法启动、与 ZooKeeper/HDFS/YARN 联动异常,多为 DolphinScheduler。
- 图形界面无法启动、文件操作异常、与其他软件包冲突,多为 Dolphin 文件管理器。
二 DolphinDB 故障排查
- 定位是否异常退出
- 查看节点日志:单节点默认在 server/dolphindb.log,集群在 server/log/;用命令快速筛查:
- grep “MainServer shutdown” dolphindb.log
- grep “Received signal” dolphindb.log
- grep “The license has expired” dolphindb.log
- 若 controller.log 出现 “has gone offline”,多为 Web 界面/stopDataNode 主动关闭;若日志出现 “Received signal”,多为 被 kill;若提示 license 过期,需更新 license。自 1.30.11 / 1.20.20 起支持在线更新 license,旧版本更新后需重启相关节点。
- 查看节点日志:单节点默认在 server/dolphindb.log,集群在 server/log/;用命令快速筛查:
- 资源与系统层面
- 检查 OOM Killer:dmesg | grep -i oom;若进程被 OOM 杀死,需扩容内存、降低内存占用或开启/调大 coredump 以便分析。
- 检查 磁盘空间/IO:df -h、iostat -x 1;清理无用日志与数据,避免磁盘满导致异常。
- ODBC 插件与驱动
- 先用 isql 验证 DSN/驱动可用性,再在 DolphinDB 内用 odbc::connect 复现;常见错误包括:
- “file not found”:驱动 .so 不存在或无读权限,用 ldd 检查依赖。
- “libltdl.so.7: cannot open shared object file”:缺少依赖库。
- 端口填错导致 ODBC 驱动/isql/DolphinDB 进程崩溃(如 ClickHouse/FreeTDS 已知问题)。
- 环境变量不一致(如 LD_LIBRARY_PATH、Oracle 的 TNS_ADMIN);可用 LD_DEBUG=libs 定位加载问题。
- 建议使用 ODBC 插件 1.30.20.7 / 2.00.8.11 及以上版本,修复了多数据库驱动加载与类型映射问题。
- 先用 isql 验证 DSN/驱动可用性,再在 DolphinDB 内用 odbc::connect 复现;常见错误包括:
三 DolphinScheduler 故障排查
- 基础可达性与进程
- 确认服务已启动:jps 查看 MasterServer/WorkerServer/ApiApplicationServer;必要时在 /usr/local/dolphinscheduler-/bin/ 执行 stop-all.sh & & start-all.sh。
- 页面无法打开:检查 8080(Web)、19888(历史服务)端口占用与防火墙;必要时改用主机 IP 访问。
- 依赖组件与联动
- 单机模式不需要外部 ZooKeeper(内置);若对接 Hadoop/HDFS,需确保 HDFS/YARN 正常,且 HADOOP_HOME 等环境变量配置正确。
- 出现 “无可用的 Master 节点” 或定时任务异常:优先重启集群;检查 ZooKeeper 状态(zkServer.sh status)、清理异常残留进程后再启。
- 若 YARN ResourceManager 异常导致任务卡住或 8088 报错,重启 ResourceManager 并确认 8088 可访问。
四 Dolphin 文件管理器故障排查
- 安装与冲突
- 安装/更新:sudo yum install -y epel-release & & sudo yum install -y dolphin;若与其他包冲突,先执行 yum check,再移除冲突包或重装:sudo yum remove / sudo yum reinstall dolphin。
- 仍异常时查看系统日志:journalctl -xe 或 /var/log/yum.log,定位安装/依赖问题。
- 启动与权限
- 图形会话中无法启动:在终端执行 dolphin 观察报错;必要时检查 KDE/GNOME 会话、权限与桌面环境完整性。
- 配置/设置无效:避免以 root 直接运行 GUI 应用;优先在用户会话中调整设置,必要时使用替代文件管理器(如 Nautilus/Thunar)。
五 高频场景与处置清单
| 场景 | 快速检查 | 处置建议 |
|---|---|---|
| 节点进程消失 | 日志 grep “MainServer shutdown”/“Received signal”/“license expired”;dmesg 查 OOM | 主动关闭则忽略;被 kill/OOM 则扩容资源、限流与清理磁盘;license 过期则更新(≥1.30.11/1.20.20 可在线) |
| 连接被拒绝/端口不通 | ss -lntp | grep < 端口> ;排查防火墙/端口占用/服务未启动 |
| ODBC 连接失败或崩溃 | isql 直连;ldd 检查驱动;核对 LD_LIBRARY_PATH/TNS_ADMIN;必要时 LD_DEBUG=libs | 修正 DSN/驱动路径与依赖;避免错误端口;升级 ODBC 插件至 1.30.20.7/2.00.8.11+ |
| Web 页面打不开(DS) | 检查 8080/19888;jps 看 Master/Worker;必要时重启集群 | 启动依赖服务(HDFS/YARN/ZK);清理残留进程后再启 |
| 与 Hadoop/YARN 联动异常 | 8088/50070/8020 状态;zkServer.sh status;yarn --daemon start resourcemanager | 重启异常组件;确认 HA/服务角色与网络连通性 |
| 包冲突/安装失败 | yum check;journalctl -xe;/var/log/yum.log | 移除冲突包或重装;必要时改用替代文件管理器 |
| 以上清单覆盖了 DolphinDB 的日志/资源/ODBC 要点、DolphinScheduler 的进程/依赖/端口要点,以及 Dolphin 文件管理器 的安装/冲突要点,便于快速定位与恢复。 |
声明:本文内容由网友自发贡献,本站不承担相应法律责任。对本内容有异议或投诉,请联系2913721942#qq.com核实处理,我们将尽快回复您,谢谢合作!
若转载请注明出处: CentOS Dolphin故障排查指南
本文地址: https://pptw.com/jishu/768493.html
