首页主机资讯CentOS Dolphin故障排查指南

CentOS Dolphin故障排查指南

时间2025-12-10 17:55:04发布访客分类主机资讯浏览1286
导读:CentOS 上 Dolphin 故障排查指南 一 适用范围与快速判断 本指南覆盖 CentOS 上常见的三类 “Dolphin” 组件: DolphinDB(分布式时序数据库/集群) DolphinScheduler(分布式任务调度平...

CentOS 上 Dolphin 故障排查指南

一 适用范围与快速判断

  • 本指南覆盖 CentOS 上常见的三类 “Dolphin” 组件:
    • DolphinDB(分布式时序数据库/集群)
    • DolphinScheduler(分布式任务调度平台)
    • Dolphin 文件管理器(KDE 图形文件管理器)
  • 快速判断路径:
    • 出现端口占用、集群状态异常、license 报错、ODBC 崩溃等,多为 DolphinDB
    • 出现 8088/19888 端口问题、Master/Worker 无法启动、与 ZooKeeper/HDFS/YARN 联动异常,多为 DolphinScheduler
    • 图形界面无法启动、文件操作异常、与其他软件包冲突,多为 Dolphin 文件管理器

二 DolphinDB 故障排查

  • 定位是否异常退出
    • 查看节点日志:单节点默认在 server/dolphindb.log,集群在 server/log/;用命令快速筛查:
      • grep “MainServer shutdown” dolphindb.log
      • grep “Received signal” dolphindb.log
      • grep “The license has expired” dolphindb.log
    • 若 controller.log 出现 “has gone offline”,多为 Web 界面/stopDataNode 主动关闭;若日志出现 “Received signal”,多为 被 kill;若提示 license 过期,需更新 license。自 1.30.11 / 1.20.20 起支持在线更新 license,旧版本更新后需重启相关节点。
  • 资源与系统层面
    • 检查 OOM Killer:dmesg | grep -i oom;若进程被 OOM 杀死,需扩容内存、降低内存占用或开启/调大 coredump 以便分析。
    • 检查 磁盘空间/IO:df -h、iostat -x 1;清理无用日志与数据,避免磁盘满导致异常。
  • ODBC 插件与驱动
    • 先用 isql 验证 DSN/驱动可用性,再在 DolphinDB 内用 odbc::connect 复现;常见错误包括:
      • “file not found”:驱动 .so 不存在或无读权限,用 ldd 检查依赖。
      • “libltdl.so.7: cannot open shared object file”:缺少依赖库。
      • 端口填错导致 ODBC 驱动/isql/DolphinDB 进程崩溃(如 ClickHouse/FreeTDS 已知问题)。
      • 环境变量不一致(如 LD_LIBRARY_PATH、Oracle 的 TNS_ADMIN);可用 LD_DEBUG=libs 定位加载问题。
      • 建议使用 ODBC 插件 1.30.20.7 / 2.00.8.11 及以上版本,修复了多数据库驱动加载与类型映射问题。

三 DolphinScheduler 故障排查

  • 基础可达性与进程
    • 确认服务已启动:jps 查看 MasterServer/WorkerServer/ApiApplicationServer;必要时在 /usr/local/dolphinscheduler-/bin/ 执行 stop-all.sh & & start-all.sh
    • 页面无法打开:检查 8080(Web)、19888(历史服务)端口占用与防火墙;必要时改用主机 IP 访问。
  • 依赖组件与联动
    • 单机模式不需要外部 ZooKeeper(内置);若对接 Hadoop/HDFS,需确保 HDFS/YARN 正常,且 HADOOP_HOME 等环境变量配置正确。
    • 出现 “无可用的 Master 节点” 或定时任务异常:优先重启集群;检查 ZooKeeper 状态(zkServer.sh status)、清理异常残留进程后再启。
    • YARN ResourceManager 异常导致任务卡住或 8088 报错,重启 ResourceManager 并确认 8088 可访问。

四 Dolphin 文件管理器故障排查

  • 安装与冲突
    • 安装/更新:sudo yum install -y epel-release & & sudo yum install -y dolphin;若与其他包冲突,先执行 yum check,再移除冲突包或重装:sudo yum remove / sudo yum reinstall dolphin。
    • 仍异常时查看系统日志:journalctl -xe 或 /var/log/yum.log,定位安装/依赖问题。
  • 启动与权限
    • 图形会话中无法启动:在终端执行 dolphin 观察报错;必要时检查 KDE/GNOME 会话、权限与桌面环境完整性。
    • 配置/设置无效:避免以 root 直接运行 GUI 应用;优先在用户会话中调整设置,必要时使用替代文件管理器(如 Nautilus/Thunar)。

五 高频场景与处置清单

场景 快速检查 处置建议
节点进程消失 日志 grep “MainServer shutdown”/“Received signal”/“license expired”;dmesg 查 OOM 主动关闭则忽略;被 kill/OOM 则扩容资源、限流与清理磁盘;license 过期则更新(≥1.30.11/1.20.20 可在线)
连接被拒绝/端口不通 ss -lntp grep < 端口> ;排查防火墙/端口占用/服务未启动
ODBC 连接失败或崩溃 isql 直连;ldd 检查驱动;核对 LD_LIBRARY_PATH/TNS_ADMIN;必要时 LD_DEBUG=libs 修正 DSN/驱动路径与依赖;避免错误端口;升级 ODBC 插件至 1.30.20.7/2.00.8.11+
Web 页面打不开(DS) 检查 8080/19888;jps 看 Master/Worker;必要时重启集群 启动依赖服务(HDFS/YARN/ZK);清理残留进程后再启
与 Hadoop/YARN 联动异常 8088/50070/8020 状态;zkServer.sh status;yarn --daemon start resourcemanager 重启异常组件;确认 HA/服务角色与网络连通性
包冲突/安装失败 yum check;journalctl -xe;/var/log/yum.log 移除冲突包或重装;必要时改用替代文件管理器
以上清单覆盖了 DolphinDB 的日志/资源/ODBC 要点、DolphinScheduler 的进程/依赖/端口要点,以及 Dolphin 文件管理器 的安装/冲突要点,便于快速定位与恢复。

声明:本文内容由网友自发贡献,本站不承担相应法律责任。对本内容有异议或投诉,请联系2913721942#qq.com核实处理,我们将尽快回复您,谢谢合作!


若转载请注明出处: CentOS Dolphin故障排查指南
本文地址: https://pptw.com/jishu/768493.html
CentOS Dolphin与其他软件的集成 如何在CentOS Dolphin中配置网络

游客 回复需填写必要信息