Jenkins在Linux中如何监控
导读:监控目标与总体架构 监控对象应覆盖三层: Jenkins 应用层(构建队列、执行节点在线状态、构建成功率/耗时、插件健康); JVM 层(堆内存、GC、线程、类加载); 操作系统层(CPU、内存、磁盘 I/O、网络)。 推荐架构:在...
监控目标与总体架构
- 监控对象应覆盖三层:
- Jenkins 应用层(构建队列、执行节点在线状态、构建成功率/耗时、插件健康);
- JVM 层(堆内存、GC、线程、类加载);
- 操作系统层(CPU、内存、磁盘 I/O、网络)。
- 推荐架构:在 Jenkins 内安装监控插件获取应用与 JVM 指标,使用 Prometheus 抓取指标、Grafana 可视化;同时用 Linux 命令行工具与 系统性能套件补充主机层面监控,构建结果写入 InfluxDB 做趋势分析,并通过 邮件/Slack 等实现告警。
快速落地步骤
- 应用与 JVM 监控
- 安装 Monitoring 插件(JavaMelody):进入 Manage Jenkins → Plugins 搜索并安装,安装后在 Manage Jenkins → Monitoring of Jenkins master 查看仪表盘,覆盖内存、CPU、HTTP 响应时间、当前请求数等。
- 安装 Prometheus metrics 插件:为 Jenkins 暴露 /prometheus 指标端点;在 Prometheus 配置 scrape:
- job_name: ‘jenkins’
metrics_path: ‘/prometheus’
static_configs:- targets: [‘< jenkins_ip> :< jenkins_port> ’]
- job_name: ‘jenkins’
- 在 Grafana 添加 Prometheus 数据源并导入 Jenkins 仪表盘模板(如 9964),即可获得构建与节点健康的可视化面板。
- 主机与系统资源监控
- 使用 sysstat(含 sar/iostat)持续采集 CPU、内存、I/O;
- 使用 top/htop 观察进程资源,iostat 检查磁盘 I/O,iftop/nethogs 监控网络流量;
- 将这些指标与 Jenkins 指标一并纳入统一可视化与告警体系。
- 构建与任务监控
- 通过 Jenkins REST API 获取构建状态与结果,例如:
- curl -u : http://< jenkins_ip> :/job/< job_name> /lastBuild/api/json
- 结合 Email Extension 与 Slack Notification 插件在构建成功/失败、阶段变更时自动通知。
- 通过 Jenkins REST API 获取构建状态与结果,例如:
告警与可视化方案
- 可视化:
- Grafana 对接 Prometheus,导入 Jenkins 仪表盘模板(ID:9964),集中展示构建队列、节点在线、构建时长分布、失败趋势等;
- JavaMelody 提供轻量级的 JVM/HTTP 维度图表,适合快速排障。
- 告警:
- 在 Prometheus 配置规则(如构建队列过长、节点离线、HTTP 错误率升高、JVM Full GC 频繁等),联动 Alertmanager 发送邮件/企业微信/钉钉/Slack;
- 在 Jenkins 内用 Email Extension 与 Slack Notification 对构建事件做即时通知,形成“平台内+平台外”的双通道告警。
Linux命令与脚本示例
- 节点与构建状态巡检脚本(示例)
- 查看节点在线:
- curl -s -u : http://< jenkins_ip> :/computer/api/json | jq -r ‘.computer[] | “(.displayName): (.offline)”’
- 查看最近一次构建结果:
- curl -s -u : http://< jenkins_ip> :/job/< job_name> /lastBuild/api/json | jq -r ‘.result’
- 查看节点在线:
- 主机资源快速查看
- CPU/内存:top/htop
- 磁盘 I/O:iostat -x 1
- 网络:iftop 或 nethogs
- 将采集到的指标写入 InfluxDB(配合 InfluxDB 插件或脚本),在 Grafana 中做趋势对比与容量规划。
关键指标与阈值建议
- 建议重点关注的指标与常见阈值(需结合业务调优):
- 构建队列长度:持续大于 0 表示存在资源瓶颈或并发不足;
- 节点在线率:长期低于 95% 需排查节点稳定性/网络;
- 构建成功率/失败率:失败率升高应联动回滚与根因分析;
- 构建时长 P95/P99:突增可能受代码/依赖/测试/存储影响;
- JVM Heap/Memory:Old/Eden 使用率高且 Full GC 频繁需扩容或优化;
- HTTP 响应时间/错误率:响应时间升高或 5xx 增多需检查插件/负载/后端;
- CPU/内存/磁盘 I/O:CPU 持续 > 80%、可用内存低、磁盘 IOWAIT 高均可能引发构建抖动与超时。
声明:本文内容由网友自发贡献,本站不承担相应法律责任。对本内容有异议或投诉,请联系2913721942#qq.com核实处理,我们将尽快回复您,谢谢合作!
若转载请注明出处: Jenkins在Linux中如何监控
本文地址: https://pptw.com/jishu/763819.html
