Kubernetes集群在CentOS上的监控方法

时间2025-11-24 12:01:03发布访客分类主机资讯浏览264

导读：监控方案总览在 CentOS 上监控 Kubernetes 通常采用“指标 + 日志 + 可视化/告警”的组合：用 kubectl 做快速健康检查，用 Metrics Server 提供基础资源指标，用 Prometheus + Graf...

监控方案总览 在 CentOS 上监控 Kubernetes 通常采用“指标 + 日志 + 可视化/告警”的组合：用 kubectl 做快速健康检查，用 Metrics Server 提供基础资源指标，用 Prometheus + Grafana 做时序与可视化，用 cAdvisor / kube-state-metrics / Node Exporter 采集容器、集群对象与节点指标，用 日志栈（如 Fluent Bit + Elasticsearch + Kibana） 做日志分析，必要时配合 Kubernetes Dashboard 或 Weave Scope 做拓扑与排障。该组合覆盖从节点到容器、从资源到业务的可观测性需求。

快速健康检查与基础指标

使用 kubectl 查看节点与 Pod 状态：
- 查看节点：kubectl get nodes
- 查看所有命名空间 Pod：kubectl get pods --all-namespaces
- 查看 Deployment/Service：kubectl get deployments,services --all-namespaces
部署 Metrics Server 以提供 CPU/内存 等基础指标（HPA/调度依赖）：
- 安装：kubectl apply -f https://github.com/kubernetes-sigs/metrics-server/releases/latest/download/components.yaml
- 验证：kubectl get pods -n kube-system | grep metrics-server
说明：Heapster 已弃用，以 Metrics Server 为准。

指标监控 Prometheus Grafana

组件与作用：
- Prometheus：拉取与存储时序指标，支持告警规则。
- Grafana：可视化展示，支持导入社区仪表盘。
- cAdvisor：内置于 kubelet，采集容器 CPU/内存/磁盘/网络。
- kube-state-metrics：暴露 Pod/Deployment/Node 等对象状态指标。
- Node Exporter：采集节点 CPU/内存/磁盘/网络 等主机指标。
快速部署（Helm 推荐）：
- 添加仓库并安装 kube-prometheus-stack（内含 Prometheus/Alertmanager/Grafana/Operator 等）：
  - helm repo add prometheus-community https://prometheus-community.github.io/helm-charts
  - helm install prometheus prometheus-community/kube-prometheus-stack
- 验证：kubectl get pods -n monitoring
导入仪表盘：在 Grafana 导入 Kubernetes / Node Exporter / cAdvisor 等社区仪表盘，快速获得节点、Pod、容器与集群对象的可视化。

日志采集与分析

采集方案选型：
- DaemonSet：集群统一采集，适合大多数场景。
- Sidecar：单个应用定制采集逻辑。
- Fluent Bit：轻量高性能，适合大规模与资源敏感场景。
- Filebeat：日志量大、实时性要求高时可选。
- Elastic Agent：统一纳管多种采集器与策略。
可视化与分析：使用 Kibana 对 Elasticsearch 中的日志进行检索、分析与可视化，结合指标定位问题根因。

可视化与运维工具

Kubernetes Dashboard：基于 Web 的集群管理与监控 UI。
- 部署：kubectl apply -f https://raw.githubusercontent.com/kubernetes/dashboard/v2.2.0/aio/deploy/recommended.yaml
- 获取访问 Token（示例）：kubectl -n kube-system describe secret $(kubectl -n kube-system get secret | grep admin-user | awk ‘{ print $1} ’)
- 访问：浏览器打开 https://< 节点IP> :30000，使用 Token 登录。
Weave Scope：拓扑视图与实时诊断，便于发现异常 Pod/节点与网络依赖。

部署与运维要点

时间同步：确保所有节点启用 NTP/chrony，避免时序与告警混乱。
存储与持久化：为 Prometheus 配置 PVC/StorageClass，避免数据丢失与重启后断点。
安全加固：对 Grafana/Prometheus/Alertmanager 启用认证与 RBAC，限制对外暴露面，必要时通过 Ingress 配置鉴权与限流。
告警规则：基于业务 SLO 配置 CPU/内存/磁盘/网络/控制面组件 告警，结合 Alertmanager 进行分组、抑制与通知（如邮件/企业微信/钉钉/Slack）。

声明：本文内容由网友自发贡献，本站不承担相应法律责任。对本内容有异议或投诉，请联系2913721942#qq.com核实处理，我们将尽快回复您，谢谢合作！

若转载请注明出处： Kubernetes集群在CentOS上的监控方法
本文地址： https://pptw.com/jishu/754312.html

Kubernetes在CentOS上的故障排查技巧 centos上k8s部署常见问题