监控告警 第8页
Prometheus 自定义监控:接入云主机 Node Exporter-AI运维探索者

Prometheus 自定义监控:接入云主机 Node Exporter

一、虚机数据抓取 1.1 配置安装node-exporter 验证数据收集: 1.2 配置prometheus-config.yaml 按上面方法重载 Prometheus,打开 Prometheus 的 Target 页面,就会看到 上面定义的 `other-ECS` ...
头像3年前
03410
Prometheus:AlertManager配置钉钉告警-AI运维探索者

Prometheus:AlertManager配置钉钉告警

一、准备工作。 1.1 创建钉钉机器人(只能在内部群里添加) 点击【群设置】-【机器人】-【添加机器人】 选择【自定义】-【添加】 定义机器人名字,选择【加签】-【完成】。需要复制加签字符串SEC7...
头像3年前
03814
Alertmanager自定义邮件模板实战-AI运维探索者

Alertmanager自定义邮件模板实战

一、修改alertmanager-secret.yaml添加自定义模板 添加告警模板 **注意:wechat.tmpl和alertmanager.yaml需要对齐** 在templates字段添加模板位置 配置wechat-ops receiver使用该模板 配置警报重...
头像3年前
0288
Prometheus 黑盒监控:TCP 探测配置实战-AI运维探索者

Prometheus 黑盒监控:TCP 探测配置实战

一、TCP检测 按上面方法重载 Prometheus,打开 Prometheus 的 Target 页面,就会看到 上面定义的 `service-tcp-probe` 任务 则需要在service上添加注释必须有以下三行 示例:Java应用的svc:
头像3年前
03410
ServiceMonitor入门:定义、价值与工作机制-AI运维探索者

ServiceMonitor入门:定义、价值与工作机制

一、ServiceMonitor是什么 ServiceMonitor 是 Prometheus Operator 提供的一种 Kubernetes 自定义资源(Custom Resource),用于告诉 Prometheus 如何监控服务(Service)。它是 Prometheus Ope...
头像3年前
05113
Prometheus Operator 自定义监控:常规部署 Ingress-Nginx-AI运维探索者

Prometheus Operator 自定义监控:常规部署 Ingress-Nginx

一、抓取自定义资源 -- 常规部署的Ingress-nginx 1.1 修改Ingress Service 1.2 修改Ingress deployment 1.3 测试验证 1.4 新增Ingress ServiceMonitor 1.5 添加报警规则 二、导入Grafana模板 `I...
头像3年前
04610
Prometheus架构与指标采集机制解析-AI运维探索者

Prometheus架构与指标采集机制解析

一、Prometheus架构 Prometheus 生态系统由多个组件组成,其中架构图如下: 关于每个组件的用途如下: * **Prometheus Server(Prometheus 服务器):**Prometheus Server 是核心组件,负责数据...
头像3年前
04915
Zabbix 自动接入与分布式监控实践-AI运维探索者

Zabbix 自动接入与分布式监控实践

一、自动添加主机 自动添加主机并关联模板 | 自动添加主机方案 | 含义 | 应用场景 | |----------------------|---------------------------------------------------------------------|-------...
头像3年前
03615
大模型运维监控入门:命令行工具、Prometheus 与 Grafana-AI运维探索者

大模型运维监控入门:命令行工具、Prometheus 与 Grafana

一、先用命令行工具做最小监控 1.1 NVIDIA GPU:`nvidia-smi` 这是最基础也最常用的 NVIDIA GPU 监控工具,前提是已经安装好显卡驱动。 常见用法: 它最适合做: * 快速排查显存占用; * 看当前...
头像7个月前
0488
Prometheus 节点监控:部署 node-exporter 并抓取主机指标-AI运维探索者

Prometheus 节点监控:部署 node-exporter 并抓取主机指标

一、node-exporter Node Exporter 是 Prometheus 官方提供的一个节点资源采集组件,可以用于收集服务器节点的数据,如 CPU频率信息、磁盘IO统计、剩余可用内存等等。 **部署创建:** 由于是针对...
头像3年前
0436