排序
Alertmanager 高级配置:接入钉钉告警与静默管理
一、基于钉钉的报警媒介 [自定义机器人安全设置 - 钉钉开放平台 (dingtalk.com)](https://open.dingtalk.com/document/robots/customize-robot-security-settings) [创建自定义机器人 - 钉钉开...
Prometheus 自动伸缩:Metrics Server 与 HPA 实战
一、背景 - Kubernetes集群规模大、动态变化快,而且容器化应用部署和服务治理机制的普 及,传统的基础设施监控方式已经无法满足Kubernetes集群的监控需求。 - 需要使用专门针对Kubernetes集群...
Prometheus Operator 优化:持久化、规则与 Alertmanager 配置
一、数据持久化 1.1 prometheus数据持久化 默认Prometheus和Grafana不做数据持久化,那么服务重启以后配置的Dashboard、 账号密码、监控数据等信息将会丢失,所以做数据持久化也是很有必要的。 ...
Dify+Prometheus MCP:告警体系与AIOps智能体
一、环境准备 说明:安装Prometheus+alertmanager的机器配置如下 CPU:2C 内存:4G 磁盘:40G 系统:Rocky9 1.1 安装Prometheus 下载包 如果该链接无法下载,可以使用代理 解压 编辑systemd脚本...
PromQL实战:操作符与常用函数示例
一、PromQL 操作符 Prometheus 的查询语言支持基本的逻辑和算术运算符。对于两个即时向量之间的运算, 可以修改匹配行为。 Prometheus 中存在以下二元算术运算符: - `+` - `-` - `*` - `/` - `...
Prometheus:安装consul服务
- 一、参考10.2.1 安装Helm - 二、参考8.3 NFS存储搭建NFS服务 一、参考8.4 API资源对象StorageClass安装SC 二、在k8s里起一个consul服务 下载包 修改values.yaml,搜索storageClass,storageCla...
GPU 监控进阶:Prometheus 接入 dcgm-exporter 与显卡大盘
一、为什么还需要 `dcgm-exporter` `node_exporter` 能看到系统级指标,但看不到足够细的 GPU 运行细节。而大模型推理和训练最关心的常常是: * GPU 利用率; * 显存占用; * 温度和功耗; * 显...
ServiceMonitor发现不到监控目标时怎么排查
一、检查kube-controller-manager的Service Monitor是否成功创建,观察到已成功创建 二、检查kube-controller-manager的Service Monitor标签是否配置正确,观察到已配置 使用kube-controller-ma...
Prometheus+Alertmanager实战:MySQL连接失败告警
一、监控数据库 在实现告警之前,我们需要先实现监控。下面通过Exporter实现对数据库的监控: 具体如何实现对数据库的监控,可参考:[Prometheus实战---监控非云原生应用Mysql](https://zhuanla...
Blackbox Exporter监控域名实战
一、创建一个空文件,然后通过该文件创建一个 Secret,那么这个 Secret 即可作为 Prometheus 的静态配置 查看 Secret是否创建完成 二、创建完 Secret 后,需要编辑下 Prometheus 配置 三、参考[...











