告警通知 第3页
Prometheus 对接 Alertmanager:告警配置与测试-AI运维探索者

Prometheus 对接 Alertmanager:告警配置与测试

一、Prometheus添加告警配置 修改ConfigMap资源文件prometheus-config.yaml,改动内容如下: - 添加AlertManager服务器地址 - 指定告警规则文件路径位置 - 添加Prometheus中触发告警的告警规则(...
头像3年前
0349
SkyWalking 告警实战:默认规则、动态配置与告警媒介-AI运维探索者

SkyWalking 告警实战:默认规则、动态配置与告警媒介

一、基于Skywalking的告警概述 官方指南:[apache/skywalking · GitHub](https://github.com/apache/skywalking/blob/master/docs/en/setup/backend/backend-alarm.md) **基本原理&告警媒...
头像3年前
03215
Alertmanager入门:核心概念与主要功能-AI运维探索者

Alertmanager入门:核心概念与主要功能

一、Alertmanager基本概念 Prometheus 警报分为两部分。Prometheus 服务器中的警报规则将警报发送到警报管理器。然后,Alertmanager 管理这些警报,包括沉默、抑制、聚合以及通过电子邮件、待命...
头像3年前
0225
Prometheus+Alertmanager实战:MySQL连接失败告警-AI运维探索者

Prometheus+Alertmanager实战:MySQL连接失败告警

一、监控数据库 在实现告警之前,我们需要先实现监控。下面通过Exporter实现对数据库的监控: 具体如何实现对数据库的监控,可参考:[Prometheus实战---监控非云原生应用Mysql](https://zhuanla...
头像3年前
03111
SkyWalking 自定义告警:OAL 指标扩展与接口异常告警-AI运维探索者

SkyWalking 自定义告警:OAL 指标扩展与接口异常告警

- 一、为什么需要自定义告警? - 1、满足不同的监控需求; - 2、结合链路追踪及告警规则,更高效解决问题; 一、场景定义 1.1 需求 **场景描述**:公司主营业务为在线购物网站,那么 HTTP 服务...
头像3年前
02915
AlertManager告警分组和告警抑制:告警分组-AI运维探索者

AlertManager告警分组和告警抑制:告警分组

一、为了避免告警轰炸,将同类型的告警规则定位一组,比如将所有硬件相关的都归类到hardware,包括负载、cpu使用率、内存使用率、硬盘等。 当此类告警被触发,在一个“group_wait”时间范围内,...
头像3年前
0347
Prometheus+Alertmanager实战:域名访问延迟告警-AI运维探索者

Prometheus+Alertmanager实战:域名访问延迟告警

一、创建一个 PrometheusRule 上面参数说明: * `apiVersion`: 这个字段指定了使用的 Kubernetes API 版本,`monitoring.coreos.com/v1` 表示使用了 Prometheus Operator 中的自定义资源版本 * ...
头像3年前
04313
SkyWalking 高级告警配置:独立规则与复合规则-AI运维探索者

SkyWalking 高级告警配置:独立规则与复合规则

一、SkyWalking告警规则 [Alarm | Apache SkyWalking](https://skywalking.apache.org/docs/main/v9.0.0/en/setup/backend/backend-alarm/) 告警规则有两种类型,单独规则(Individual Rules)...
头像3年前
02811
AlertManager告警分组和告警抑制:抑制-AI运维探索者

AlertManager告警分组和告警抑制:抑制

一、示例1: 将如下配置增加到alertmanager_config.yaml里 **说明:当集群中的某一个主机节点异常宕机导致告警NodeDown被触发,同时在告警规则中定义了告警级别severity=Critical。由于主机异常...
头像3年前
0225