监控告警 第9页
PrometheusAlert 部署实战:控制器部署与模板管理-AI运维探索者

PrometheusAlert 部署实战:控制器部署与模板管理

一、部署PrometheusAlert **获取企业微信机器人webhook的key值** * https://qyapi.weixin.qq.com/cgi-bin/webhook/send?key=9d8866d6-ab55-48f3-8336-786325667640 **为防止模版数据丢失,增加...
头像3年前
02415
Alertmanager静默告警实战:计划内维护如何暂停通知-AI运维探索者

Alertmanager静默告警实战:计划内维护如何暂停通知

一、在计划内维护窗口,如果仍然持续接收告警通知,只会增加噪音并干扰判断。本文介绍如何通过 Alertmanager 的 Silence 功能为指定告警分组临时静默通知。 假如正在维护,我们不想一直收到告警...
头像3年前
02315
Zabbix 配置详解与自定义监控实践-AI运维探索者

Zabbix 配置详解与自定义监控实践

一、zbx配置详解 1.1 服务端配置 文件目录 <tbody
头像3年前
02313
Alertmanager入门:核心概念与主要功能-AI运维探索者

Alertmanager入门:核心概念与主要功能

一、Alertmanager基本概念 Prometheus 警报分为两部分。Prometheus 服务器中的警报规则将警报发送到警报管理器。然后,Alertmanager 管理这些警报,包括沉默、抑制、聚合以及通过电子邮件、待命...
头像3年前
0225
AlertManager告警分组和告警抑制:抑制-AI运维探索者

AlertManager告警分组和告警抑制:抑制

一、示例1: 将如下配置增加到alertmanager_config.yaml里 **说明:当集群中的某一个主机节点异常宕机导致告警NodeDown被触发,同时在告警规则中定义了告警级别severity=Critical。由于主机异常...
头像3年前
0225
Prometheus 黑盒监控:K8S 内部 HTTP 探测-AI运维探索者

Prometheus 黑盒监控:K8S 内部 HTTP 探测

一、HTTP 监控(K8S 内部发现方法) 1.1 自定义发现 `Service` 监控 `端口` 和 `路径` 可以如下设置: 然后,需要在 `Service` 中配置这样的 `annotation` : 示例:Java应用的svc: 按上面方法...
头像3年前
02212
Grafana 监控大盘实战:部署、数据源与企业看板-AI运维探索者

Grafana 监控大盘实战:部署、数据源与企业看板

一、Grafana简述 Grafana 是一个开源的度量分析与可视化工具。提供查询、可视化、报警和指标展示等 功能,能灵活创建图表、仪表盘等可视化界面。 **主要功能:** - **可视化**: 提供多种可选择...
头像3年前
02110
Prometheus:配置Prometheus告警规则-AI运维探索者

Prometheus:配置Prometheus告警规则

一、添加Prometheus告警规则 找到rules.yaml,将 rules.yaml: '{}' 改为以下内容 上面参数说明: * `groups` 是一个规则组的列表,每个规则组包含一组相关的告警规则。 * `name: hostStatsAlert...
头像3年前
02110
Prometheus:AlertManager配置企业微信告警-AI运维探索者

Prometheus:AlertManager配置企业微信告警

一、准备工作。 1.1 注册完成企业微信 步骤略 1.2 创建应用 点击【应用管理】-【创建应用】 填写【应用名称】、【应用介绍(选填)】并上传应用Logo后,点击【创建应用】 1.3 获取企业ID 点击【我...
头像3年前
0217
MongoDB 监控实践-AI运维探索者

MongoDB 监控实践

- 一、常用的监控工具及手段 - MongoDB Ops Manager - Percona Monitoring and Management(PMM) - 通用监控平台 - 程序脚本 一、如何获取监控数据 监控信息的来源: - db.serverStatus()(主要) -...
头像2年前
02114