可观测性与运维 第2页
SkyWalking 自定义告警:OAL 指标扩展与接口异常告警-AI运维探索者

SkyWalking 自定义告警:OAL 指标扩展与接口异常告警

- 一、为什么需要自定义告警? - 1、满足不同的监控需求; - 2、结合链路追踪及告警规则,更高效解决问题; 一、场景定义 1.1 需求 **场景描述**:公司主营业务为在线购物网站,那么 HTTP 服务...
PromQL实战:操作符与常用函数示例-AI运维探索者

PromQL实战:操作符与常用函数示例

一、PromQL 操作符 Prometheus 的查询语言支持基本的逻辑和算术运算符。对于两个即时向量之间的运算, 可以修改匹配行为。 Prometheus 中存在以下二元算术运算符: - `+` - `-` - `*` - `/` - `...
Zabbix 主机接入流程与常见故障排查-AI运维探索者

Zabbix 主机接入流程与常见故障排查

一、整体流程 1、安装客户端及修改配置文件,测试 2、web页面添加主机,关联模板 3、调试 二、配置客户端 1、配置zbx源 2、安装客户端 | \[root@zabbix-server01 ~\]yum install -y zabbix-agent...
Prometheus架构与指标采集机制解析-AI运维探索者

Prometheus架构与指标采集机制解析

一、Prometheus架构 Prometheus 生态系统由多个组件组成,其中架构图如下: 关于每个组件的用途如下: * **Prometheus Server(Prometheus 服务器):**Prometheus Server 是核心组件,负责数据...
Alertmanager路由规则详解:分组、匹配与发送策略-AI运维探索者

Alertmanager路由规则详解:分组、匹配与发送策略

一、Route 是 Alertmanager 中最关键的配置之一,它决定一条告警会如何分组、匹配到哪个子路由,以及最终发送给谁。本文围绕 group_by、match、match_re、matchers 和 continue 等字段讲清路由...
Zabbix 自动接入与分布式监控实践-AI运维探索者

Zabbix 自动接入与分布式监控实践

一、自动添加主机 自动添加主机并关联模板 | 自动添加主机方案 | 含义 | 应用场景 | |----------------------|---------------------------------------------------------------------|-------...
Alertmanager配置文件解析:Global、Templates、Route、Inhibit与Receivers-AI运维探索者

Alertmanager配置文件解析:Global、Templates、Route、Inhibit与Receivers

一、想把 Alertmanager 用好,首先要读懂它的配置文件结构。本文结合示例配置,拆解 Global、Templates、Route、Inhibit Rules 和 Receivers 等核心块的职责与常见字段。 在介绍Alertmanager配...
Prometheus静态配置监控Windows主机实战-AI运维探索者

Prometheus静态配置监控Windows主机实战

一、Prometheus监控非云原生应用流程 上面流程图说明: 针对非云原生应用一般本身不存在一个/metrics接口,我们需要配置Exporter来指向非云原生应用Service(集群外部的应用也需要指定具体IP)...
ECK入门与核心资源:Elasticsearch、Kibana和Logstash配置详解-AI运维探索者

ECK入门与核心资源:Elasticsearch、Kibana和Logstash配置详解

一、云原生日志框架ECK介绍 官网链接:[Elastic Cloud on Kubernetes | Elastic Docs](https://www.elastic.co/docs/deploy-manage/deploy/cloud-on-k8s) Elastic Cloud on Kubernetes(CCK)是El...
基于Kubernetes的日志收集系统:搭建Loki 日志收集系统-AI运维探索者