可观测性与运维共139篇
Kubernetes中高可用安装Prometheus实战-AI运维探索者

Kubernetes中高可用安装Prometheus实战

一、安装方式介绍 Prometheus 可以以多种方式进行安装和部署,适应不同的需求和环境。以下是一些常见的 Prometheus 安装方式(更多信息请参考[Prometheus官网](https://prometheus.io/docs/prome...
SkyWalking 告警实战:默认规则、动态配置与告警媒介-AI运维探索者

SkyWalking 告警实战:默认规则、动态配置与告警媒介

一、基于Skywalking的告警概述 官方指南:[apache/skywalking · GitHub](https://github.com/apache/skywalking/blob/master/docs/en/setup/backend/backend-alarm.md) **基本原理&告警媒...
Fluentd 案例实战:模式匹配与多场景配置示例-AI运维探索者

Fluentd 案例实战:模式匹配与多场景配置示例

一、案例分享 1.1 场景一 - 将 /root/my.txt文件中的日志数据按照指定的格式解析后,通过HTTP POST方法 发送到http://localhost:9090/地址。 - 发送的数据格式为JSON,每3秒发送一次。 fluentd...
Zabbix API、性能优化与高可用升级思路-AI运维探索者

Zabbix API、性能优化与高可用升级思路

一、zbx api 1.1 api概述 api Application Programming Interface 应用程序编程接口 (相当于是shell函数作用) api接口应用场景: 发送企业微信消息,人脸识别,短信验证,身份验证 使用第3方功能即...
Prometheus Operator 优化:持久化、规则与 Alertmanager 配置-AI运维探索者

Prometheus Operator 优化:持久化、规则与 Alertmanager 配置

一、数据持久化 1.1 prometheus数据持久化 默认Prometheus和Grafana不做数据持久化,那么服务重启以后配置的Dashboard、 账号密码、监控数据等信息将会丢失,所以做数据持久化也是很有必要的。 ...
SkyWalking 自定义告警:OAL 指标扩展与接口异常告警-AI运维探索者

SkyWalking 自定义告警:OAL 指标扩展与接口异常告警

- 一、为什么需要自定义告警? - 1、满足不同的监控需求; - 2、结合链路追踪及告警规则,更高效解决问题; 一、场景定义 1.1 需求 **场景描述**:公司主营业务为在线购物网站,那么 HTTP 服务...
PromQL实战:操作符与常用函数示例-AI运维探索者

PromQL实战:操作符与常用函数示例

一、PromQL 操作符 Prometheus 的查询语言支持基本的逻辑和算术运算符。对于两个即时向量之间的运算, 可以修改匹配行为。 Prometheus 中存在以下二元算术运算符: - `+` - `-` - `*` - `/` - `...
Zabbix 主机接入流程与常见故障排查-AI运维探索者

Zabbix 主机接入流程与常见故障排查

一、整体流程 1、安装客户端及修改配置文件,测试 2、web页面添加主机,关联模板 3、调试 二、配置客户端 1、配置zbx源 2、安装客户端 | \[root@zabbix-server01 ~\]yum install -y zabbix-agent...
Prometheus架构与指标采集机制解析-AI运维探索者

Prometheus架构与指标采集机制解析

一、Prometheus架构 Prometheus 生态系统由多个组件组成,其中架构图如下: 关于每个组件的用途如下: * **Prometheus Server(Prometheus 服务器):**Prometheus Server 是核心组件,负责数据...
Alertmanager路由规则详解:分组、匹配与发送策略-AI运维探索者

Alertmanager路由规则详解:分组、匹配与发送策略

一、Route 是 Alertmanager 中最关键的配置之一,它决定一条告警会如何分组、匹配到哪个子路由,以及最终发送给谁。本文围绕 group_by、match、match_re、matchers 和 continue 等字段讲清路由...