可观测性与运维-AI运维探索者

Kubernetes中高可用安装Prometheus实战

一、安装方式介绍 Prometheus 可以以多种方式进行安装和部署，适应不同的需求和环境。以下是一些常见的 Prometheus 安装方式(更多信息请参考[Prometheus官网](https://prometheus.io/docs/prome...

# Kubernetes # 云原生 # 监控告警

3年前

05115

SkyWalking 告警实战：默认规则、动态配置与告警媒介

一、基于Skywalking的告警概述官方指南：[apache/skywalking · GitHub](https://github.com/apache/skywalking/blob/master/docs/en/setup/backend/backend-alarm.md) **基本原理&告警媒...

# 配置管理 # 运维实践 # 告警通知

3年前

03715

Fluentd 案例实战：模式匹配与多场景配置示例

一、案例分享 1.1 场景一 - 将 /root/my.txt文件中的日志数据按照指定的格式解析后，通过HTTP POST方法发送到http://localhost:9090/地址。 - 发送的数据格式为JSON，每3秒发送一次。 fluentd...

# 配置管理 # 运维实践 # 日志采集

3年前

04415

Zabbix API、性能优化与高可用升级思路

一、zbx api 1.1 api概述 api Application Programming Interface 应用程序编程接口 (相当于是shell函数作用) api接口应用场景: 发送企业微信消息，人脸识别,短信验证,身份验证使用第3方功能即...

# 监控告警 # 高可用 # 生产部署

3年前

03515

Prometheus Operator 优化：持久化、规则与 Alertmanager 配置

一、数据持久化 1.1 prometheus数据持久化默认Prometheus和Grafana不做数据持久化，那么服务重启以后配置的Dashboard、账号密码、监控数据等信息将会丢失，所以做数据持久化也是很有必要的。 ...

# 监控告警 # Prometheus # 指标监控

3年前

03715

SkyWalking 自定义告警：OAL 指标扩展与接口异常告警

- 一、为什么需要自定义告警？ - 1、满足不同的监控需求； - 2、结合链路追踪及告警规则，更高效解决问题；一、场景定义 1.1 需求 **场景描述**：公司主营业务为在线购物网站，那么 HTTP 服务...

# 告警通知 # 事件响应 # 链路追踪

3年前

03215

PromQL实战：操作符与常用函数示例

一、PromQL 操作符 Prometheus 的查询语言支持基本的逻辑和算术运算符。对于两个即时向量之间的运算，可以修改匹配行为。 Prometheus 中存在以下二元算术运算符： - `+` - `-` - `*` - `/` - `...

# 监控告警 # Prometheus # 指标监控

3年前

03715

Zabbix 主机接入流程与常见故障排查

一、整体流程 1、安装客户端及修改配置文件,测试 2、web页面添加主机，关联模板 3、调试二、配置客户端 1、配置zbx源 2、安装客户端 | \[root@zabbix-server01 ~\]yum install -y zabbix-agent...

# 监控告警 # 生产部署 # Zabbix

3年前

04915

Prometheus架构与指标采集机制解析

一、Prometheus架构 Prometheus 生态系统由多个组件组成，其中架构图如下：关于每个组件的用途如下： * **Prometheus Server（Prometheus 服务器）：**Prometheus Server 是核心组件，负责数据...

# 监控告警 # Prometheus # 指标监控

3年前

05115

Alertmanager路由规则详解：分组、匹配与发送策略

一、Route 是 Alertmanager 中最关键的配置之一，它决定一条告警会如何分组、匹配到哪个子路由，以及最终发送给谁。本文围绕 group_by、match、match_re、matchers 和 continue 等字段讲清路由...

# 监控告警 # Prometheus # 指标监控

3年前

04315

12 3…14 下一页跳转