可观测性与运维 第11页
AlertManager告警分组和告警抑制:告警分组-AI运维探索者

AlertManager告警分组和告警抑制:告警分组

一、为了避免告警轰炸,将同类型的告警规则定位一组,比如将所有硬件相关的都归类到hardware,包括负载、cpu使用率、内存使用率、硬盘等。 当此类告警被触发,在一个“group_wait”时间范围内,...
Alertmanager入门:核心概念与主要功能-AI运维探索者

Alertmanager入门:核心概念与主要功能

一、Alertmanager基本概念 Prometheus 警报分为两部分。Prometheus 服务器中的警报规则将警报发送到警报管理器。然后,Alertmanager 管理这些警报,包括沉默、抑制、聚合以及通过电子邮件、待命...
Alertmanager 高级配置:接入钉钉告警与静默管理-AI运维探索者

Alertmanager 高级配置:接入钉钉告警与静默管理

一、基于钉钉的报警媒介 [自定义机器人安全设置 - 钉钉开放平台 (dingtalk.com)](https://open.dingtalk.com/document/robots/customize-robot-security-settings) [创建自定义机器人 - 钉钉开...
Alertmanager 高级配置:接入企业微信告警-AI运维探索者

Alertmanager 高级配置:接入企业微信告警

一、基于企业微信的报警媒介 - **实时告警通知**:企业微信/钉钉等即时通信工具能够实现实时的告警通知,使得团队 成员能够及时响应和解决问题。 - **通知范围更广**:基于企业微信/钉钉的告警...
Alertmanager 入门与部署:告警分组、抑制和邮件通知-AI运维探索者

Alertmanager 入门与部署:告警分组、抑制和邮件通知

一、Alertmanager简介 - 1.1 AlertManager常用的功能 - **抑制**:指的是当某一告警信息发送后,可以停止由此告警引发的其它告警,避免相 同的告警信息重复发送。 - **静默**:静默也是一种机制...
基于Kubernetes的日志收集系统:搭建Loki 日志收集系统-AI运维探索者
Promtail 进阶:高级特性、配置项与场景案例-AI运维探索者

Promtail 进阶:高级特性、配置项与场景案例

一、如何评价一款 “好” 的日志收集解决方案? 首先,优秀的日志收集解决方案应该能够 **适配** 各种 **复杂** 的场景。 其次,功能的 **全面性** 也是一个重要的考虑因素。如:具备日志过滤、...
Loki安装、查询语法与环境清理-AI运维探索者

Loki安装、查询语法与环境清理

一、前言 本文主要以下几方面介绍Loki: * Loki安装 * Loki语法 * Loki清理 二、Loki安装 提前下载好安装文件 1.创建独立命名空间 2.添加并更新 Loki 的 Helm 仓库 3.创建 Loki Stack 上面配置参...
Loki 场景实践:虚机日志、Java 应用日志与生产优化-AI运维探索者

Loki 场景实践:虚机日志、Java 应用日志与生产优化

- 一、背景 - 非K8S集群节点,单独部署某个特殊应用或Job的虚机; - 各个应用间的日志数据非同一目录; - 当前K8S环境中已经部署了Loki日志管理系统; 一、非K8S集群虚机日志收集 1.1 安装和配...
Fluentd 高级配置:source、match、buffer、filter 与 label-AI运维探索者

Fluentd 高级配置:source、match、buffer、filter 与 label

一、配置文件 在 Fluentd 的配置文件中,有几个常用的关键字和组件,包括 source 、 match 、filter 、 system 、 label 和 @include 。 * 1.source :用于定义 Fluentd 接收数据的来源 * 2.mat...