可观测性与运维 第13页
ElastAlert 告警实战:EFK 日志平台的监控与多规则告警-AI运维探索者

ElastAlert 告警实战:EFK 日志平台的监控与多规则告警

一、前言 1.1 产生背景 ElastAlert最初由Yelp开发并开源,旨在解决实时监控和告警的需求。由于Elasticsearch 的日志处理能力强大,许多组织和企业使用它来存储和分析大量的日志数据。然而,仅仅...
Alertmanager 高级配置:接入企业微信告警-AI运维探索者

Alertmanager 高级配置:接入企业微信告警

一、基于企业微信的报警媒介 - **实时告警通知**:企业微信/钉钉等即时通信工具能够实现实时的告警通知,使得团队 成员能够及时响应和解决问题。 - **通知范围更广**:基于企业微信/钉钉的告警...
Prometheus 黑盒监控入门:部署 Blackbox Exporter-AI运维探索者

Prometheus 黑盒监控入门:部署 Blackbox Exporter

一、Blackbox Exporter 部署 `Exporter Configmap` 定义,可以参考下面两个链接 https://github.com/prometheus/blackbox_exporter/blob/master/CONFIGURATION.md https://github.com/prometheu...
Promtail 进阶:高级特性、配置项与场景案例-AI运维探索者

Promtail 进阶:高级特性、配置项与场景案例

一、如何评价一款 “好” 的日志收集解决方案? 首先,优秀的日志收集解决方案应该能够 **适配** 各种 **复杂** 的场景。 其次,功能的 **全面性** 也是一个重要的考虑因素。如:具备日志过滤、...
生产级日志平台架构:亿级流量场景与云原生日志采集方案-AI运维探索者

生产级日志平台架构:亿级流量场景与云原生日志采集方案

一、生产级亿级流量日志平台架构解析 1.1 生产级亿级流量日志平台架构图 1.1 架构核心组件及流程 1、日志生成层(Kubernetes + e-service) * **Kubernetes** 作为容器编排平台,管理业务微服务...
Prometheus 监控平台入门:架构、时序数据与适用场景-AI运维探索者

Prometheus 监控平台入门:架构、时序数据与适用场景

一、打造基于Prometheus的全方位监控平台 1.1 前言 **官网地址:**https://prometheus.io/docs/prometheus/latest/getting_started/ - 灵活的时间序列数据库; - 定制各式各样的监控规则; - Pr...
Zabbix Agent 与多场景监控实践-AI运维探索者

Zabbix Agent 与多场景监控实践

一、zabbix客户端概述 zabbix客户端 应用场景 <tbod
Filebeat实战:按命名空间采集Kubernetes日志-AI运维探索者

Filebeat实战:按命名空间采集Kubernetes日志

一、使用Filebeat收集指定空间的日志 有时候可能只需要收集部分空间的日志,而并不是收集所有的日志,此时通过修改 Filebeat的配置,实现只收集部分空间的日志。 假如只收集 krm 和 kube-system...
AlertManager告警分组和告警抑制:抑制-AI运维探索者

AlertManager告警分组和告警抑制:抑制

一、示例1: 将如下配置增加到alertmanager_config.yaml里 **说明:当集群中的某一个主机节点异常宕机导致告警NodeDown被触发,同时在告警规则中定义了告警级别severity=Critical。由于主机异常...
Prometheus Operator 自定义监控:Helm 版 Ingress-Nginx-AI运维探索者

Prometheus Operator 自定义监控:Helm 版 Ingress-Nginx

一、自定义资源 Prometheus-operator 通过定期循环watch apiserver,获取到CRD资源(比如 servicemonitor)的创建或者更新,将配置更新及时应用到运行中的prometheus pod 中转换成标准promethes...