可观测性与运维 第11页
Alertmanager 高级配置:接入钉钉告警与静默管理-AI运维探索者

Alertmanager 高级配置:接入钉钉告警与静默管理

一、基于钉钉的报警媒介 [自定义机器人安全设置 - 钉钉开放平台 (dingtalk.com)](https://open.dingtalk.com/document/robots/customize-robot-security-settings) [创建自定义机器人 - 钉钉开...
Prometheus 黑盒监控:DNS 探测配置实战-AI运维探索者

Prometheus 黑盒监控:DNS 探测配置实战

一、DNS 监控 参数解释: 更新 `prometheus-config.yaml`配置 : 打开 Prometheus 的 Target 页面,就会看到 上面定义的 `blackbox-k8s-service-dns` 任务; graph 页面,可以使用 `probe_succes...
Prometheus:更新consul配置到Prometheus-AI运维探索者

Prometheus:更新consul配置到Prometheus

一、编辑prometheus_config.yaml,在 scrape_configs: 下面增加,如下。 **说明:因为consul-ui服务地址如果重启会发生变化,所以这里选择服务名** 二、重新导入配置 三、重启Prometheus服务 四...
基于Kubernetes的日志收集系统:搭建Loki 日志收集系统-AI运维探索者
Zabbix 6.x 生产部署快速实践指南-AI运维探索者

Zabbix 6.x 生产部署快速实践指南

一、主机规划 1.1 推荐配置 Zabbix6.0官方配置要求: <col style="width: 19%
Kube-State-Metrics 入门:K8S 集群层监控的基础组件-AI运维探索者

Kube-State-Metrics 入门:K8S 集群层监控的基础组件

一、KubeStateMetrics简介 kube-state-metrics 是一个 Kubernetes 组件,它通过查询 Kubernetes 的 API 服务 器,收集关于 Kubernetes 中各种资源(如节点、pod、服务等)的状态信息,并将这些...
PrometheusRule入门:概念、结构与关键字段解析-AI运维探索者

PrometheusRule入门:概念、结构与关键字段解析

一、PrometheusRule是什么 `PrometheusRule` 是 Prometheus Operator 中的一个自定义资源(Custom Resource),它用于定义 Prometheus 在监控系统中的规则和警报规则。 Prometheus 是一种开源的...
SkyWalking 入门:整体架构、APM 对比与核心特性-AI运维探索者

SkyWalking 入门:整体架构、APM 对比与核心特性

一、为什么需要链路追踪? 随着云计算和微服务架构的普及,越来越多的企业开始采用分布式架构开发应用程序。 在这种复杂的架构中,应用程序的性能问题变得更加棘手,传统的单机监测工具已经无法...
Elasticsearch运维API实战:health、settings、allocation与reroute-AI运维探索者

Elasticsearch运维API实战:health、settings、allocation与reroute

一、ES集群健康状态API(health) 1、安装jq工具 2、测试取数据 (1)取全部数据 相关数据说明: 参数
Prometheus 自动伸缩:Metrics Server 与 HPA 实战-AI运维探索者

Prometheus 自动伸缩:Metrics Server 与 HPA 实战

一、背景 - Kubernetes集群规模大、动态变化快,而且容器化应用部署和服务治理机制的普 及,传统的基础设施监控方式已经无法满足Kubernetes集群的监控需求。 - 需要使用专门针对Kubernetes集群...