监控告警 第2页
Zabbix 自动接入与分布式监控实践-AI运维探索者

Zabbix 自动接入与分布式监控实践

一、自动添加主机 自动添加主机并关联模板 | 自动添加主机方案 | 含义 | 应用场景 | |----------------------|---------------------------------------------------------------------|-------...
头像3年前
03615
Alertmanager路由规则详解:分组、匹配与发送策略-AI运维探索者

Alertmanager路由规则详解:分组、匹配与发送策略

一、Route 是 Alertmanager 中最关键的配置之一,它决定一条告警会如何分组、匹配到哪个子路由,以及最终发送给谁。本文围绕 group_by、match、match_re、matchers 和 continue 等字段讲清路由...
头像3年前
03815
Prometheus静态配置监控Windows主机实战-AI运维探索者

Prometheus静态配置监控Windows主机实战

一、Prometheus监控非云原生应用流程 上面流程图说明: 针对非云原生应用一般本身不存在一个/metrics接口,我们需要配置Exporter来指向非云原生应用Service(集群外部的应用也需要指定具体IP)...
头像3年前
04314
Prometheus 自定义监控:使用 Process Exporter 监控进程-AI运维探索者

Prometheus 自定义监控:使用 Process Exporter 监控进程

一、process-exporter进程监控 1.1 模拟sd-api进程 模拟启动两个进程 1.2 创建挂载目录 1.3 配置安装process-exporter 1.4 配置文件 - 匹配 sd-api 的进程(ps -ef | grep sd-api) - 通过proce...
头像3年前
04614
PromQL入门:基础语法与时间范围查询-AI运维探索者

PromQL入门:基础语法与时间范围查询

一、PromQL 是使用 Prometheus 的核心能力,只有理解即时向量、范围向量、标签过滤和时间偏移等基础语法,后续告警与可视化配置才有抓手。本文通过一组常用查询示例带你快速入门。 Prometheus ...
头像3年前
03614
Prometheus:AlertManager配置钉钉告警-AI运维探索者

Prometheus:AlertManager配置钉钉告警

一、准备工作。 1.1 创建钉钉机器人(只能在内部群里添加) 点击【群设置】-【机器人】-【添加机器人】 选择【自定义】-【添加】 定义机器人名字,选择【加签】-【完成】。需要复制加签字符串SEC7...
头像3年前
03814
Prometheus:kube-state-metrics和metrics-server-AI运维探索者

Prometheus:kube-state-metrics和metrics-server

一、kube-state-metrics 1、介绍 Kube-state-metrics 是一个Kubernetes组件,它提供了一种将 Kubernetes 集群中各资源状态信息转化为可监控指标的方法,以帮助用户更好地理解和监控集群的健康状...
头像3年前
04514
MongoDB 监控实践-AI运维探索者

MongoDB 监控实践

- 一、常用的监控工具及手段 - MongoDB Ops Manager - Percona Monitoring and Management(PMM) - 通用监控平台 - 程序脚本 一、如何获取监控数据 监控信息的来源: - db.serverStatus()(主要) -...
头像2年前
02114
Prometheus:使用Grafana实现监控指标可视化-AI运维探索者

Prometheus:使用Grafana实现监控指标可视化

一、安装grafana-10.1.4版本 前期准备工作:安装helm和SC 1、下载包 2、修改values.yaml (1)定义storageClass: 'nfs-client' (2)执行`/image:`搜索镜像,替换国外镜像为国内镜像 替换docker.io/...
头像3年前
04013
Prometheus+Alertmanager实战:域名访问延迟告警-AI运维探索者

Prometheus+Alertmanager实战:域名访问延迟告警

一、创建一个 PrometheusRule 上面参数说明: * `apiVersion`: 这个字段指定了使用的 Kubernetes API 版本,`monitoring.coreos.com/v1` 表示使用了 Prometheus Operator 中的自定义资源版本 * ...
头像3年前
04313