排序
Zabbix 主机接入流程与常见故障排查
一、整体流程 1、安装客户端及修改配置文件,测试 2、web页面添加主机,关联模板 3、调试 二、配置客户端 1、配置zbx源 2、安装客户端 | \[root@zabbix-server01 ~\]yum install -y zabbix-agent...
Prometheus 自定义监控:接入 MySQL 指标
一、自定义中间件监控 1.1 创建mysql监听用户并授权,注意服务ip不要填错 1.2 启动容器 1.2 启动监控容器 创建配置文件 启动容器并挂载配置 验证容器 1.2 可能遇到的问题 执行下面命令启动容器 ...
Prometheus:AlertManager配置邮件告警
一、获取qq邮箱二维码。 点击【Settings】 点击【服务】 按照提示发送短信,获取授权码bcreknhkuijidifd 二、将Alertmanager的配置文件从configMap里导出来 三、编辑配置文件 删除无用配置,要...
AlertManager告警分组和告警抑制:抑制
一、示例1: 将如下配置增加到alertmanager_config.yaml里 **说明:当集群中的某一个主机节点异常宕机导致告警NodeDown被触发,同时在告警规则中定义了告警级别severity=Critical。由于主机异常...
Prometheus 黑盒监控:K8S 内部 HTTP 探测
一、HTTP 监控(K8S 内部发现方法) 1.1 自定义发现 `Service` 监控 `端口` 和 `路径` 可以如下设置: 然后,需要在 `Service` 中配置这样的 `annotation` : 示例:Java应用的svc: 按上面方法...
PromQL实战:操作符与常用函数示例
一、PromQL 操作符 Prometheus 的查询语言支持基本的逻辑和算术运算符。对于两个即时向量之间的运算, 可以修改匹配行为。 Prometheus 中存在以下二元算术运算符: - `+` - `-` - `*` - `/` - `...
Prometheus Operator 自定义监控:Helm 版 Ingress-Nginx
一、自定义资源 Prometheus-operator 通过定期循环watch apiserver,获取到CRD资源(比如 servicemonitor)的创建或者更新,将配置更新及时应用到运行中的prometheus pod 中转换成标准promethes...
Prometheus入门:核心概念、应用场景与特性
一、什么是Prometheus Prometheus是一个开源的系统监控和警报工具,用于收集和存储应用程序和系统的时间序列数据。它由SoundCloud开发并于2012年首次发布,后来成为Cloud Native Computing Foun...
Zabbix 监控架构与版本生命周期梳理
一、生命周期 zabbix生命周期版本选择: <img src="https://bucketbucket1.oss-cn-beijing.aliyuncs.com/imag/ed57658a4478_image1.png" style="wid
GPU 监控进阶:Prometheus 接入 dcgm-exporter 与显卡大盘
一、为什么还需要 `dcgm-exporter` `node_exporter` 能看到系统级指标,但看不到足够细的 GPU 运行细节。而大模型推理和训练最关心的常常是: * GPU 利用率; * 显存占用; * 温度和功耗; * 显...











