Prometheus 第6页
Prometheus 集群监控:接入 scheduler、kube-state-metrics 与 CoreDNS-AI运维探索者

Prometheus 集群监控:接入 scheduler、kube-state-metrics 与 CoreDNS

一、scheduler >由上可知,匹配pod对象,lable标签为component=kube-scheduler即可scheduler和controller-manager一样,默认监听0端口,需要注释 所有Master节点修改 `/etc/kubernetes/manif...
头像3年前
0539
PrometheusRule入门:概念、结构与关键字段解析-AI运维探索者

PrometheusRule入门:概念、结构与关键字段解析

一、PrometheusRule是什么 `PrometheusRule` 是 Prometheus Operator 中的一个自定义资源(Custom Resource),它用于定义 Prometheus 在监控系统中的规则和警报规则。 Prometheus 是一种开源的...
头像3年前
0398
GPU 监控进阶:Prometheus 接入 dcgm-exporter 与显卡大盘-AI运维探索者

GPU 监控进阶:Prometheus 接入 dcgm-exporter 与显卡大盘

一、为什么还需要 `dcgm-exporter` `node_exporter` 能看到系统级指标,但看不到足够细的 GPU 运行细节。而大模型推理和训练最关心的常常是: * GPU 利用率; * 显存占用; * 温度和功耗; * 显...
头像8个月前
0258
Alertmanager自定义邮件模板实战-AI运维探索者

Alertmanager自定义邮件模板实战

一、修改alertmanager-secret.yaml添加自定义模板 添加告警模板 **注意:wechat.tmpl和alertmanager.yaml需要对齐** 在templates字段添加模板位置 配置wechat-ops receiver使用该模板 配置警报重...
头像3年前
0288
大模型运维监控入门:命令行工具、Prometheus 与 Grafana-AI运维探索者

大模型运维监控入门:命令行工具、Prometheus 与 Grafana

一、先用命令行工具做最小监控 1.1 NVIDIA GPU:`nvidia-smi` 这是最基础也最常用的 NVIDIA GPU 监控工具,前提是已经安装好显卡驱动。 常见用法: 它最适合做: * 快速排查显存占用; * 看当前...
头像7个月前
0488
Prometheus 黑盒监控:外部域名的 HTTP 与 POST 探测-AI运维探索者

Prometheus 黑盒监控:外部域名的 HTTP 与 POST 探测

一、HTTP 监控(监控外部域名) 按上面方法重载 Prometheus,打开 Prometheus 的 Target 页面,就会看到 上面定义的 `blackbox-external-website` 任务 二、HTTP Post 监控(监控外部域名) 按...
头像3年前
0398
ArgoCD Metrics 监控:Prometheus 指标采集与可视化-AI运维探索者

ArgoCD Metrics 监控:Prometheus 指标采集与可视化

一、为什么监控 ArgonCD Metrics? ArgoCD 的 Metrics 提供了有关其内部状态和运行状况的重要信息。通过监控这些指标,可以实现以下目标: - **性能监控**:了解ArgoCD的性能表现,确保其能够有...
头像4年前
0418
Prometheus监控MySQL实战:Exporter与ServiceMonitor配置-AI运维探索者

Prometheus监控MySQL实战:Exporter与ServiceMonitor配置

一、Prometheus监控非云原生应用流程 上面流程图说明: 针对非云原生应用一般本身不存在一个/metrics接口,我们需要配置Exporter来指向非云原生应用Service(集群外部的应用也需要指定具体IP)...
头像3年前
0288
PrometheusAlert 对接 Alertmanager:路由与测试验证-AI运维探索者

PrometheusAlert 对接 Alertmanager:路由与测试验证

一、配置Alertmanager接入PrometheusAlert 更新alertmanager配置,将所有的告警均指向告警分发平台 接口说明: 热加载alertmanager服务: 二、测试验证 验证所有的告警是否发送到指定的群组: ...
头像3年前
0248
Prometheus 服务发现:基于 Consul 的自动发现-AI运维探索者

Prometheus 服务发现:基于 Consul 的自动发现

一、背景 [Consul Documentation | Consul | HashiCorp Developer](https://developer.hashicorp.com/consul/docs) Prometheus配置文件 prometheus-config.yaml 配置了大量的采集规则,基本上都...
头像3年前
0378