Prometheus-AI运维探索者-第6页

Prometheus的Exporter

一、Node Exporter Node Exporter主要用来采集主机上的各种指标（如CPU、内存、磁盘、网络等），Node exporter作为一个独立的进程在主机上运行，并通过HTTP端点暴露指标数据。Prometheus可以定...

Prometheus

3年前

0339

Prometheus监控MySQL实战：Exporter与ServiceMonitor配置

一、Prometheus监控非云原生应用流程上面流程图说明：针对非云原生应用一般本身不存在一个/metrics接口，我们需要配置Exporter来指向非云原生应用Service（集群外部的应用也需要指定具体IP）...

Prometheus

3年前

0308

PrometheusAlert 对接 Alertmanager：路由与测试验证

一、配置Alertmanager接入PrometheusAlert 更新alertmanager配置，将所有的告警均指向告警分发平台接口说明：热加载alertmanager服务：二、测试验证验证所有的告警是否发送到指定的群组： ...

Prometheus

3年前

0278

Prometheus 服务发现：基于 Consul 的自动发现

一、背景 [Consul Documentation | Consul | HashiCorp Developer](https://developer.hashicorp.com/consul/docs) Prometheus配置文件 prometheus-config.yaml 配置了大量的采集规则，基本上都...

Prometheus

3年前

0408

PrometheusRule入门：概念、结构与关键字段解析

一、PrometheusRule是什么 `PrometheusRule` 是 Prometheus Operator 中的一个自定义资源（Custom Resource），它用于定义 Prometheus 在监控系统中的规则和警报规则。 Prometheus 是一种开源的...

Prometheus

3年前

0438

GPU 监控进阶：Prometheus 接入 dcgm-exporter 与显卡大盘

一、为什么还需要 `dcgm-exporter` `node_exporter` 能看到系统级指标，但看不到足够细的 GPU 运行细节。而大模型推理和训练最关心的常常是： * GPU 利用率； * 显存占用； * 温度和功耗； * 显...

大模型工程

9个月前

0368

Alertmanager自定义邮件模板实战

一、修改alertmanager-secret.yaml添加自定义模板添加告警模板 **注意:wechat.tmpl和alertmanager.yaml需要对齐** 在templates字段添加模板位置配置wechat-ops receiver使用该模板配置警报重...

Prometheus

3年前

0328

大模型运维监控入门：命令行工具、Prometheus 与 Grafana

一、先用命令行工具做最小监控 1.1 NVIDIA GPU：`nvidia-smi` 这是最基础也最常用的 NVIDIA GPU 监控工具，前提是已经安装好显卡驱动。常见用法：它最适合做： * 快速排查显存占用； * 看当前...

大模型工程

8个月前

0518

Prometheus 黑盒监控：外部域名的 HTTP 与 POST 探测

一、HTTP 监控（监控外部域名）按上面方法重载 Prometheus，打开 Prometheus 的 Target 页面，就会看到上面定义的 `blackbox-external-website` 任务二、HTTP Post 监控（监控外部域名）按...

Prometheus

3年前

0418

ArgoCD Metrics 监控：Prometheus 指标采集与可视化

一、为什么监控 ArgonCD Metrics？ ArgoCD 的 Metrics 提供了有关其内部状态和运行状况的重要信息。通过监控这些指标，可以实现以下目标： - **性能监控**：了解ArgoCD的性能表现，确保其能够有...

ArgoCD

4年前

0458