监控告警 第7页
大模型运维监控入门:命令行工具、Prometheus 与 Grafana-AI运维探索者

大模型运维监控入门:命令行工具、Prometheus 与 Grafana

一、先用命令行工具做最小监控 1.1 NVIDIA GPU:`nvidia-smi` 这是最基础也最常用的 NVIDIA GPU 监控工具,前提是已经安装好显卡驱动。 常见用法: 它最适合做: * 快速排查显存占用; * 看当前...
头像7个月前
0488
Prometheus 黑盒监控:外部域名的 HTTP 与 POST 探测-AI运维探索者

Prometheus 黑盒监控:外部域名的 HTTP 与 POST 探测

一、HTTP 监控(监控外部域名) 按上面方法重载 Prometheus,打开 Prometheus 的 Target 页面,就会看到 上面定义的 `blackbox-external-website` 任务 二、HTTP Post 监控(监控外部域名) 按...
头像3年前
0398
Prometheus监控MySQL实战:Exporter与ServiceMonitor配置-AI运维探索者

Prometheus监控MySQL实战:Exporter与ServiceMonitor配置

一、Prometheus监控非云原生应用流程 上面流程图说明: 针对非云原生应用一般本身不存在一个/metrics接口,我们需要配置Exporter来指向非云原生应用Service(集群外部的应用也需要指定具体IP)...
头像3年前
0288
PrometheusAlert 对接 Alertmanager:路由与测试验证-AI运维探索者

PrometheusAlert 对接 Alertmanager:路由与测试验证

一、配置Alertmanager接入PrometheusAlert 更新alertmanager配置,将所有的告警均指向告警分发平台 接口说明: 热加载alertmanager服务: 二、测试验证 验证所有的告警是否发送到指定的群组: ...
头像3年前
0248
Prometheus 服务发现:基于 Consul 的自动发现-AI运维探索者

Prometheus 服务发现:基于 Consul 的自动发现

一、背景 [Consul Documentation | Consul | HashiCorp Developer](https://developer.hashicorp.com/consul/docs) Prometheus配置文件 prometheus-config.yaml 配置了大量的采集规则,基本上都...
头像3年前
0378
PrometheusRule入门:概念、结构与关键字段解析-AI运维探索者

PrometheusRule入门:概念、结构与关键字段解析

一、PrometheusRule是什么 `PrometheusRule` 是 Prometheus Operator 中的一个自定义资源(Custom Resource),它用于定义 Prometheus 在监控系统中的规则和警报规则。 Prometheus 是一种开源的...
头像3年前
0398
Prometheus 自定义监控:接入 MySQL 指标-AI运维探索者

Prometheus 自定义监控:接入 MySQL 指标

一、自定义中间件监控 1.1 创建mysql监听用户并授权,注意服务ip不要填错 1.2 启动容器 1.2 启动监控容器 创建配置文件 启动容器并挂载配置 验证容器 1.2 可能遇到的问题 执行下面命令启动容器 ...
头像3年前
0497
Prometheus 告警规则实战:企业常用 Rules 汇总-AI运维探索者

Prometheus 告警规则实战:企业常用 Rules 汇总

一、前言 Prometheus中的告警规则允许你基于PromQL表达式定义告警触发条件,Prometheus 后端对这些触发规则进行周期性计算,当满足触发条件后则会触发告警通知。 在企业中,为了确保业务的稳定...
头像3年前
0387
Prometheus 集群监控:接入 kube-apiserver 与 controller-manager-AI运维探索者

Prometheus 集群监控:接入 kube-apiserver 与 controller-manager

一、新增 Kubernetes 集群架构监控 在 `prometheus-config.yaml` 一次添加如下采集数据: 1.1 **kube-apiserver** 需要注意的是使用https访问时,需要tls相关配置,可以指定ca证书路径或者 `ins...
头像3年前
0477
Blackbox Exporter监控域名实战-AI运维探索者

Blackbox Exporter监控域名实战

一、创建一个空文件,然后通过该文件创建一个 Secret,那么这个 Secret 即可作为 Prometheus 的静态配置 查看 Secret是否创建完成 二、创建完 Secret 后,需要编辑下 Prometheus 配置 三、参考[...
头像3年前
0317