监控告警 第2页
Zabbix Agent 与多场景监控实践-AI运维探索者

Zabbix Agent 与多场景监控实践

一、zabbix客户端概述 zabbix客户端 应用场景 <tbod
头像3年前
0486
大模型运维监控入门:命令行工具、Prometheus 与 Grafana-AI运维探索者

大模型运维监控入门:命令行工具、Prometheus 与 Grafana

一、先用命令行工具做最小监控 1.1 NVIDIA GPU:`nvidia-smi` 这是最基础也最常用的 NVIDIA GPU 监控工具,前提是已经安装好显卡驱动。 常见用法: 它最适合做: * 快速排查显存占用; * 看当前...
头像7个月前
0488
Zabbix 邮件与企业微信告警配置实战-AI运维探索者

Zabbix 邮件与企业微信告警配置实战

一、告警分类 | 报警方式 | 企业应用场景 | |--------------------------------------|--------------------------------------------------| | 发邮件 | 企业邮箱,免费使用 | | 企业微信-告警...
头像3年前
04810
Alertmanager 高级配置:接入企业微信告警-AI运维探索者

Alertmanager 高级配置:接入企业微信告警

一、基于企业微信的报警媒介 - **实时告警通知**:企业微信/钉钉等即时通信工具能够实现实时的告警通知,使得团队 成员能够及时响应和解决问题。 - **通知范围更广**:基于企业微信/钉钉的告警...
头像3年前
0486
Prometheus:AlertManager介绍和安装-AI运维探索者

Prometheus:AlertManager介绍和安装

一、查看service 二、打开浏览器,输入http://192.168.1.31:32590访问即可
头像3年前
0479
Kubernetes中高可用安装Prometheus实战-AI运维探索者

Kubernetes中高可用安装Prometheus实战

一、安装方式介绍 Prometheus 可以以多种方式进行安装和部署,适应不同的需求和环境。以下是一些常见的 Prometheus 安装方式(更多信息请参考[Prometheus官网](https://prometheus.io/docs/prome...
头像3年前
04715
Prometheus 集群监控:接入 kube-apiserver 与 controller-manager-AI运维探索者

Prometheus 集群监控:接入 kube-apiserver 与 controller-manager

一、新增 Kubernetes 集群架构监控 在 `prometheus-config.yaml` 一次添加如下采集数据: 1.1 **kube-apiserver** 需要注意的是使用https访问时,需要tls相关配置,可以指定ca证书路径或者 `ins...
头像3年前
0477
Prometheus 自定义监控:使用 Process Exporter 监控进程-AI运维探索者

Prometheus 自定义监控:使用 Process Exporter 监控进程

一、process-exporter进程监控 1.1 模拟sd-api进程 模拟启动两个进程 1.2 创建挂载目录 1.3 配置安装process-exporter 1.4 配置文件 - 匹配 sd-api 的进程(ps -ef | grep sd-api) - 通过proce...
头像3年前
04614
Prometheus Operator 自定义监控:常规部署 Ingress-Nginx-AI运维探索者

Prometheus Operator 自定义监控:常规部署 Ingress-Nginx

一、抓取自定义资源 -- 常规部署的Ingress-nginx 1.1 修改Ingress Service 1.2 修改Ingress deployment 1.3 测试验证 1.4 新增Ingress ServiceMonitor 1.5 添加报警规则 二、导入Grafana模板 `I...
头像3年前
04610
Prometheus Operator 部署实战:CRD、Kube-Prometheus 与访问验证-AI运维探索者

Prometheus Operator 部署实战:CRD、Kube-Prometheus 与访问验证

一、Prometheus Operator & Kube-Prometheus & Helm chart 部署区别 Prometheus Operator 是 Kubernetes 原生的工具,它通过将 Prometheus 资源定 义为 Kubernetes 对象(CRD)来简化 P...
头像3年前
04612