排序
大模型运维监控入门:命令行工具、Prometheus 与 Grafana
一、先用命令行工具做最小监控 1.1 NVIDIA GPU:`nvidia-smi` 这是最基础也最常用的 NVIDIA GPU 监控工具,前提是已经安装好显卡驱动。 常见用法: 它最适合做: * 快速排查显存占用; * 看当前...
Zabbix 邮件与企业微信告警配置实战
一、告警分类 | 报警方式 | 企业应用场景 | |--------------------------------------|--------------------------------------------------| | 发邮件 | 企业邮箱,免费使用 | | 企业微信-告警...
Alertmanager 高级配置:接入企业微信告警
一、基于企业微信的报警媒介 - **实时告警通知**:企业微信/钉钉等即时通信工具能够实现实时的告警通知,使得团队 成员能够及时响应和解决问题。 - **通知范围更广**:基于企业微信/钉钉的告警...
Kubernetes中高可用安装Prometheus实战
一、安装方式介绍 Prometheus 可以以多种方式进行安装和部署,适应不同的需求和环境。以下是一些常见的 Prometheus 安装方式(更多信息请参考[Prometheus官网](https://prometheus.io/docs/prome...
Prometheus 集群监控:接入 kube-apiserver 与 controller-manager
一、新增 Kubernetes 集群架构监控 在 `prometheus-config.yaml` 一次添加如下采集数据: 1.1 **kube-apiserver** 需要注意的是使用https访问时,需要tls相关配置,可以指定ca证书路径或者 `ins...
Prometheus 自定义监控:使用 Process Exporter 监控进程
一、process-exporter进程监控 1.1 模拟sd-api进程 模拟启动两个进程 1.2 创建挂载目录 1.3 配置安装process-exporter 1.4 配置文件 - 匹配 sd-api 的进程(ps -ef | grep sd-api) - 通过proce...
Prometheus Operator 自定义监控:常规部署 Ingress-Nginx
一、抓取自定义资源 -- 常规部署的Ingress-nginx 1.1 修改Ingress Service 1.2 修改Ingress deployment 1.3 测试验证 1.4 新增Ingress ServiceMonitor 1.5 添加报警规则 二、导入Grafana模板 `I...
Prometheus Operator 部署实战:CRD、Kube-Prometheus 与访问验证
一、Prometheus Operator & Kube-Prometheus & Helm chart 部署区别 Prometheus Operator 是 Kubernetes 原生的工具,它通过将 Prometheus 资源定 义为 Kubernetes 对象(CRD)来简化 P...











