排序
大模型运维监控入门:命令行工具、Prometheus 与 Grafana
一、先用命令行工具做最小监控 1.1 NVIDIA GPU:`nvidia-smi` 这是最基础也最常用的 NVIDIA GPU 监控工具,前提是已经安装好显卡驱动。 常见用法: 它最适合做: * 快速排查显存占用; * 看当前...
GPU 监控进阶:Prometheus 接入 dcgm-exporter 与显卡大盘
一、为什么还需要 `dcgm-exporter` `node_exporter` 能看到系统级指标,但看不到足够细的 GPU 运行细节。而大模型推理和训练最关心的常常是: * GPU 利用率; * 显存占用; * 温度和功耗; * 显...
MongoDB 监控实践
- 一、常用的监控工具及手段 - MongoDB Ops Manager - Percona Monitoring and Management(PMM) - 通用监控平台 - 程序脚本 一、如何获取监控数据 监控信息的来源: - db.serverStatus()(主要) -...
使用 Zabbix 监控 Nginx 服务与 80 端口状态
一、自定义nginx模板 1.1 客户端安装nginx 1、进入nginx官网,复制官方yum源 Nginx官网链接: <img src="https://bucketbucket1.oss-cn-beijing.aliyuncs.com/imag/d5df0ed2a9d0_
Zabbix 邮件与企业微信告警配置实战
一、告警分类 | 报警方式 | 企业应用场景 | |--------------------------------------|--------------------------------------------------| | 发邮件 | 企业邮箱,免费使用 | | 企业微信-告警...
Zabbix 自动接入与分布式监控实践
一、自动添加主机 自动添加主机并关联模板 | 自动添加主机方案 | 含义 | 应用场景 | |----------------------|---------------------------------------------------------------------|-------...
Zabbix 监控架构与版本生命周期梳理
一、生命周期 zabbix生命周期版本选择: <img src="https://bucketbucket1.oss-cn-beijing.aliyuncs.com/imag/ed57658a4478_image1.png" style="wid
Zabbix 主机接入流程与常见故障排查
一、整体流程 1、安装客户端及修改配置文件,测试 2、web页面添加主机,关联模板 3、调试 二、配置客户端 1、配置zbx源 2、安装客户端 | \[root@zabbix-server01 ~\]yum install -y zabbix-agent...
Zabbix API、性能优化与高可用升级思路
一、zbx api 1.1 api概述 api Application Programming Interface 应用程序编程接口 (相当于是shell函数作用) api接口应用场景: 发送企业微信消息,人脸识别,短信验证,身份验证 使用第3方功能即...











