可观测性 第2页
大模型运维监控入门:命令行工具、Prometheus 与 Grafana-AI运维探索者

大模型运维监控入门:命令行工具、Prometheus 与 Grafana

一、先用命令行工具做最小监控 1.1 NVIDIA GPU:`nvidia-smi` 这是最基础也最常用的 NVIDIA GPU 监控工具,前提是已经安装好显卡驱动。 常见用法: 它最适合做: * 快速排查显存占用; * 看当前...
头像7个月前
0488
Istio可观测实践-AI运维探索者

Istio可观测实践

一、环境准备 1、下载环境资源yaml 2、部署Prometheus、Grafana、kiali、Jaeger 检测 3、设置Kiali登录的用户名和密码 说明:用户名和密码都是admin 4、配置各组件对外访问 (1)kiali对外端口为1...
头像4年前
04811
Zabbix Agent 与多场景监控实践-AI运维探索者

Zabbix Agent 与多场景监控实践

一、zabbix客户端概述 zabbix客户端 应用场景 <tbod
头像3年前
0486
Prometheus 集群监控:接入 kube-apiserver 与 controller-manager-AI运维探索者

Prometheus 集群监控:接入 kube-apiserver 与 controller-manager

一、新增 Kubernetes 集群架构监控 在 `prometheus-config.yaml` 一次添加如下采集数据: 1.1 **kube-apiserver** 需要注意的是使用https访问时,需要tls相关配置,可以指定ca证书路径或者 `ins...
头像3年前
0477
生产级日志平台架构:亿级流量场景与云原生日志采集方案-AI运维探索者

生产级日志平台架构:亿级流量场景与云原生日志采集方案

一、生产级亿级流量日志平台架构解析 1.1 生产级亿级流量日志平台架构图 1.1 架构核心组件及流程 1、日志生成层(Kubernetes + e-service) * **Kubernetes** 作为容器编排平台,管理业务微服务...
头像3年前
0466
Prometheus Operator 自定义监控:常规部署 Ingress-Nginx-AI运维探索者

Prometheus Operator 自定义监控:常规部署 Ingress-Nginx

一、抓取自定义资源 -- 常规部署的Ingress-nginx 1.1 修改Ingress Service 1.2 修改Ingress deployment 1.3 测试验证 1.4 新增Ingress ServiceMonitor 1.5 添加报警规则 二、导入Grafana模板 `I...
头像3年前
04610
Prometheus:使用PromQL查询监控指标-AI运维探索者

Prometheus:使用PromQL查询监控指标

一、什么是PromQL PromQL(Prometheus Query Language)是Prometheus内置的数据查询语言,其提供对时间序列数据丰富的查询,聚合以及逻辑运算能力的支持。并且被广泛应用在Prometheus的日常应用当...
头像3年前
0466
Prometheus 自定义监控:使用 Process Exporter 监控进程-AI运维探索者

Prometheus 自定义监控:使用 Process Exporter 监控进程

一、process-exporter进程监控 1.1 模拟sd-api进程 模拟启动两个进程 1.2 创建挂载目录 1.3 配置安装process-exporter 1.4 配置文件 - 匹配 sd-api 的进程(ps -ef | grep sd-api) - 通过proce...
头像3年前
04614
Prometheus监控Kubernetes集群-AI运维探索者

Prometheus监控Kubernetes集群

一、监控集群节点 先把Configmap导出为yaml文件: 编辑yaml,在scrape_configs: 下面增加如下内容 应用配置 重启Prometheus服务 打开浏览器输入http://192.168.1.31:31093访问Prometheus,到Prom...
头像3年前
04410
Prometheus静态配置监控Windows主机实战-AI运维探索者

Prometheus静态配置监控Windows主机实战

一、Prometheus监控非云原生应用流程 上面流程图说明: 针对非云原生应用一般本身不存在一个/metrics接口,我们需要配置Exporter来指向非云原生应用Service(集群外部的应用也需要指定具体IP)...
头像3年前
04314