可观测性 第4页
大模型运维监控入门:命令行工具、Prometheus 与 Grafana-AI运维探索者

大模型运维监控入门:命令行工具、Prometheus 与 Grafana

一、先用命令行工具做最小监控 1.1 NVIDIA GPU:`nvidia-smi` 这是最基础也最常用的 NVIDIA GPU 监控工具,前提是已经安装好显卡驱动。 常见用法: 它最适合做: * 快速排查显存占用; * 看当前...
头像8个月前
0518
Prometheus 自定义监控:接入 MySQL 指标-AI运维探索者

Prometheus 自定义监控:接入 MySQL 指标

一、自定义中间件监控 1.1 创建mysql监听用户并授权,注意服务ip不要填错 1.2 启动容器 1.2 启动监控容器 创建配置文件 启动容器并挂载配置 验证容器 1.2 可能遇到的问题 执行下面命令启动容器 ...
头像3年前
0527
Rancher安装Prometheus监控-AI运维探索者

Rancher安装Prometheus监控

一、Rancher安装Prometheus监控 1、点击【应用】-【chart】,类别选择Rancher,筛选内容为monitoring 2、选择Monitoring (103.0.4+up45.31.1)版本,点击【安装】 3、选择【安装到项目System】,勾...
头像1年前
0357
Blackbox Exporter监控域名实战-AI运维探索者

Blackbox Exporter监控域名实战

一、创建一个空文件,然后通过该文件创建一个 Secret,那么这个 Secret 即可作为 Prometheus 的静态配置 查看 Secret是否创建完成 二、创建完 Secret 后,需要编辑下 Prometheus 配置 三、参考[...
头像3年前
0357
多种日志收集方案:应用日志、Pod 日志与 Sidecar 实践-AI运维探索者

多种日志收集方案:应用日志、Pod 日志与 Sidecar 实践

一、前言 集群级/应用日志通过将日志数据从容器或节点中解耦,并将其发送到集中的日志存储或处理系统,使日志数据在整个集群中可见。 **优势**:即使容器或节点发生故障,仍然可以访问日志数据...
头像3年前
0317
Prometheus 集群监控:接入 kube-apiserver 与 controller-manager-AI运维探索者

Prometheus 集群监控:接入 kube-apiserver 与 controller-manager

一、新增 Kubernetes 集群架构监控 在 `prometheus-config.yaml` 一次添加如下采集数据: 1.1 **kube-apiserver** 需要注意的是使用https访问时,需要tls相关配置,可以指定ca证书路径或者 `ins...
头像3年前
0507
Prometheus 黑盒监控:ICMP 探测配置实战-AI运维探索者

Prometheus 黑盒监控:ICMP 探测配置实战

一、ICMP监控 按上面方法重载 Prometheus,打开 Prometheus 的 Target 页面,就会看到 上面定义的 `blackbox-k8s-http-services` 任务
头像3年前
0637
ElastAlert 告警实战:EFK 日志平台的监控与多规则告警-AI运维探索者

ElastAlert 告警实战:EFK 日志平台的监控与多规则告警

一、前言 1.1 产生背景 ElastAlert最初由Yelp开发并开源,旨在解决实时监控和告警的需求。由于Elasticsearch 的日志处理能力强大,许多组织和企业使用它来存储和分析大量的日志数据。然而,仅仅...
头像3年前
0286
Prometheus 节点监控:部署 node-exporter 并抓取主机指标-AI运维探索者

Prometheus 节点监控:部署 node-exporter 并抓取主机指标

一、node-exporter Node Exporter 是 Prometheus 官方提供的一个节点资源采集组件,可以用于收集服务器节点的数据,如 CPU频率信息、磁盘IO统计、剩余可用内存等等。 **部署创建:** 由于是针对...
头像3年前
0466
LPG 部署实战:Loki + Promtail + Grafana 轻量日志方案-AI运维探索者

LPG 部署实战:Loki + Promtail + Grafana 轻量日志方案

一、EFK vs LPG **架构和组件:** - Loki:Loki 是一个开源的水平可扩展日志聚合系统,由 Promtail、Loki 和 Grafana 组成。 - EFK:EFK 是一个集成的解决方案,由 Elasticsearch、Fluentd 和 K...
头像3年前
0396