可观测性 第2页
Istio可观测实践-AI运维探索者

Istio可观测实践

一、环境准备 1、下载环境资源yaml 2、部署Prometheus、Grafana、kiali、Jaeger 检测 3、设置Kiali登录的用户名和密码 说明:用户名和密码都是admin 4、配置各组件对外访问 (1)kiali对外端口为1...
头像4年前
05211
Prometheus 自定义监控:接入 MySQL 指标-AI运维探索者

Prometheus 自定义监控:接入 MySQL 指标

一、自定义中间件监控 1.1 创建mysql监听用户并授权,注意服务ip不要填错 1.2 启动容器 1.2 启动监控容器 创建配置文件 启动容器并挂载配置 验证容器 1.2 可能遇到的问题 执行下面命令启动容器 ...
头像3年前
0527
大模型运维监控入门:命令行工具、Prometheus 与 Grafana-AI运维探索者

大模型运维监控入门:命令行工具、Prometheus 与 Grafana

一、先用命令行工具做最小监控 1.1 NVIDIA GPU:`nvidia-smi` 这是最基础也最常用的 NVIDIA GPU 监控工具,前提是已经安装好显卡驱动。 常见用法: 它最适合做: * 快速排查显存占用; * 看当前...
头像8个月前
0518
Prometheus 黑盒监控:Ingress 服务探测-AI运维探索者

Prometheus 黑盒监控:Ingress 服务探测

一、Ingress服务的探测(视频中未讲到,扩展+) 则需要在ingress上添加注释必须有以下三行 示例:Java应用的ing:
头像3年前
05110
Prometheus 集群监控:接入 kube-apiserver 与 controller-manager-AI运维探索者

Prometheus 集群监控:接入 kube-apiserver 与 controller-manager

一、新增 Kubernetes 集群架构监控 在 `prometheus-config.yaml` 一次添加如下采集数据: 1.1 **kube-apiserver** 需要注意的是使用https访问时,需要tls相关配置,可以指定ca证书路径或者 `ins...
头像3年前
0507
生产级日志平台架构:亿级流量场景与云原生日志采集方案-AI运维探索者

生产级日志平台架构:亿级流量场景与云原生日志采集方案

一、生产级亿级流量日志平台架构解析 1.1 生产级亿级流量日志平台架构图 1.1 架构核心组件及流程 1、日志生成层(Kubernetes + e-service) * **Kubernetes** 作为容器编排平台,管理业务微服务...
头像3年前
0506
Prometheus Operator 自定义监控:常规部署 Ingress-Nginx-AI运维探索者

Prometheus Operator 自定义监控:常规部署 Ingress-Nginx

一、抓取自定义资源 -- 常规部署的Ingress-nginx 1.1 修改Ingress Service 1.2 修改Ingress deployment 1.3 测试验证 1.4 新增Ingress ServiceMonitor 1.5 添加报警规则 二、导入Grafana模板 `I...
头像3年前
05010
Prometheus 自定义监控:使用 Process Exporter 监控进程-AI运维探索者

Prometheus 自定义监控:使用 Process Exporter 监控进程

一、process-exporter进程监控 1.1 模拟sd-api进程 模拟启动两个进程 1.2 创建挂载目录 1.3 配置安装process-exporter 1.4 配置文件 - 匹配 sd-api 的进程(ps -ef | grep sd-api) - 通过proce...
头像3年前
04814
Prometheus静态配置监控Windows主机实战-AI运维探索者

Prometheus静态配置监控Windows主机实战

一、Prometheus监控非云原生应用流程 上面流程图说明: 针对非云原生应用一般本身不存在一个/metrics接口,我们需要配置Exporter来指向非云原生应用Service(集群外部的应用也需要指定具体IP)...
头像3年前
04714
Prometheus 节点监控:部署 node-exporter 并抓取主机指标-AI运维探索者

Prometheus 节点监控:部署 node-exporter 并抓取主机指标

一、node-exporter Node Exporter 是 Prometheus 官方提供的一个节点资源采集组件,可以用于收集服务器节点的数据,如 CPU频率信息、磁盘IO统计、剩余可用内存等等。 **部署创建:** 由于是针对...
头像3年前
0466