大模型工程 第5页
Kubernetes管理GPU和大模型技术体系-AI运维探索者

Kubernetes管理GPU和大模型技术体系

一、K8s管理GPU资源技术架构 k8s默认不支持管理GPU 安装完英伟达驱动后支持管理GPU 二、K8s管理大模型服务方案 针对vLLM serve、Ollama serve等各类大模型服务,可以使用资源类型为Deployment进...
Kubernetes GPU资源调度落地-AI运维探索者

Kubernetes GPU资源调度落地

一、K8s集群部署 1.1 Runtime安装 1、卸载已经安装的 docker 2、配置源 3、安装 Containerd 4、配置 Containerd 的内核 5、创建 Containerd 的配置文件 6、启动Containerd 1.2 Kubernetes 部署 ...
GPU 监控进阶:Prometheus 接入 dcgm-exporter 与显卡大盘-AI运维探索者

GPU 监控进阶:Prometheus 接入 dcgm-exporter 与显卡大盘

一、为什么还需要 `dcgm-exporter` `node_exporter` 能看到系统级指标,但看不到足够细的 GPU 运行细节。而大模型推理和训练最关心的常常是: * GPU 利用率; * 显存占用; * 温度和功耗; * 显...