大模型工程-AI运维探索者-第5页

Kubernetes管理GPU和大模型技术体系

一、K8s管理GPU资源技术架构 k8s默认不支持管理GPU 安装完英伟达驱动后支持管理GPU 二、K8s管理大模型服务方案针对vLLM serve、Ollama serve等各类大模型服务，可以使用资源类型为Deployment进...

9个月前

04515

一、K8s集群部署 1.1 Runtime安装 1、卸载已经安装的 docker 2、配置源 3、安装 Containerd 4、配置 Containerd 的内核 5、创建 Containerd 的配置文件 6、启动Containerd 1.2 Kubernetes 部署 ...

9个月前

0325

一、为什么还需要 `dcgm-exporter` `node_exporter` 能看到系统级指标，但看不到足够细的 GPU 运行细节。而大模型推理和训练最关心的常常是： * GPU 利用率； * 显存占用； * 温度和功耗； * 显...

9个月前

0368