大模型工程-AI运维探索者

更新

浏览

Transformer 为什么成为大模型核心架构

一、Transformer 解决了什么问题传统模型(RNN/LSTM) * 痛点:无法并行处理、长距离依赖失效、上下文理解局限 * 举例:传话游戏,只能一传一,不能互相通信,第1个人接收到的信息跟第10个人比肯定会...

# 工程实践 # 大模型工程 # 模型部署

8个月前

0267

Transformer 编码器与解码器：一篇看懂核心结构

一、先看 Transformer 的整体结构架构图：示例：输入:'The cat sat on the mat'--->输出:'猫坐在垫子上' **输入阶段:** * 1）词嵌入(Word Embedding) * 将每个单词转换为512维向量,例如: *...

# 工程实践 # 大模型工程 # 模型部署

8个月前

03115

Kubernetes驱动的GPU与大模型管理

一、为什么使用k8s管理GPU与大模型我们可以从下面六个角度进行分析为什么使用k8s管理GPU与大模型： * 资源调度与优化 * 多租户隔离与资源分配 * 简化部署与管理 * 弹性伸缩和负载均衡 * 高可用...

# Kubernetes # 工程实践 # 大模型工程

9个月前

03811

LLaMA-Factory 微调 Qwen3-4B 实战：启动训练、测试与导出

一、启动 WebUI 在开始训练前，先把前面的测试命令结束掉，然后启动 WebUI：浏览器访问： `http://ip:7860` 如果使用的是 AutoDL，仍然需要做自定义服务映射。需要注意的是：WebUI 版本更适合...

# 工程实践 # 大模型工程 # 模型部署

8个月前

02814

LLaMA-Factory 微调 Qwen3-4B 实战：环境准备与数据配置

一、先明确整体思路这套流程的目标是：在 AutoDL 云服务器上安装 `LLaMA-Factory`，然后对 `Qwen3-4B` 做微调。二、环境准备 2.1 购买云主机笔记里建议使用 AutoDL，选择 3090 显卡即可。如...

# 工程实践 # 大模型工程 # 模型部署

8个月前

04812

Ollama 私有化部署实战：云主机、模型运行与 OpenWebUI

一、先准备云主机 1.1 AutoDL AutoDL 官网： `https://autodl.com/home` 它的优势通常是便宜、按量付费、适合做实验，但因为是容器化虚拟机，性能体验可能略差一些。 1.2 阿里云 / 腾讯云 GPU ...

# 工程实践 # 大模型工程 # 模型部署

8个月前

0459

GPU 监控进阶：Prometheus 接入 dcgm-exporter 与显卡大盘

一、为什么还需要 `dcgm-exporter` `node_exporter` 能看到系统级指标，但看不到足够细的 GPU 运行细节。而大模型推理和训练最关心的常常是： * GPU 利用率； * 显存占用； * 温度和功耗； * 显...

# 监控告警 # Prometheus # 工程实践

9个月前

0368

Kubernetes GPU资源调度落地

一、K8s集群部署 1.1 Runtime安装 1、卸载已经安装的 docker 2、配置源 3、安装 Containerd 4、配置 Containerd 的内核 5、创建 Containerd 的配置文件 6、启动Containerd 1.2 Kubernetes 部署 ...

# Kubernetes # 工程实践 # 大模型工程

9个月前

0325

Kubernetes管理GPU和大模型技术体系

一、K8s管理GPU资源技术架构 k8s默认不支持管理GPU 安装完英伟达驱动后支持管理GPU 二、K8s管理大模型服务方案针对vLLM serve、Ollama serve等各类大模型服务，可以使用资源类型为Deployment进...

# Kubernetes # 工程实践 # 大模型工程

9个月前

04515

Kubernetes管理大模型实战

一、K8s使用Model资源部署大模型 1、在 K8s 上部署大模型，可以直接用 Ollama Operator 的 CRD Model 部署，比如部署一个 phi的模型 2、首次部署大模型，会先创建一个 store 服务，用于存储 oll...

# Kubernetes # 工程实践 # 大模型工程

9个月前

0337

12 3…5 下一页