AI 与智能体-AI运维探索者-第7页

更新

浏览

vLLM 集群模式部署：Ray、多机多卡与远程访问

一、先准备机器示例建议： * 优先使用阿里云。 * GPU 选 A10 或更高等级。 * 不建议选 T4，这类卡在大模型集群场景下通常偏弱。二、部署前准备 2.1 安装驱动和 CUDA 所有机器都要完成这一步。...

# 工程实践 # 大模型工程 # 模型部署

7个月前

05013

vLLM 私有化部署实战：模型下载、服务启动与接口测试

一、先准备云主机示例里使用的是 AutoDL。官网： `https://www.autodl.com/` 二、安装 vLLM 参考文档： `https://docs.vllm.ai/en/latest/getting_started/installation/gpu.html` 如果系统里...

# 工程实践 # 大模型工程 # 模型部署

7个月前

03812

Unsloth 微调 Qwen3-4B 实战：训练、推理与 vLLM 部署

一、先配置训练器示例里使用的是 `SFTTrainer`： - 二、几个关键超参数怎么理解 * `gradient_accumulation_steps`： * 用梯度累积模拟更大的 batch。 * `warmup_steps`： * 训练初期逐步升高学...

# 工程实践 # 大模型工程 # 模型部署

7个月前

0247

Unsloth 微调 Qwen3-4B 实战：环境、模型加载与 LoRA 配置

- 一、先看硬件和软件要求 - 1.1 硬件要求 * GPU：至少 10GB 显存，例如 T4、V100 或更高。 * 内存：至少 16G。 * 存储：建议 50G 以上。 - 1.2 软件环境 * Linux（推荐 Ubuntu） * Python 3.8 ...

# 工程实践 # 大模型工程 # 模型部署

7个月前

04914

Transformer 编码器与解码器：一篇看懂核心结构

一、先看 Transformer 的整体结构架构图：示例：输入:'The cat sat on the mat'--->输出:'猫坐在垫子上' **输入阶段:** * 1）词嵌入(Word Embedding) * 将每个单词转换为512维向量,例如: *...

# 工程实践 # 大模型工程 # 模型部署

7个月前

02715

Transformer 为什么成为大模型核心架构

一、Transformer 解决了什么问题传统模型(RNN/LSTM) * 痛点:无法并行处理、长距离依赖失效、上下文理解局限 * 举例:传话游戏,只能一传一,不能互相通信,第1个人接收到的信息跟第10个人比肯定会...

# 工程实践 # 大模型工程 # 模型部署

7个月前

0247

Ollama 私有化部署实战：云主机、模型运行与 OpenWebUI

一、先准备云主机 1.1 AutoDL AutoDL 官网： `https://autodl.com/home` 它的优势通常是便宜、按量付费、适合做实验，但因为是容器化虚拟机，性能体验可能略差一些。 1.2 阿里云 / 腾讯云 GPU ...

# 工程实践 # 大模型工程 # 模型部署

7个月前

0409

LLaMA-Factory 微调 Qwen3-4B 实战：环境准备与数据配置

一、先明确整体思路这套流程的目标是：在 AutoDL 云服务器上安装 `LLaMA-Factory`，然后对 `Qwen3-4B` 做微调。二、环境准备 2.1 购买云主机笔记里建议使用 AutoDL，选择 3090 显卡即可。如...

# 工程实践 # 大模型工程 # 模型部署

7个月前

04012

LLaMA-Factory 微调 Qwen3-4B 实战：启动训练、测试与导出

一、启动 WebUI 在开始训练前，先把前面的测试命令结束掉，然后启动 WebUI：浏览器访问： `http://ip:7860` 如果使用的是 AutoDL，仍然需要做自定义服务映射。需要注意的是：WebUI 版本更适合...

# 工程实践 # 大模型工程 # 模型部署

7个月前

02514

Kubernetes驱动的GPU与大模型管理

一、为什么使用k8s管理GPU与大模型我们可以从下面六个角度进行分析为什么使用k8s管理GPU与大模型： * 资源调度与优化 * 多租户隔离与资源分配 * 简化部署与管理 * 弹性伸缩和负载均衡 * 高可用...

# Kubernetes # 工程实践 # 大模型工程

8个月前

03211

上一页 1…5 678 9…11 下一页跳转