大模型工程-AI运维探索者-第2页

更新

浏览

大模型运维监控入门：命令行工具、Prometheus 与 Grafana

一、先用命令行工具做最小监控 1.1 NVIDIA GPU：`nvidia-smi` 这是最基础也最常用的 NVIDIA GPU 监控工具，前提是已经安装好显卡驱动。常见用法：它最适合做： * 快速排查显存占用； * 看当前...

# 监控告警 # Prometheus # 工程实践

8个月前

0518

商业大模型微调平台盘点：阿里云 PAI、硅基流动与讯飞星辰

一、阿里云 PAI 地址： `https://pai.console.aliyun.com/` 阿里云 PAI 提供了一站式的大模型训练与部署能力，比较适合已经在云上做 AI 研发，或者希望快速接入微调工作流的团队。 1.1 典型入口...

# 工程实践 # 大模型工程 # 模型部署

8个月前

04913

大模型行业选型建议：金融、医疗、制造与教育

一、金融行业 | 细分领域 | 核心要求 | 推荐模型 | 关键能力 | | ---------- | ------------------------ | --------------- | ------------------------------ | | 投研、分析 | 招股书解析、...

# 工程实践 # 大模型工程 # 模型部署

8个月前

04911

vLLM 私有化部署实战：模型下载、服务启动与接口测试

一、先准备云主机示例里使用的是 AutoDL。官网： `https://www.autodl.com/` 二、安装 vLLM 参考文档： `https://docs.vllm.ai/en/latest/getting_started/installation/gpu.html` 如果系统里...

# 工程实践 # 大模型工程 # 模型部署

8个月前

04912

LLaMA-Factory 微调 Qwen3-4B 实战：环境准备与数据配置

一、先明确整体思路这套流程的目标是：在 AutoDL 云服务器上安装 `LLaMA-Factory`，然后对 `Qwen3-4B` 做微调。二、环境准备 2.1 购买云主机笔记里建议使用 AutoDL，选择 3090 显卡即可。如...

# 工程实践 # 大模型工程 # 模型部署

8个月前

04812

大模型是什么，它为什么重要

一、先认识什么是大模型 1.1 常见的大模型常见的大模型： * ChatGPT * DeepSeek * 豆包 * 腾讯元宝 1.2 大模型的定义大模型定义： * 大语言模型(LLM) * 关键字:大 --> 参数规模比较大、训...

# 工程实践 # 大模型工程 # 模型部署

8个月前

0478

Kubernetes管理GPU和大模型技术体系

一、K8s管理GPU资源技术架构 k8s默认不支持管理GPU 安装完英伟达驱动后支持管理GPU 二、K8s管理大模型服务方案针对vLLM serve、Ollama serve等各类大模型服务，可以使用资源类型为Deployment进...

# Kubernetes # 工程实践 # 大模型工程

9个月前

04515

Ollama 私有化部署实战：云主机、模型运行与 OpenWebUI

一、先准备云主机 1.1 AutoDL AutoDL 官网： `https://autodl.com/home` 它的优势通常是便宜、按量付费、适合做实验，但因为是容器化虚拟机，性能体验可能略差一些。 1.2 阿里云 / 腾讯云 GPU ...

# 工程实践 # 大模型工程 # 模型部署

8个月前

0459

大模型微调数据集入门：常见分类与数据格式

一、什么是大模型微调数据集简单说，微调数据集就是一批专门为某个目标准备的数据，用来让一个已经很强的通用模型，进一步学会特定任务、特定风格或特定领域知识。二、常见数据集分类 2.1 指...

# 工程实践 # 大模型工程 # 模型部署

8个月前

0436

大模型微调超参数详解：从 Model Size 到 Temperature

一、超参数到底是什么超参数（Hyperparameters）是在训练开始前就要设定好的参数，用来控制训练过程，而不是训练中自动学到的权重。一个很直观的比喻是：超参数就像做菜前先决定盐、胡椒、火...

# 工程实践 # 大模型工程 # 模型部署

8个月前

04213