大模型工程-AI运维探索者

更新

浏览

大模型微调入门：为什么需要微调与常见技术路线

一、为什么需要微调微调的核心价值，通常体现在下面几个方面： * 解决预训练模型“通用但不够专”的问题。 * 处理目标场景与预训练数据之间的数据分布差异。 * 在有限计算资源下，用更高效的方...

大模型工程

7个月前

05310

vLLM 集群模式部署：Ray、多机多卡与远程访问

一、先准备机器示例建议： * 优先使用阿里云。 * GPU 选 A10 或更高等级。 * 不建议选 T4，这类卡在大模型集群场景下通常偏弱。二、部署前准备 2.1 安装驱动和 CUDA 所有机器都要完成这一步。...

大模型工程

7个月前

05013

Unsloth 微调 Qwen3-4B 实战：环境、模型加载与 LoRA 配置

- 一、先看硬件和软件要求 - 1.1 硬件要求 * GPU：至少 10GB 显存，例如 T4、V100 或更高。 * 内存：至少 16G。 * 存储：建议 50G 以上。 - 1.2 软件环境 * Linux（推荐 Ubuntu） * Python 3.8 ...

大模型工程

7个月前

04914

大模型与Ollama初体验

一、Ollama介绍与特性 1.1 什么是Ollama Ollama是一个轻量级、易于使用的大模型管理和部署工具,主要用于简化大模型的运行和交互。并且为开发者和用户提供了快速加载、管理和调用多种主流大模型...

大模型工程

7个月前

04910

大模型运维监控入门：命令行工具、Prometheus 与 Grafana

一、先用命令行工具做最小监控 1.1 NVIDIA GPU：`nvidia-smi` 这是最基础也最常用的 NVIDIA GPU 监控工具，前提是已经安装好显卡驱动。常见用法：它最适合做： * 快速排查显存占用； * 看当前...

大模型工程

7个月前

0488

讯飞星辰零代码微调 Qwen3-4B 实战

一、先做微调前测试目标模型：`Qwen3-4B` 模型集市地址： `https://training.xfyun.cn/modelSquare` 进入后选择 `Qwen3-4B`，点击“体验”。可以先准备几条测试问题，例如： * “阿铭linux是...

大模型工程

6个月前

0485

常见主流闭源大模型盘点

一、主流闭源大模型概览 | 模型 | 代表模型 | 公司 | 特点 | | -------- | ---------------------- | ------------ | ------------------------------------------------------------ | | GPT ...

大模型工程

6个月前

0488

常见开源大模型微调工具盘点：PEFT、LLaMA-Factory、Unsloth、XTuner

一、Hugging Face Transformers 与 PEFT Transformers 是 Hugging Face 的核心开源库，覆盖 NLP、视觉、音频等多种任务，同时把模型加载、Tokenizer、Pipeline 等常见能力做了模块化封装。 PEFT...

大模型工程

6个月前

04811

大模型推理优化总览：硬件、系统架构与服务部署

一、大模型优化的核心目标优化通常围绕四个目标展开： * 降低延迟： * 尤其是首个 Token 时间和生成速度。 * 提高吞吐： * 在固定资源下服务更多请求。 * 降低成本： * 提升资源利用率，降低单...

大模型工程

7个月前

0476

大模型为什么离不开 GPU

一、为什么大模型依赖 GPU 大模型(如GPT、DeepSeek等)依赖GPU进行训练和推理 CPU和GPU的区别： | | CPU | GPU | | -------------------------- | --------------------------------------------...

大模型工程

7个月前

0477

12 3…5 下一页