大模型工程-AI运维探索者-第3页

更新

浏览

大模型微调数据集入门：常见分类与数据格式

一、什么是大模型微调数据集简单说，微调数据集就是一批专门为某个目标准备的数据，用来让一个已经很强的通用模型，进一步学会特定任务、特定风格或特定领域知识。二、常见数据集分类 2.1 指...

大模型工程

7个月前

0386

Kubernetes GPU资源调度落地

一、K8s集群部署 1.1 Runtime安装 1、卸载已经安装的 docker 2、配置源 3、安装 Containerd 4、配置 Containerd 的内核 5、创建 Containerd 的配置文件 6、启动Containerd 1.2 Kubernetes 部署 ...

大模型工程

8个月前

0295

大模型量化入门：GPTQ、AWQ 和 Qwen3-1.7B 实操

一、为什么量化很重要量化的本质是把模型从更高精度的数据格式压缩到更低精度，例如： * FP16 -> INT8 * FP16 -> INT4 这样做带来的主要收益有： * 模型体积更小； * 显存占用更低； * ...

大模型工程

7个月前

0319

vLLM 私有化部署实战：模型下载、服务启动与接口测试

一、先准备云主机示例里使用的是 AutoDL。官网： `https://www.autodl.com/` 二、安装 vLLM 参考文档： `https://docs.vllm.ai/en/latest/getting_started/installation/gpu.html` 如果系统里...

大模型工程

7个月前

03812

大模型微调超参数详解：从 Model Size 到 Temperature

一、超参数到底是什么超参数（Hyperparameters）是在训练开始前就要设定好的参数，用来控制训练过程，而不是训练中自动学到的权重。一个很直观的比喻是：超参数就像做菜前先决定盐、胡椒、火...

大模型工程

7个月前

03813

Kubernetes管理GPU和大模型技术体系

一、K8s管理GPU资源技术架构 k8s默认不支持管理GPU 安装完英伟达驱动后支持管理GPU 二、K8s管理大模型服务方案针对vLLM serve、Ollama serve等各类大模型服务，可以使用资源类型为Deployment进...

大模型工程

8个月前

04015

如何获取并制作大模型微调数据集

一、从 Hugging Face 获取公共数据集地址： `https://huggingface.co/datasets` 1.1 安装命令行工具默认前提是机器已经装好 Python 和 pip。 1.2 获取 Token 注册、登录并验证邮箱后，可以在...

大模型工程

7个月前

03513

vLLM 集群模式部署：Ray、多机多卡与远程访问

一、先准备机器示例建议： * 优先使用阿里云。 * GPU 选 A10 或更高等级。 * 不建议选 T4，这类卡在大模型集群场景下通常偏弱。二、部署前准备 2.1 安装驱动和 CUDA 所有机器都要完成这一步。...

大模型工程

7个月前

05013

大模型推理优化总览：硬件、系统架构与服务部署

一、大模型优化的核心目标优化通常围绕四个目标展开： * 降低延迟： * 尤其是首个 Token 时间和生成速度。 * 提高吞吐： * 在固定资源下服务更多请求。 * 降低成本： * 提升资源利用率，降低单...

大模型工程

7个月前

0476

Kubernetes管理大模型实战

一、K8s使用Model资源部署大模型 1、在 K8s 上部署大模型，可以直接用 Ollama Operator 的 CRD Model 部署，比如部署一个 phi的模型 2、首次部署大模型，会先创建一个 store 服务，用于存储 oll...

大模型工程

8个月前

0297