排序
Kubernetes管理大模型实战
一、K8s使用Model资源部署大模型 1、在 K8s 上部署大模型,可以直接用 Ollama Operator 的 CRD Model 部署,比如部署一个 phi的模型 2、首次部署大模型,会先创建一个 store 服务,用于存储 oll...
大模型行业选型建议:法律、能源、农业与文旅
一、法律行业 | 细分领域 | 核心要求 | 推荐模型 | 关键能力 | | -------- | ---------------------- | --------------------- | ---------------------------- | | 合同审查 | 条款风险识别、...
Kubernetes GPU资源调度落地
一、K8s集群部署 1.1 Runtime安装 1、卸载已经安装的 docker 2、配置源 3、安装 Containerd 4、配置 Containerd 的内核 5、创建 Containerd 的配置文件 6、启动Containerd 1.2 Kubernetes 部署 ...
Transformer 编码器与解码器:一篇看懂核心结构
一、先看 Transformer 的整体结构 架构图: 示例:输入:'The cat sat on the mat'--->输出:'猫坐在垫子上' **输入阶段:** * 1)词嵌入(Word Embedding) * 将每个单词转换为512维向量,例如: *...
大模型微调怎么选:技术选型与 SFT、DPO、PPO、RLHF
- 一、技术选型时先看什么 - 1.1 按任务复杂度选 * 高复杂度任务: * 例如多轮对话、复杂推理、长文本生成。 * 更适合全参数微调或指令微调。 * 低复杂度任务: * 例如简单分类、关键词提取。 *...
大模型私有化部署前,如何估算硬件配置
- 一、硬件核心配置逻辑 - 1.1 GPU 选型原则 * 显存容量:每 10 亿参数(1B)大约需要 1-2GB 显存,例如 70B 模型通常需要 80GB 级别显存,常见推荐是 A100 或 H100。 * 计算能力:优先选择 FP1...
大模型压测入门:核心指标与常见压测工具
一、大模型压测为什么特别重要 相比传统 API,大模型服务的性能不只是“请求快不快”,还涉及: * 首个 Token 出来的速度; * 后续 Token 生成的节奏; * 并发下吞吐是否塌陷; * GPU 利用率是...
Unsloth 微调 Qwen3-4B 实战:训练、推理与 vLLM 部署
一、先配置训练器 示例里使用的是 `SFTTrainer`: - 二、几个关键超参数怎么理解 * `gradient_accumulation_steps`: * 用梯度累积模拟更大的 batch。 * `warmup_steps`: * 训练初期逐步升高学...
LLaMA-Factory 微调 Qwen3-4B 实战:启动训练、测试与导出
一、启动 WebUI 在开始训练前,先把前面的测试命令结束掉,然后启动 WebUI: 浏览器访问: `http://ip:7860` 如果使用的是 AutoDL,仍然需要做自定义服务映射。 需要注意的是:WebUI 版本更适合...
大模型知识蒸馏入门:原理、方法与百度千帆实战
一、什么是知识蒸馏 知识蒸馏(Knowledge Distillation)是一种模型压缩技术,核心思想是: * 用一个更大的教师模型指导一个更小的学生模型; * 让学生模型在更低资源占用下,尽量接近教师模型...











