模型部署 第4页
大模型私有化部署硬件选型策略与企业案例-AI运维探索者

大模型私有化部署硬件选型策略与企业案例

- 一、先按需求驱动做决策 - 1.1 数据安全与合规性优先 适用场景 * 金融、医疗、政府等需要遵守数据安全与个人信息保护要求的行业。 * 涉及国家机密,或者跨境数据传输受限的企业。 硬件选型要...
头像8个月前
03311
Kubernetes GPU资源调度落地-AI运维探索者

Kubernetes GPU资源调度落地

一、K8s集群部署 1.1 Runtime安装 1、卸载已经安装的 docker 2、配置源 3、安装 Containerd 4、配置 Containerd 的内核 5、创建 Containerd 的配置文件 6、启动Containerd 1.2 Kubernetes 部署 ...
头像9个月前
0325
大模型行业选型建议:法律、能源、农业与文旅-AI运维探索者

大模型行业选型建议:法律、能源、农业与文旅

一、法律行业 | 细分领域 | 核心要求 | 推荐模型 | 关键能力 | | -------- | ---------------------- | --------------------- | ---------------------------- | | 合同审查 | 条款风险识别、...
头像8个月前
03214
Transformer 编码器与解码器:一篇看懂核心结构-AI运维探索者

Transformer 编码器与解码器:一篇看懂核心结构

一、先看 Transformer 的整体结构 架构图: 示例:输入:'The cat sat on the mat'--->输出:'猫坐在垫子上' **输入阶段:** * 1)词嵌入(Word Embedding) * 将每个单词转换为512维向量,例如: *...
头像8个月前
03115
大模型微调怎么选:技术选型与 SFT、DPO、PPO、RLHF-AI运维探索者

大模型微调怎么选:技术选型与 SFT、DPO、PPO、RLHF

- 一、技术选型时先看什么 - 1.1 按任务复杂度选 * 高复杂度任务: * 例如多轮对话、复杂推理、长文本生成。 * 更适合全参数微调或指令微调。 * 低复杂度任务: * 例如简单分类、关键词提取。 *...
头像8个月前
03112
Unsloth 微调 Qwen3-4B 实战:训练、推理与 vLLM 部署-AI运维探索者

Unsloth 微调 Qwen3-4B 实战:训练、推理与 vLLM 部署

一、先配置训练器 示例里使用的是 `SFTTrainer`: - 二、几个关键超参数怎么理解 * `gradient_accumulation_steps`: * 用梯度累积模拟更大的 batch。 * `warmup_steps`: * 训练初期逐步升高学...
头像8个月前
0307
大模型私有化部署前,如何估算硬件配置-AI运维探索者

大模型私有化部署前,如何估算硬件配置

- 一、硬件核心配置逻辑 - 1.1 GPU 选型原则 * 显存容量:每 10 亿参数(1B)大约需要 1-2GB 显存,例如 70B 模型通常需要 80GB 级别显存,常见推荐是 A100 或 H100。 * 计算能力:优先选择 FP1...
头像8个月前
0309
大模型压测入门:核心指标与常见压测工具-AI运维探索者

大模型压测入门:核心指标与常见压测工具

一、大模型压测为什么特别重要 相比传统 API,大模型服务的性能不只是“请求快不快”,还涉及: * 首个 Token 出来的速度; * 后续 Token 生成的节奏; * 并发下吞吐是否塌陷; * GPU 利用率是...
头像8个月前
0306
LLaMA-Factory 微调 Qwen3-4B 实战:启动训练、测试与导出-AI运维探索者

LLaMA-Factory 微调 Qwen3-4B 实战:启动训练、测试与导出

一、启动 WebUI 在开始训练前,先把前面的测试命令结束掉,然后启动 WebUI: 浏览器访问: `http://ip:7860` 如果使用的是 AutoDL,仍然需要做自定义服务映射。 需要注意的是:WebUI 版本更适合...
头像8个月前
02814
大模型选型指南:性能、参数与安全性-AI运维探索者

大模型选型指南:性能、参数与安全性

一、性能与场景适配度 1.1 通用能力 评估模型在数学推理、代码生成、多语言支持等通用任务上的表现。例如,通义千问在多项评测中表现突出,DeepSeek-R1 在复杂推理任务中也有明显优势。 1.2 行...
头像8个月前
0275