模型部署-AI运维探索者

大模型私有化部署前，如何估算硬件配置

- 一、硬件核心配置逻辑 - 1.1 GPU 选型原则 * 显存容量：每 10 亿参数（1B）大约需要 1-2GB 显存，例如 70B 模型通常需要 80GB 级别显存，常见推荐是 A100 或 H100。 * 计算能力：优先选择 FP1...

大模型工程

8个月前

0309

LLaMA-Factory 微调 Qwen3-4B 实战：环境准备与数据配置

一、先明确整体思路这套流程的目标是：在 AutoDL 云服务器上安装 `LLaMA-Factory`，然后对 `Qwen3-4B` 做微调。二、环境准备 2.1 购买云主机笔记里建议使用 AutoDL，选择 3090 显卡即可。如...

大模型工程

8个月前

04812

开源大模型私有化部署思路与阿里云 PAI 快速部署

- 一、开源模型一般去哪里找 * Hugging Face：`https://huggingface.co/models` * 魔塔社区：`https://modelscope.cn/models` 一、部署前先把思路定下来 1.1 先确定目标模型例如以 `QWQ-32B` ...

大模型工程

7个月前

04110

大模型压测入门：核心指标与常见压测工具

一、大模型压测为什么特别重要相比传统 API，大模型服务的性能不只是“请求快不快”，还涉及： * 首个 Token 出来的速度； * 后续 Token 生成的节奏； * 并发下吞吐是否塌陷； * GPU 利用率是...

大模型工程

8个月前

0306

大模型私有化部署硬件选型策略与企业案例

- 一、先按需求驱动做决策 - 1.1 数据安全与合规性优先适用场景 * 金融、医疗、政府等需要遵守数据安全与个人信息保护要求的行业。 * 涉及国家机密，或者跨境数据传输受限的企业。硬件选型要...

大模型工程

8个月前

03311

Ollama 私有化部署实战：云主机、模型运行与 OpenWebUI

一、先准备云主机 1.1 AutoDL AutoDL 官网： `https://autodl.com/home` 它的优势通常是便宜、按量付费、适合做实验，但因为是容器化虚拟机，性能体验可能略差一些。 1.2 阿里云 / 腾讯云 GPU ...

大模型工程

8个月前

0459

用 DistillKit 做大模型蒸馏：Qwen3-8B 到 Qwen3-0.6B

一、DistillKit 是什么 DistillKit 是 Arcee.AI 开源的大模型蒸馏工具包，目标是让研究和工程团队更容易实践多种蒸馏方法。它支持的主要方向包括： * 基于 logits 的蒸馏； * 基于隐藏状态的蒸...

大模型工程

7个月前

0355

大模型参数入门：从规模到主流模型量级

一、什么是大模型参数 * 参数单位:B,billion(十亿) * 参数是什么? 大模型参数是通过海量数据训练得到的内部数值,用于存储知识关联并决定模型处理信息的方式。 * 举例1:参数就好比图书馆书架上的...

大模型工程

8个月前

0416

大模型行业选型建议：法律、能源、农业与文旅

一、法律行业 | 细分领域 | 核心要求 | 推荐模型 | 关键能力 | | -------- | ---------------------- | --------------------- | ---------------------------- | | 合同审查 | 条款风险识别、...

大模型工程

8个月前

03214

Transformer 为什么成为大模型核心架构

一、Transformer 解决了什么问题传统模型(RNN/LSTM) * 痛点:无法并行处理、长距离依赖失效、上下文理解局限 * 举例:传话游戏,只能一传一,不能互相通信,第1个人接收到的信息跟第10个人比肯定会...

大模型工程

8个月前

0267

12 3…5 下一页