大模型工程-AI运维探索者-第4页

更新

浏览

用 DistillKit 做大模型蒸馏：Qwen3-8B 到 Qwen3-0.6B

一、DistillKit 是什么 DistillKit 是 Arcee.AI 开源的大模型蒸馏工具包，目标是让研究和工程团队更容易实践多种蒸馏方法。它支持的主要方向包括： * 基于 logits 的蒸馏； * 基于隐藏状态的蒸...

# 工程实践 # 大模型工程 # 模型部署

7个月前

0355

大模型参数入门：从规模到主流模型量级

一、什么是大模型参数 * 参数单位:B,billion(十亿) * 参数是什么? 大模型参数是通过海量数据训练得到的内部数值,用于存储知识关联并决定模型处理信息的方式。 * 举例1:参数就好比图书馆书架上的...

# 工程实践 # 大模型工程 # 模型部署

8个月前

0416

大模型行业选型建议：法律、能源、农业与文旅

一、法律行业 | 细分领域 | 核心要求 | 推荐模型 | 关键能力 | | -------- | ---------------------- | --------------------- | ---------------------------- | | 合同审查 | 条款风险识别、...

# 工程实践 # 大模型工程 # 模型部署

8个月前

03214

Transformer 为什么成为大模型核心架构

一、Transformer 解决了什么问题传统模型(RNN/LSTM) * 痛点:无法并行处理、长距离依赖失效、上下文理解局限 * 举例:传话游戏,只能一传一,不能互相通信,第1个人接收到的信息跟第10个人比肯定会...

# 工程实践 # 大模型工程 # 模型部署

8个月前

0267

用 EvalScope 压测 Qwen3-8B：从环境准备到指标解读

一、压测对象这份实战使用的是硅基流动提供的免费 `Qwen3-8B` 服务。模型入口示意：获取 API Key 的流程同样在平台控制台中完成。公开文档里只建议写成： * `SILICONFLOW_API_KEY=` 二、准...

# 工程实践 # 大模型工程 # 模型部署

7个月前

0558

大模型如何训练：参数、数据与调用流程

一、知识是如何进入参数的观点:大模型本身没有知识库/数据库,它“大脑”里的知识来源于它的参数。这些知识是通过训练数据学习到的统计规律,编码在神经网络参数中。大模型不像传统数据库通过结...

# 工程实践 # 大模型工程 # 模型部署

8个月前

02610

大模型行业选型建议：金融、医疗、制造与教育

一、金融行业 | 细分领域 | 核心要求 | 推荐模型 | 关键能力 | | ---------- | ------------------------ | --------------- | ------------------------------ | | 投研、分析 | 招股书解析、...

# 工程实践 # 大模型工程 # 模型部署

8个月前

04911

Transformer 编码器与解码器：一篇看懂核心结构

一、先看 Transformer 的整体结构架构图：示例：输入:'The cat sat on the mat'--->输出:'猫坐在垫子上' **输入阶段:** * 1）词嵌入(Word Embedding) * 将每个单词转换为512维向量,例如: *...

# 工程实践 # 大模型工程 # 模型部署

8个月前

03115

腾讯云 HAI 体验：从创建实例到 OpenWebUI 测试

一、先创建 HAI 实例地址： `https://cloud.tencent.com/product/hai` 1.1 进入 HAI 控制台打开官网后，点击“立即使用”。 1.2 新建算力实例进入： `算力管理 -> 新建` 1.3 填写实例参数...

# 工程实践 # 大模型工程 # 模型部署

7个月前

03713

大模型微调入门：为什么需要微调与常见技术路线

一、为什么需要微调微调的核心价值，通常体现在下面几个方面： * 解决预训练模型“通用但不够专”的问题。 * 处理目标场景与预训练数据之间的数据分布差异。 * 在有限计算资源下，用更高效的方...

# 工程实践 # 大模型工程 # 模型部署

8个月前

05710