大模型工程-AI运维探索者-第5页

大模型工程-AI运维探索者-第5页

大模型知识蒸馏入门：原理、方法与百度千帆实战-AI运维探索者

大模型知识蒸馏入门：原理、方法与百度千帆实战

一、什么是知识蒸馏知识蒸馏（Knowledge Distillation）是一种模型压缩技术，核心思想是： * 用一个更大的教师模型指导一个更小的学生模型； * 让学生模型在更低资源占用下，尽量接近教师模型...

# 工程实践 # 大模型工程 # 模型部署

8个月前

02714

Transformer 为什么成为大模型核心架构-AI运维探索者

Transformer 为什么成为大模型核心架构

一、Transformer 解决了什么问题传统模型(RNN/LSTM) * 痛点:无法并行处理、长距离依赖失效、上下文理解局限 * 举例:传话游戏,只能一传一,不能互相通信,第1个人接收到的信息跟第10个人比肯定会...

# 工程实践 # 大模型工程 # 模型部署

8个月前

0267

大模型如何训练：参数、数据与调用流程-AI运维探索者

大模型如何训练：参数、数据与调用流程

一、知识是如何进入参数的观点:大模型本身没有知识库/数据库,它“大脑”里的知识来源于它的参数。这些知识是通过训练数据学习到的统计规律,编码在神经网络参数中。大模型不像传统数据库通过结...

# 工程实践 # 大模型工程 # 模型部署

8个月前

02610

上一页 1…3 45

AI