工程实践-AI运维探索者-第6页

LLaMA-Factory 微调 Qwen3-4B 实战：启动训练、测试与导出

一、启动 WebUI 在开始训练前，先把前面的测试命令结束掉，然后启动 WebUI：浏览器访问： `http://ip:7860` 如果使用的是 AutoDL，仍然需要做自定义服务映射。需要注意的是：WebUI 版本更适合...

8个月前

02814

一、什么是知识蒸馏知识蒸馏（Knowledge Distillation）是一种模型压缩技术，核心思想是： * 用一个更大的教师模型指导一个更小的学生模型； * 让学生模型在更低资源占用下，尽量接近教师模型...

8个月前

02714

一、变量和常量 1.1 变量 1.1 什么是Go语言变量在Go语言中，变量用于存储和操作数据。Go 语言变量名由字母、数字、下划线组成，其中首个字符不能为数字。 1.1 什么是变量声明声明变量的一般形...

3年前

0276

一、性能与场景适配度 1.1 通用能力评估模型在数学推理、代码生成、多语言支持等通用任务上的表现。例如，通义千问在多项评测中表现突出，DeepSeek-R1 在复杂推理任务中也有明显优势。 1.2 行...

8个月前

0275

一、Transformer 解决了什么问题传统模型(RNN/LSTM) * 痛点:无法并行处理、长距离依赖失效、上下文理解局限 * 举例:传话游戏,只能一传一,不能互相通信,第1个人接收到的信息跟第10个人比肯定会...

8个月前

0267

一、知识是如何进入参数的观点:大模型本身没有知识库/数据库,它“大脑”里的知识来源于它的参数。这些知识是通过训练数据学习到的统计规律,编码在神经网络参数中。大模型不像传统数据库通过结...

8个月前

02610