AI 与智能体 第11页
LLaMA-Factory 微调 Qwen3-4B 实战:启动训练、测试与导出-AI运维探索者

LLaMA-Factory 微调 Qwen3-4B 实战:启动训练、测试与导出

一、启动 WebUI 在开始训练前,先把前面的测试命令结束掉,然后启动 WebUI: 浏览器访问: `http://ip:7860` 如果使用的是 AutoDL,仍然需要做自定义服务映射。 需要注意的是:WebUI 版本更适合...
大模型知识蒸馏入门:原理、方法与百度千帆实战-AI运维探索者

大模型知识蒸馏入门:原理、方法与百度千帆实战

一、什么是知识蒸馏 知识蒸馏(Knowledge Distillation)是一种模型压缩技术,核心思想是: * 用一个更大的教师模型指导一个更小的学生模型; * 让学生模型在更低资源占用下,尽量接近教师模型...
Dify 进阶实战:配置模型、插件与应用编排-AI运维探索者

Dify 进阶实战:配置模型、插件与应用编排

一、在 Dify 中配置模型 进入右上角头像的设置页,找到“模型供应商”。 安装并配置目标模型供应商后,就可以把自己的 API Key 填进去。 这里建议直接使用占位方式记录: * `DEEPSEEK_API_KEY=`...
Dify+Grafana运维实践:Grafana、Loki 与 Promtail 搭建-AI运维探索者

Dify+Grafana运维实践:Grafana、Loki 与 Promtail 搭建

一、安装 Grafana 官网下载地址: https://grafana.com/grafana/download 由于官网下载很慢,所以可以配置一个阿里云的源 vi /etc/yum.repos.d/grafana.repo 内容如下 用dnf安装grafana 启动服...
大模型选型指南:性能、参数与安全性-AI运维探索者

大模型选型指南:性能、参数与安全性

一、性能与场景适配度 1.1 通用能力 评估模型在数学推理、代码生成、多语言支持等通用任务上的表现。例如,通义千问在多项评测中表现突出,DeepSeek-R1 在复杂推理任务中也有明显优势。 1.2 行...
Transformer 为什么成为大模型核心架构-AI运维探索者

Transformer 为什么成为大模型核心架构

一、Transformer 解决了什么问题 传统模型(RNN/LSTM) * 痛点:无法并行处理、长距离依赖失效、上下文理解局限 * 举例:传话游戏,只能一传一,不能互相通信,第1个人接收到的信息跟第10个人比肯定会...
大模型如何训练:参数、数据与调用流程-AI运维探索者

大模型如何训练:参数、数据与调用流程

一、知识是如何进入参数的 观点:大模型本身没有知识库/数据库,它“大脑”里的知识来源于它的参数。这些知识是通过训练数据学习到的统计规律,编码在神经网络参数中。大模型不像传统数据库通过结...