排序
常见主流开源大模型盘点
一、先看主流开源大模型全景 | 大模型 | 代表模型 | 公司 | 特点 | | ------------ | ------------- | ---------------- | ------------------------------------------------------------ | | ...
商业大模型微调平台盘点:阿里云 PAI、硅基流动与讯飞星辰
一、阿里云 PAI 地址: `https://pai.console.aliyun.com/` 阿里云 PAI 提供了一站式的大模型训练与部署能力,比较适合已经在云上做 AI 研发,或者希望快速接入微调工作流的团队。 1.1 典型入口...
大模型是什么,它为什么重要
一、先认识什么是大模型 1.1 常见的大模型 常见的大模型: * ChatGPT * DeepSeek * 豆包 * 腾讯元宝 1.2 大模型的定义 大模型定义: * 大语言模型(LLM) * 关键字:大 --> 参数规模比较大、训...
Kubernetes驱动的GPU与大模型管理
一、为什么使用k8s管理GPU与大模型 我们可以从下面六个角度进行分析为什么使用k8s管理GPU与大模型: * 资源调度与优化 * 多租户隔离与资源分配 * 简化部署与管理 * 弹性伸缩和负载均衡 * 高可用...
常见主流闭源大模型盘点
一、主流闭源大模型概览 | 模型 | 代表模型 | 公司 | 特点 | | -------- | ---------------------- | ------------ | ------------------------------------------------------------ | | GPT ...
大模型与Ollama初体验
一、Ollama介绍与特性 1.1 什么是Ollama Ollama是一个轻量级、易于使用的大模型管理和部署工具,主要用于简化大模型的运行和交互。并且为开发者和用户提供了快速加载、管理和调用多种主流大模型...
大模型知识蒸馏入门:原理、方法与百度千帆实战
一、什么是知识蒸馏 知识蒸馏(Knowledge Distillation)是一种模型压缩技术,核心思想是: * 用一个更大的教师模型指导一个更小的学生模型; * 让学生模型在更低资源占用下,尽量接近教师模型...
LLaMA-Factory 微调 Qwen3-4B 实战:启动训练、测试与导出
一、启动 WebUI 在开始训练前,先把前面的测试命令结束掉,然后启动 WebUI: 浏览器访问: `http://ip:7860` 如果使用的是 AutoDL,仍然需要做自定义服务映射。 需要注意的是:WebUI 版本更适合...
常见开源大模型微调工具盘点:PEFT、LLaMA-Factory、Unsloth、XTuner
一、Hugging Face Transformers 与 PEFT Transformers 是 Hugging Face 的核心开源库,覆盖 NLP、视觉、音频等多种任务,同时把模型加载、Tokenizer、Pipeline 等常见能力做了模块化封装。 PEFT...
大模型为什么离不开 GPU
一、为什么大模型依赖 GPU 大模型(如GPT、DeepSeek等)依赖GPU进行训练和推理 CPU和GPU的区别: | | CPU | GPU | | -------------------------- | --------------------------------------------...











