一、技术选型时先看什么¶
1.1 按任务复杂度选¶
- 高复杂度任务:
- 例如多轮对话、复杂推理、长文本生成。
- 更适合全参数微调或指令微调。
- 低复杂度任务:
- 例如简单分类、关键词提取。
- 更适合 LoRA、Prompt Tuning 这类轻量方案。
1.2 按数据规模选¶
- 大数据量(>10K 样本):
- 全参数微调或迁移学习式微调更容易发挥优势。
- 小数据量(<1K 样本):
- 更适合 LoRA、Adapter,减少过拟合风险。
- 极小数据量(<100 样本):
- 可以优先尝试 Prompt Tuning、Few-shot 等轻量路线。
1.3 按计算资源选¶
- 多 GPU、高性能环境:
- 可以考虑全参数微调或迁移学习式微调。
- 单 GPU 或资源有限:
- 更适合 LoRA、Adapter 这类高效微调方法。
- 边缘设备:
- 更适合知识蒸馏,把大模型能力压缩到小模型中。
1.4 按部署需求选¶
- 多任务复用:
- Adapter、LoRA 更适合频繁切换任务。
- 单任务专用:
- 全参数微调更容易拿到最佳效果。
- 实时推理:
- 知识蒸馏、Prompt Tuning 更利于降低延迟。
1.5 按领域差异选¶
- 如果目标领域和预训练差异很大:
- 优先考虑迁移学习式微调。
- 如果差异不大:
- 通常直接做任务级微调就够了。
二、常见微调策略怎么理解¶
2.1 SFT:监督微调¶
SFT(Supervised Fine-Tuning)是最常见的起点,用高质量“输入-输出对”直接教模型完成任务。
优点¶
- 简单直接。
- 易实现,成本相对可控。
- 和 LoRA、QLoRA 等高效方法结合时非常实用。
缺点¶
- 很依赖数据质量。
- 泛化上限有限。
- 不擅长直接建模复杂的人类偏好。
2.2 DPO:直接偏好优化¶
DPO(Direct Preference Optimization)通过“回答 A 比回答 B 更好”的偏好数据直接优化模型,不需要单独训练奖励模型。
优点¶
- 对齐流程比 RLHF 更简单。
- 训练稳定性更好。
- 对小规模高质量偏好数据很友好。
缺点¶
- 高度依赖偏好数据质量。
- 对复杂动态奖励的适应能力不如强化学习路线。
2.3 PPO:近端策略优化¶
PPO 是强化学习里的经典算法,在大模型里通常用于基于奖励模型优化模型行为。
优点¶
- 灵活性高。
- 可以处理更复杂的奖励目标。
缺点¶
- 算法链路复杂。
- 算力成本高。
- 超参数调优难度也更大。
2.4 RLHF:基于人类反馈的强化学习¶
RLHF 会先用人类反馈训练奖励模型,再通过强化学习优化原始语言模型。
优点¶
- 更适合处理复杂偏好,例如安全性、帮助性、表达风格等。
- 在对话和生成任务中已经被广泛验证。
缺点¶
- 实施链路长。
- 训练和标注成本都高。
- 对奖励模型质量高度敏感。
2.5 ORPO:任务和偏好一起优化¶
ORPO 通常被看作兼顾监督信号和偏好优化的一类路线,适合在效果和效率之间找平衡。
三、对比总结¶
| 策略 | 核心优化目标 | 依赖数据 | 计算成本 | 稳定性 | 适用场景 |
|---|---|---|---|---|---|
| SFT | 任务适配 | 监督数据 | 低 | 高 | 指令遵循、任务适配 |
| DPO | 偏好对齐 | 偏好数据 | 中 | 高 | 对话对齐、内容优化 |
| PPO | 奖励优化 | 奖励模型 | 高 | 中 | 复杂对齐、动态任务 |
| RLHF | 人类反馈对齐 | 人类反馈 | 很高 | 中 | 高质量对话与生成 |
| ORPO | 任务 + 偏好 | 监督 + 偏好 | 中 | 高 | 高效对齐、多目标任务 |
四、两个常见选型案例¶
4.1 医疗文本分类¶
- 场景:样本少,领域差异大。
- 选型:先做领域迁移,再用 LoRA 做任务微调。
- 原因:既补足领域知识,又能控制成本。
4.2 多任务对话系统¶
- 场景:任务多、数据足。
- 选型:指令微调结合更强的对齐策略。
- 原因:先让模型学会遵循指令,再进一步优化人类偏好。
五、一个更实用的判断顺序¶
先看数据够不够,再看资源够不够,最后才看“要不要上更复杂的对齐路线”。多数项目里,先把 SFT 跑稳,再评估 DPO 或 RLHF,通常是更稳妥的节奏。