一、技术选型时先看什么¶

1.1 按任务复杂度选¶

高复杂度任务：
例如多轮对话、复杂推理、长文本生成。
更适合全参数微调或指令微调。
低复杂度任务：
例如简单分类、关键词提取。
更适合 LoRA、Prompt Tuning 这类轻量方案。

1.2 按数据规模选¶

大数据量（>10K 样本）：
全参数微调或迁移学习式微调更容易发挥优势。
小数据量（<1K 样本）：
更适合 LoRA、Adapter，减少过拟合风险。
极小数据量（<100 样本）：
可以优先尝试 Prompt Tuning、Few-shot 等轻量路线。

1.3 按计算资源选¶

多 GPU、高性能环境：
可以考虑全参数微调或迁移学习式微调。
单 GPU 或资源有限：
更适合 LoRA、Adapter 这类高效微调方法。
边缘设备：
更适合知识蒸馏，把大模型能力压缩到小模型中。

1.4 按部署需求选¶

多任务复用：
Adapter、LoRA 更适合频繁切换任务。
单任务专用：
全参数微调更容易拿到最佳效果。
实时推理：
知识蒸馏、Prompt Tuning 更利于降低延迟。

1.5 按领域差异选¶

如果目标领域和预训练差异很大：
优先考虑迁移学习式微调。
如果差异不大：
通常直接做任务级微调就够了。

二、常见微调策略怎么理解¶

2.1 SFT：监督微调¶

SFT（Supervised Fine-Tuning）是最常见的起点，用高质量“输入-输出对”直接教模型完成任务。

优点¶

简单直接。
易实现，成本相对可控。
和 LoRA、QLoRA 等高效方法结合时非常实用。

缺点¶

很依赖数据质量。
泛化上限有限。
不擅长直接建模复杂的人类偏好。

2.2 DPO：直接偏好优化¶

DPO（Direct Preference Optimization）通过“回答 A 比回答 B 更好”的偏好数据直接优化模型，不需要单独训练奖励模型。

优点¶

对齐流程比 RLHF 更简单。
训练稳定性更好。
对小规模高质量偏好数据很友好。

缺点¶

高度依赖偏好数据质量。
对复杂动态奖励的适应能力不如强化学习路线。

2.3 PPO：近端策略优化¶

PPO 是强化学习里的经典算法，在大模型里通常用于基于奖励模型优化模型行为。

优点¶

灵活性高。
可以处理更复杂的奖励目标。

缺点¶

算法链路复杂。
算力成本高。
超参数调优难度也更大。

2.4 RLHF：基于人类反馈的强化学习¶

RLHF 会先用人类反馈训练奖励模型，再通过强化学习优化原始语言模型。

优点¶

更适合处理复杂偏好，例如安全性、帮助性、表达风格等。
在对话和生成任务中已经被广泛验证。

缺点¶

实施链路长。
训练和标注成本都高。
对奖励模型质量高度敏感。

2.5 ORPO：任务和偏好一起优化¶

ORPO 通常被看作兼顾监督信号和偏好优化的一类路线，适合在效果和效率之间找平衡。

三、对比总结¶

策略	核心优化目标	依赖数据	计算成本	稳定性	适用场景
SFT	任务适配	监督数据	低	高	指令遵循、任务适配
DPO	偏好对齐	偏好数据	中	高	对话对齐、内容优化
PPO	奖励优化	奖励模型	高	中	复杂对齐、动态任务
RLHF	人类反馈对齐	人类反馈	很高	中	高质量对话与生成
ORPO	任务 + 偏好	监督 + 偏好	中	高	高效对齐、多目标任务

四、两个常见选型案例¶

4.1 医疗文本分类¶

场景：样本少，领域差异大。
选型：先做领域迁移，再用 LoRA 做任务微调。
原因：既补足领域知识，又能控制成本。

4.2 多任务对话系统¶

场景：任务多、数据足。
选型：指令微调结合更强的对齐策略。
原因：先让模型学会遵循指令，再进一步优化人类偏好。

五、一个更实用的判断顺序¶

先看数据够不够，再看资源够不够，最后才看“要不要上更复杂的对齐路线”。多数项目里，先把 SFT 跑稳，再评估 DPO 或 RLHF，通常是更稳妥的节奏。

大模型微调怎么选：技术选型与 SFT、DPO、PPO、RLHF