方法 | 数据集特点 | 适用场景 |
---|---|---|
SFT | 输入-输出对,标注数据 | 文本分类、机器翻译、图像识别 |
DPO | 偏好对,人类反馈 | 对话生成、推荐系统、文本生成 |
RLHF | 人类反馈数据,奖励模型 | 对话系统、内容生成 |
Unsupervised | 无标签数据 | 聚类、降维、生成模型 |
Self-Supervised | 伪标签,大规模无标签数据 | 预训练语言模型、特征学习 |
Imitation Learning | 专家轨迹,状态-动作对 | 机器人控制、自动驾驶、游戏 AI |
Multi-Task Learning | 多任务数据,任务共享 | 多任务 NLP、多任务计算机视觉 |
Meta-Learning | 任务集合,小样本数据 | 小样本学习、快速适应新任务 |
Active Learning | 未标注数据池,标注策略 | 标注成本高的任务 |
Curriculum Learning | 难度分级数据,逐步训练 | 语言模型、图像分类 |
Transfer Learning | 源任务数据 + 目标任务数据 | 目标任务数据有限的场景 |
Adversarial Training | 对抗样本,鲁棒性目标 | 提高模型对对抗攻击的鲁棒性 |
1. SFT(Supervised Fine-Tuning,监督微调)
定义:在预训练模型的基础上,使用标注数据进行任务特定的微调。
数据集特点:
输入-输出对:每个样本包含输入(如文本、图像)和对应的目标输出(如标签、翻译文本)。
标注数据:需要人工标注,确保输入和输出的正确性。
任务相关:数据集与具体任务紧密相关(如分类、翻译、生成等)。
适用场景:
文本分类、机器翻译、图像识别等需要精确标注的任务。
示例:
文本分类:输入是文本,输出是类别标签。
机器翻译:输入是源语言句子,输出是目标语言句子。
2. DPO(Direct Preference Optimization,直接偏好优化)
定义:通过直接优化模型输出与人类偏好的对齐,通常用于生成任务。
数据集特点:
偏好对:每个样本包含多个输出(如两个生成结果)和人类偏好标签(如哪个更好)。
相对比较:基于人类或其他模型的偏好,而非绝对标注。
任务相关:数据集与生成任务紧密相关(如对话生成、推荐系统)。
适用场景:
对话生成、推荐系统、文本生成等需要优化输出偏好的任务。
示例:
对话生成:输入是对话上下文,输出是两个回复,偏好标签表示哪个回复更好。
3. RLHF(Reinforcement Learning from Human Feedback,基于人类反馈的强化学习)
定义:结合强化学习和人类反馈,训练模型生成符合人类偏好的输出。
数据集特点:
人类反馈数据:包含模型生成的输出和人类对其质量的评分或排序。
奖励模型:需要先训练一个奖励模型(Reward Model)来评估生成结果。
偏好数据:类似于 DPO,但用于强化学习框架。
适用场景:
对话系统、内容生成等需要对齐人类偏好的任务。
示例:
输入:一个问题或提示。
输出:多个生成回复。
人类反馈:对回复的质量进行评分或排序。
4. Unsupervised Learning(无监督学习)
定义:不依赖标注数据,通过数据的内在结构进行学习。
数据集特点:
无标签数据:只有输入数据,没有对应的输出标签。
任务类型:聚类、降维、生成模型(如 GAN、VAE)等。
适用场景:
数据聚类、特征提取、生成模型训练。
示例:
文本数据:大量未标注的文本(如维基百科、新闻文章)。
图像数据:大量未标注的图像(如 Flickr 数据集)。
5. Self-Supervised Learning(自监督学习)
定义:通过设计预训练任务从无标签数据中生成伪标签。
数据集特点:
伪标签:通过数据本身生成标签(如预测被遮蔽的词、预测下一句等)。
大规模数据:通常需要大量无标签数据。
适用场景:
预训练语言模型、特征学习。
示例:
掩码语言建模(MLM):如 BERT 的预训练任务。
对比学习:如 SimCLR,通过对比正负样本学习特征表示。
6. Imitation Learning(模仿学习)
定义:通过模仿专家行为来训练模型。
数据集特点:
专家轨迹:包含专家在特定任务中的行为记录(如状态-动作对)。
任务相关:数据集与具体任务紧密相关。
适用场景:
机器人控制、游戏 AI、自动驾驶。
示例:
自动驾驶:专家驾驶员的驾驶记录(如方向盘角度、油门、刹车等)。
7. Multi-Task Learning(多任务学习)
定义:通过同时学习多个相关任务来提高模型的泛化能力。
数据集特点:
多任务数据:包含多个任务的输入-输出对。
任务共享:模型需要在不同任务之间共享知识。
适用场景:
多任务 NLP(如文本分类、命名实体识别、情感分析)。
多任务计算机视觉(如图像分类、目标检测、语义分割)。
8. Meta-Learning(元学习)
定义:训练模型快速适应新任务,通常用于小样本学习。
数据集特点:
任务集合:包含多个相关任务,每个任务有自己的小规模数据集。
快速适应:模型需要在少量样本上快速学习新任务。
适用场景:
小样本学习(Few-Shot Learning)。
快速适应新环境(如 Meta-RL)。
9. Active Learning(主动学习)
定义:让模型选择最有价值的样本进行标注,减少标注成本。
数据集特点:
未标注数据池:包含大量未标注数据。
标注策略:模型选择最有价值的样本进行标注。
适用场景:
标注成本高的任务(如医学图像标注、法律文本标注)。
10. Curriculum Learning(课程学习)
定义:通过从简单到复杂的顺序训练模型,逐步提高模型的能力。
数据集特点:
难度分级:数据集中的样本按难度分级。
逐步训练:模型从简单样本开始,逐步学习复杂样本。
适用场景:
语言模型、图像分类等需要逐步学习的任务。
11. Transfer Learning(迁移学习)
定义:将预训练模型的知识迁移到新任务中。
数据集特点:
源任务数据:用于预训练的大规模数据集。
目标任务数据:用于微调的小规模数据集。
适用场景:
目标任务数据有限的场景(如医学图像分析、领域特定文本分类)。
12. Adversarial Training(对抗训练)
定义:通过生成对抗样本提高模型的鲁棒性。
数据集特点:
对抗样本:包含经过扰动的输入数据。
鲁棒性目标:模型需要在对抗样本上表现良好。
适用场景:
提高模型对对抗攻击的鲁棒性(如图像分类、文本分类)。