训练集与训练方法

发布于：2025-02-10 ⋅ 阅读:(87) ⋅ 点赞:(0)

方法	数据集特点	适用场景
SFT	输入-输出对，标注数据	文本分类、机器翻译、图像识别
DPO	偏好对，人类反馈	对话生成、推荐系统、文本生成
RLHF	人类反馈数据，奖励模型	对话系统、内容生成
Unsupervised	无标签数据	聚类、降维、生成模型
Self-Supervised	伪标签，大规模无标签数据	预训练语言模型、特征学习
Imitation Learning	专家轨迹，状态-动作对	机器人控制、自动驾驶、游戏 AI
Multi-Task Learning	多任务数据，任务共享	多任务 NLP、多任务计算机视觉
Meta-Learning	任务集合，小样本数据	小样本学习、快速适应新任务
Active Learning	未标注数据池，标注策略	标注成本高的任务
Curriculum Learning	难度分级数据，逐步训练	语言模型、图像分类
Transfer Learning	源任务数据 + 目标任务数据	目标任务数据有限的场景
Adversarial Training	对抗样本，鲁棒性目标	提高模型对对抗攻击的鲁棒性

1. SFT（Supervised Fine-Tuning，监督微调）

定义：在预训练模型的基础上，使用标注数据进行任务特定的微调。
数据集特点：
- 输入-输出对：每个样本包含输入（如文本、图像）和对应的目标输出（如标签、翻译文本）。
- 标注数据：需要人工标注，确保输入和输出的正确性。
- 任务相关：数据集与具体任务紧密相关（如分类、翻译、生成等）。
适用场景：
- 文本分类、机器翻译、图像识别等需要精确标注的任务。
示例：
- 文本分类：输入是文本，输出是类别标签。
- 机器翻译：输入是源语言句子，输出是目标语言句子。

2. DPO（Direct Preference Optimization，直接偏好优化）

定义：通过直接优化模型输出与人类偏好的对齐，通常用于生成任务。
数据集特点：
- 偏好对：每个样本包含多个输出（如两个生成结果）和人类偏好标签（如哪个更好）。
- 相对比较：基于人类或其他模型的偏好，而非绝对标注。
- 任务相关：数据集与生成任务紧密相关（如对话生成、推荐系统）。
适用场景：
- 对话生成、推荐系统、文本生成等需要优化输出偏好的任务。
示例：
- 对话生成：输入是对话上下文，输出是两个回复，偏好标签表示哪个回复更好。

3. RLHF（Reinforcement Learning from Human Feedback，基于人类反馈的强化学习）

定义：结合强化学习和人类反馈，训练模型生成符合人类偏好的输出。
数据集特点：
- 人类反馈数据：包含模型生成的输出和人类对其质量的评分或排序。
- 奖励模型：需要先训练一个奖励模型（Reward Model）来评估生成结果。
- 偏好数据：类似于 DPO，但用于强化学习框架。
适用场景：
- 对话系统、内容生成等需要对齐人类偏好的任务。
示例：
- 输入：一个问题或提示。
- 输出：多个生成回复。
- 人类反馈：对回复的质量进行评分或排序。

4. Unsupervised Learning（无监督学习）

定义：不依赖标注数据，通过数据的内在结构进行学习。
数据集特点：
- 无标签数据：只有输入数据，没有对应的输出标签。
- 任务类型：聚类、降维、生成模型（如 GAN、VAE）等。
适用场景：
- 数据聚类、特征提取、生成模型训练。
示例：
- 文本数据：大量未标注的文本（如维基百科、新闻文章）。
- 图像数据：大量未标注的图像（如 Flickr 数据集）。

5. Self-Supervised Learning（自监督学习）

定义：通过设计预训练任务从无标签数据中生成伪标签。
数据集特点：
- 伪标签：通过数据本身生成标签（如预测被遮蔽的词、预测下一句等）。
- 大规模数据：通常需要大量无标签数据。
适用场景：
- 预训练语言模型、特征学习。
示例：
- 掩码语言建模（MLM）：如 BERT 的预训练任务。
- 对比学习：如 SimCLR，通过对比正负样本学习特征表示。

6. Imitation Learning（模仿学习）

定义：通过模仿专家行为来训练模型。
数据集特点：
- 专家轨迹：包含专家在特定任务中的行为记录（如状态-动作对）。
- 任务相关：数据集与具体任务紧密相关。
适用场景：
- 机器人控制、游戏 AI、自动驾驶。
示例：
- 自动驾驶：专家驾驶员的驾驶记录（如方向盘角度、油门、刹车等）。

7. Multi-Task Learning（多任务学习）

定义：通过同时学习多个相关任务来提高模型的泛化能力。
数据集特点：
- 多任务数据：包含多个任务的输入-输出对。
- 任务共享：模型需要在不同任务之间共享知识。
适用场景：
- 多任务 NLP（如文本分类、命名实体识别、情感分析）。
- 多任务计算机视觉（如图像分类、目标检测、语义分割）。

8. Meta-Learning（元学习）

定义：训练模型快速适应新任务，通常用于小样本学习。
数据集特点：
- 任务集合：包含多个相关任务，每个任务有自己的小规模数据集。
- 快速适应：模型需要在少量样本上快速学习新任务。
适用场景：
- 小样本学习（Few-Shot Learning）。
- 快速适应新环境（如 Meta-RL）。

9. Active Learning（主动学习）

定义：让模型选择最有价值的样本进行标注，减少标注成本。
数据集特点：
- 未标注数据池：包含大量未标注数据。
- 标注策略：模型选择最有价值的样本进行标注。
适用场景：
- 标注成本高的任务（如医学图像标注、法律文本标注）。

10. Curriculum Learning（课程学习）

定义：通过从简单到复杂的顺序训练模型，逐步提高模型的能力。
数据集特点：
- 难度分级：数据集中的样本按难度分级。
- 逐步训练：模型从简单样本开始，逐步学习复杂样本。
适用场景：
- 语言模型、图像分类等需要逐步学习的任务。

11. Transfer Learning（迁移学习）

定义：将预训练模型的知识迁移到新任务中。
数据集特点：
- 源任务数据：用于预训练的大规模数据集。
- 目标任务数据：用于微调的小规模数据集。
适用场景：
- 目标任务数据有限的场景（如医学图像分析、领域特定文本分类）。

12. Adversarial Training（对抗训练）

定义：通过生成对抗样本提高模型的鲁棒性。
数据集特点：
- 对抗样本：包含经过扰动的输入数据。
- 鲁棒性目标：模型需要在对抗样本上表现良好。
适用场景：
- 提高模型对对抗攻击的鲁棒性（如图像分类、文本分类）。