什么是后训练?大语言模型训练后优化方法综述,87页pdf

发布于:2025-03-14 ⋅ 阅读:(19) ⋅ 点赞:(0)

图片

大语言模型(LLMs)的出现彻底改变了自然语言处理领域,使其在从对话系统到科学探索的各个领域中变得不可或缺。然而,其预训练架构在特定场景中往往表现出局限性,包括推理能力受限、伦理不确定性以及领域特定性能欠佳等问题。这些挑战促使了训练后语言模型(Post-training Language Models, PoLMs)的发展,以应对这些不足,例如OpenAI-o1/o3和DeepSeek-R1(统称为大推理模型,Large Reasoning Models, LRMs)。

本文首次对PoLMs进行了全面综述,系统性地追溯了其在五大核心范式中的演变:微调(Fine-tuning),用于提升任务特定准确性;对齐(Alignment),确保伦理一致性与人类偏好的一致性;推理(Reasoning),尽管奖励设计存在挑战,但仍推动多步推理的发展;效率(Efficiency),在复杂性增加的背景下优化资源利用;以及集成与适应(Integration and Adaptation),在解决一致性问题的基础上扩展跨多模态能力。

从2018年ChatGPT的基础对齐策略到2025年DeepSeek-R1的创新推理进展,我们展示了PoLMs如何利用数据集来减少偏见、深化推理能力并增强领域适应性。本文的贡献包括:首次对PoLM演进的系统性综述、对技术和数据集进行分类的结构化分类法,以及强调LRMs在提升推理能力和领域灵活性中的战略议程。作为首篇涵盖如此广泛范围的综述,本文整合了近期PoLM的进展,并为未来研究建立了严谨的学术框架,推动LLMs在科学和社会应用中实现精准性、伦理鲁棒性和多功能性的卓越表现。

关键词:训练后优化、大语言模型、微调、对齐、推理、效率。

图片

1 引言

普遍认为,真正的智能赋予我们推理能力,使我们能够检验假设并为未来的可能性做好准备。
——Jean Khalfa,《什么是智能?》(1994)

语言模型(Language Models, LMs)[1, 2] 是旨在建模和生成人类语言的复杂计算框架。这些模型彻底改变了自然语言处理(Natural Language Processing, NLP)领域[3],使机器能够以接近人类认知的方式理解、生成和交互人类语言。与人类通过互动和语境环境自然习得语言能力不同,机器需要通过大量数据驱动的训练来发展类似的能力[4]。这带来了重要的研究挑战,因为使机器能够理解并生成人类语言,同时进行自然且语境适当的对话,不仅需要巨大的计算资源,还需要精细的模型开发方法[5, 6]。

大语言模型(Large Language Models, LLMs)的出现,如GPT-3 [7]、InstructGPT [8] 和 GPT-4 [9],标志着语言模型演化的一个变革阶段。这些模型以其广泛的参数化和先进的学习能力为特点,旨在捕捉复杂语言结构、语境关系以及海量数据集中的细微模式。这使得LLMs不仅能够预测后续词语,还能在翻译、问答和摘要等多种任务中生成连贯且语境相关的文本。LLMs的发展引发了广泛的学术兴趣[5, 6, 10],其研究可分为两个主要阶段:预训练训练后优化

预训练:预训练的概念源于计算机视觉(Computer Vision, CV)任务中的迁移学习[10]。其主要目标是利用大规模数据集开发通用模型,以便轻松微调以适应各种下游应用。预训练的一个显著优势是能够利用任何未标注的文本语料库,从而提供丰富的训练数据来源。然而,早期的静态预训练方法,如神经网络语言模型(Neural Network Language Models, NNLM)[11] 和 Word2vec [12],难以适应不同的文本语义环境,这促使了动态预训练技术的发展,如BERT [2] 和 XLNet [13]。BERT通过利用Transformer架构和在大规模未标注数据集上使用自注意力机制,有效解决了静态方法的局限性。这项研究确立了“预训练与微调”的学习范式,激发了后续众多研究,引入了多种架构,包括GPT-2 [14] 和 BART [15]。

训练后优化:训练后优化是指在模型完成预训练后采用的技术和方法,旨在针对特定任务或用户需求对模型进行优化和调整。随着GPT-3 [7](拥有1750亿参数)的发布,训练后优化领域迎来了显著的关注和创新。各种方法涌现以提升模型性能,包括微调(Fine-tuning)[16, 17],利用标注数据集或特定任务数据调整模型参数;对齐策略(Alignment Strategies)[18, 19, 20],优化模型以更好地与用户偏好对齐;知识适应技术(Knowledge Adaptation Techniques)[21, 22],使模型能够融入领域特定知识;以及推理改进(Reasoning Improvements)[23, 24],增强模型的逻辑推理和决策能力。这些技术统称为训练后语言模型(Post-training Language Models, PoLMs),并推动了如GPT-4 [9]、LLaMA-3 [25]、Gemini-2.0 [26] 和 Claude-3.5 [27] 等模型的发展,标志着LLM能力的显著进步。然而,训练后模型往往难以在不重新训练或大幅调整参数的情况下适应新任务,这使得PoLM的开发成为一个活跃的研究领域。

正如所强调的,预训练语言模型(Pre-trained Language Models, PLMs)主要旨在提供通用知识和能力,而PoLMs则专注于将这些模型适应特定任务和需求。一个显著的例子是最新的LLM——DeepSeek-R1 [28],它展示了PoLMs在增强推理能力、对齐用户偏好以及提高跨领域适应性方面的演化[29]。此外,开源LLMs(如LLaMA [30]、Gemma [31] 和 Nemotron [32])和领域特定大规模数据集(如PromptSource [33] 和 Flan [34])的日益普及,正在推动学术界和工业界开发PoLMs的趋势。这一趋势凸显了在PoLM领域中定制化适应的重要性。

在现有文献中,PLMs已被广泛讨论和综述[10, 35, 36, 37],而PoLMs则很少被系统性地回顾。为了推动这些技术的发展,有必要彻底审视现有研究,以识别关键挑战、差距和进一步优化的机会。本综述旨在填补这一空白,为训练后优化的研究提供一个结构化框架。如图1所示,它探讨了训练后优化的多个阶段,特别关注从ChatGPT到DeepSeek所采用的技术。这些技术涵盖了广泛的方法论,包括微调、LLM对齐、推理增强和效率改进。图中的蓝色部分特别突出了DeepSeek所采用的一系列训练后优化方法,强调了其在适应用户偏好和领域特定需求方面的创新策略。

1.1 主要贡献

本文是首次对PoLMs进行全面综述,系统性地梳理了该领域的最新进展。以往的综述通常集中于LLM开发的特定方面,如偏好对齐[38]、参数高效微调[39] 和LLM的基础技术[40],而本综述则采取整体视角,全面回顾了训练后优化中常用的核心技术,并对其进行了系统分类。此外,我们还探讨了与这些方法相关的数据集和实际应用(如图2所示),并指出了未来研究的开放挑战和潜在方向。本综述的主要贡献如下:

  • 全面的历史综述:我们首次对PoLMs进行了深入的历史综述,追溯了从ChatGPT的初始人类反馈强化学习(Reinforcement Learning from Human Feedback, RLHF)到DeepSeek-R1的创新冷启动强化学习方法的演变。这一综述涵盖了关键技术(如微调、对齐、推理、效率和集成与适应),分析了它们的发展及相关挑战,如计算复杂性和伦理问题。通过将这些进展呈现为一个连贯的叙述,并辅以重要参考文献,我们为研究人员提供了近年来训练后优化演变的全面概述,为该领域奠定了坚实基础。

  • 结构化分类与框架:我们引入了一个结构化分类法(如图2所示),将训练后优化方法分为五大类别,并将数据集组织为七种类型,同时将应用框架划分为专业、技术和交互领域。这一框架阐明了这些方法之间的相互关系及其实际意义,为研究发展提供了系统性视角。通过提供明确的分类和分析见解,我们提高了新手和专家对训练后优化研究的可访问性和理解度,为应对其复杂性提供了全面指南。

  • 未来方向:我们强调了新兴趋势,特别是大推理模型(Large Reasoning Models, LRMs)的兴起,如o1 [41] 和 DeepSeek-R1 [28],它们利用大规模强化学习推动推理能力的边界。我们指出,持续的进步对于进一步增强推理能力和领域适应性至关重要。我们的分析识别了关键挑战,包括可扩展性限制、伦理对齐风险和多模态集成障碍。我们提出了研究路径,如自适应强化学习框架和公平感知优化。这些方向旨在推动训练后优化的发展,确保LLMs实现更高的精确性和可信度,以满足未来需求。

1.2 组织结构

本综述系统地组织,以全面探讨训练后语言模型(PoLMs),涵盖其历史演变、方法论、数据集、应用和未来发展方向。第2节提供了PoLMs的历史概述。第3节探讨了微调,包括监督微调(Supervised Fine-Tuning, SFT)(第3.1节)和强化微调(Reinforcement Fine-Tuning, RFT)(第3.3节)。第4节讨论了对齐,涵盖人类反馈强化学习(Reinforcement Learning from Human Feedback, RLHF)(第4.1节)、AI反馈强化学习(Reinforcement Learning from AI Feedback, RLAIF)(第4.2节)和直接偏好优化(Direct Preference Optimization, DPO)(第4.3节)。第5节聚焦推理,包括自我优化方法(第5.1节)和推理强化学习(第5.2节)。第6节调查了效率提升方法,包括模型压缩(第6.1节)、参数高效微调(Parameter-Efficient Fine-Tuning, PEFT)(第6.2节)和知识蒸馏(第6.3节)。第7节研究了集成与适应,涵盖多模态方法、领域适应和模型合并。第8节回顾了训练后优化中使用的数据集。第9节探讨了LLM的应用。第10节评估了开放问题和未来方向。最后,第11节总结了全文并展望了研究前景。

图片

PoLMs的历史

大语言模型(LLMs)的进步构成了自然语言处理(NLP)领域的关键篇章,而训练后优化方法则是其从通用预训练架构演变为专用任务适应系统的关键催化剂。本节梳理了训练后语言模型(Post-training Language Models, PoLMs)的历史轨迹,追溯了从BERT [2] 和 GPT [1] 等基础预训练里程碑到当代模型(如o1 [41] 和 DeepSeek-R1 [28])所体现的复杂训练后范式的发展。如图3所示,这一进展反映了从建立广泛语言能力到增强任务特定适应性、伦理对齐、推理复杂性和多模态集成的转变,标志着LLM能力的变革性演进。

现代PoLMs的历史起点与2018年的预训练革命相吻合,BERT [2] 和 GPT [1] 的发布重新定义了NLP的基准。BERT的双向自编码框架利用Transformer架构和自注意力机制,在捕捉上下文依赖关系(如问答任务)方面表现出色,而GPT的自回归设计则优先考虑生成连贯性,为文本生成设定了先例。这些模型确立了“预训练与微调”范式,随后在2019年通过T5 [42] 进行了改进,T5将多种任务统一到文本到文本的框架下,促进了多任务学习,并为训练后优化奠定了坚实基础。

从2020年开始,PoLMs的格局发生了显著变化,这主要是由于需要高效地将预训练模型适应到数据有限的各种任务中。早期的创新如前缀调优(prefix-tuning)[43] 和提示调优(prompt-tuning)[44] 引入了轻量级适应策略,通过修改模型输入而非重新训练整个架构来实现多任务灵活性,从而节省计算资源并扩大适用性。这一时期还见证了以用户为中心的优化的关键转变,2021年人类反馈强化学习(Reinforcement Learning from Human Feedback, RLHF)[45] 的出现,利用人类评估使模型输出与主观偏好对齐,增强了对话场景中的实用性。到2022年,RLHF通过采用近端策略优化(Proximal Policy Optimization, PPO)[46] 趋于成熟,提升了对齐稳定性并减少了对噪声反馈的过拟合。2022年底ChatGPT [9] 的发布巩固了这些进展,展示了RLHF在创建响应迅速、用户对齐的LLMs中的变革潜力,并推动了PoLMs研究的蓬勃发展。与此同时,思维链(Chain-of-Thought, CoT)提示[47] 作为一种推理增强策略出现,鼓励模型在复杂任务中表达中间步骤,从而提高了透明度和准确性,特别是在逻辑推理和问题解决领域。

2022年至2024年间,PoLMs多样化发展,以应对领域特异性、伦理鲁棒性和多模态集成,反映了LLM优化的日益精细化。领域适应技术,如检索增强生成(Retrieval-Augmented Generation, RAG)[48],通过集成外部知识库,为专业领域生成上下文丰富的输出,而无需完全重新训练——这对于需要最新信息的专业应用至关重要。伦理对齐努力也得到加强,2023年直接偏好优化(Direct Preference Optimization, DPO)[49] 通过直接优化模型输出以符合人类偏好,绕过了中间奖励建模,提高了效率和鲁棒性。同时,多模态能力的追求也取得了进展,PaLM-E [50] 和 Flamingo [51] 等模型率先实现了视觉-语言集成,随后BLIP-2 [52] 和 LLaVA [53] 将这些努力扩展到医学成像等更广泛的领域。效率创新与这些发展并行,特别是通过专家混合(Mixture of Experts, MoE)架构;2022年谷歌的Switch-C Transformer [54] 引入了2048个专家之间1.6万亿参数的稀疏激活,而Mixtral [55] 则进一步优化了这一范式,平衡了可扩展性和性能。这一时期的推理增强,如自我对弈(self-play)[56] 和蒙特卡洛树搜索(Monte Carlo Tree Search, MCTS)与CoT的集成[57],通过模拟迭代推理路径进一步增强了LLMs的决策能力,为专注于高级推理的模型奠定了基础。

专家混合(MoE)模型的兴起标志着架构上的重大进步,它们通过动态激活选择性参数子集,优化了计算效率,同时适应了大规模参数扩展。这一范式由2022年谷歌的Switch-C Transformer [54] 开创,其1.6万亿参数分布在2048个专家之间,平衡了资源需求与性能提升。随后的迭代,如Mixtral [55] 和 DeepSeek V2.5 [58](后者利用2360亿总参数,其中210亿在160个专家之间激活),进一步优化了这一框架,在LMSYS基准测试中取得了最先进的成果,证明了稀疏MoE架构在可扩展性和效能上可与密集模型媲美。这些发展标志着向效率导向的PoLMs的转变,使LLMs能够以更低的计算开销处理复杂任务,这是扩大其实际应用的关键一步。

到2025年,DeepSeek-R1 [28] 成为PoLMs创新的里程碑,它摒弃了传统的监督微调(Supervised Fine-Tuning, SFT)依赖,转而采用思维链(CoT)推理和探索性强化学习策略。以DeepSeek-R1-Zero为例,该模型集成了自我验证、反思和扩展的CoT生成,在开放研究范式中验证了RL驱动的推理激励,并引入了蒸馏技术[28] 将复杂的推理模式从大型架构转移到小型架构中。这种方法不仅在与独立RL训练相比中表现出优越性能,还预示着LLMs的可扩展、以推理为中心的范式,有望解决训练后方法中计算效率和任务适应性的持续挑战。

图片

图片

图片

来源 | 专知