论文速读|IMPROVING GENERALIZATION OF ALIGNMENT WITH HUMAN PREFERENCES THROUGH GROUP INVARIANT LEARNING
论文信息:
简介:
本文探讨了基于语言模型(LLMs)的AI助手的成功,这些助手依赖于从人类反馈中进行强化学习(RLHF),以生成更符合人类偏好的响应。随着AI助手的广泛应用,期望它们能够在各种领域中保持一致的性能。然而,现有的强化学习(RL)方法往往利用捷径来获得高奖励,忽视了具有挑战性的样本。这种对快速奖励的追求不仅影响了训练的稳定性,还削弱了模型对新数据的泛化能力。
本文的动机是解决现有RL方法在处理不同数据组时的泛化能力不足的问题。由于RL模型往往专注于最大化预期未来奖励,而忽视了数据组之间的差异,导致模型在面对不同分布的数据时表现不稳定。为了提高模型在不同数据组中的一致性和稳定性,本文提出了一种新的方法,旨在通过学习不同数据组之间的不变特征来增强模型的泛化能力。
论文方法:
本文提出了一种新的对齐方法,旨在通过组不变学习(group invariant learning)提高模型的泛化能力。
具体方法如下:
1)数据分组:文章首先提出了一种自动将数据分类到不同组的方法,无需手动标注。这种方法通过最大化不同数据组之间的性能差异来自动分割数据。
2)组不变约束(Group Invariant Constraint, GIC):文章定义了一种组不变约束,要求模型在每个组中的表现一致。这通过确保模型在不同数据组中具有均匀的性能来解决忽视具有挑战性样本的问题。
3)策略不变学习(Policy Invariant Learning):文章提出了一种新的框架,不依赖于先验领域或组知识进行策略不变学习。该框架分为两个阶段:第一阶段训练一个推断模型来预测组标签;第二阶段基于这些标签进行策略不变学习。
4)自适应KL惩罚:文章还提出了一种自适应KL惩罚方法,根据数据对的组标签动态调整惩罚强度。对于表现最好的组,应用更大的惩罚以防止奖励黑客攻击;对于难以优化的数据,放松约束以增加模型的探索空间。
论文实验:
根据Figure 2的实验内容,本文的实验部分主要关注于验证所提出方法在不同数据组之间的性能差异以及泛化能力。
组标签推断:实验结果表明,组标签推断能够有效地区分具有不同性能特征的数据组。
性能差距缩小:政策不变学习通过减少不同数据组之间的性能差异,提高了模型的泛化能力。
泛化能力:实验验证了所提出方法能够在训练过程中一致地识别不同组的数据,从而增强了策略的泛化能力。
实验结果支持了本文提出的方法在处理不同数据组时的有效性,特别是在提高模型的泛化能力和稳定性方面。通过自适应调整探索空间和优化策略,模型能够在更具挑战性的数据上表现更好,同时避免在简单数据上过度优化。
论文链接:
https://arxiv.org/abs/2310.11971