AI Alignment: A Comprehensive Survey---从反馈中学习、可扩展监督、由弱到强的泛化-EW帮帮网

从反馈中学习

可扩展监督

统计学习算法通常依赖于对数据分布的某些假设，例如独立性和相同分布。因此，这些算法在某些情况下会失败，尤其是在特定分布下（Zhou 等人，2022 年）。基本系统中的挑战可以通过目视检查迅速发现（Christiano 等人，2018 年；Ngo 等人，2024 年）。随着人工智能系统变得越来越强大，对训练信号的捕获不足或损失函数的错误设计往往会导致灾难性的行为（Russell et al, 2015; Hubinger et al, 2019c; Cotra, 2021），例如通过混淆差异来欺骗人类（Russell, 2019）、规格游戏（Victoria et al, 2020）、奖励黑客攻击（Brown et al, 2020a）和权力寻求动态（Carlsmith, 2022）。从人类的角度来看，这些意味着人工智能系统的优化目标与我们心中的理想目标之间存在差距。因此，在各种决策中提供有效监督的问题变得至关重要（Bowman 等人，2022；Li 等人，2023a），通常称为可扩展监督（Amodei 等人，2016），源于两个实际挑战。

人类频繁评估人工智能系统行为的成本很高。例如，训练过程耗时，将人类直接实时纳入训练循环将严重浪费人力资源并阻碍训练效率（Christiano 等人，2017）。
人工智能系统行为固有的复杂性使评估变得困难，尤其是在难以理解和高风险的任务上（Saunders 等人，2022），例如教人工智能系统总结书籍（Wu 等人，2021）、生成复杂代码（Pearce 等人，2022）和预测未来天气变化（Bi 等人，2023）等任务。

可扩展的监督旨在确保人工智能系统（即使是超越人类专业知识的系统）能够与人类的意图保持一致。在此背景下，我们的主要重点是提出一些有希望的方向，这些方向可能尚未普遍实施，用于构建可扩展的监督（Amodei 等人，2016 年；Leike 等人，2018 年）。

从 RLHF 到 RLxF

RLHF 范式提供了一个用于协调复杂系统的框架（OpenAI，2023a；Touvron 等人，2023 年）。然而，它遇到了诸如人类评估不准确及其相关高成本等障碍（Christiano 等人，2017 年；Casper 等人，2023b；Perez 等人，2023 年）。一个关键的限制是在创建具有超人能力的 AI 系统时难以利用 RLHF 来扩展人类反馈（Wu 等人，2021 年）。在 RLHF 范式的基础上，我们引入了 RLxF 作为可扩展监督的基本框架，旨在提高反馈效率和质量，并扩展人工反馈以应对更复杂的任务。这通过整合 AI 组件增强了 RLHF（Fernandes 等人，2023 年）。RLxF 中的 x 表示 AI 和人类的融合。我们将在后续部分进一步探讨有关 RLxF 的具体方法。

在这里插入图片描述
图 5：树状图总结了与可扩展监督相关的关键概念和文献。根节点代表可扩展监督，其目标是确保 AI 系统即使超越人类能力也能与人类意图保持一致。主要分支代表有前景的框架，例如反馈强化学习 (RLxF)、迭代提炼和放大 (IDA)、递归奖励模型 (RRM)、辩论和合作逆强化学习 (CIRL)。进一步的子分支列出了探索每个框架的关键工作。该图概述了随着 AI 系统变得越来越复杂，构建有效和安全的监督机制的研究方向。

从 AI 反馈中进行强化学习 (RLAIF) RLAIF 是一种基于 RLHF 框架的方法，是 RLHF 的扩展。Bai 等人（2022a）发现，通过 RLHF 训练的 LLM 通常会选择避开敏感和有争议的问题，这可能会降低模型的整体效用。考虑到这些限制，Bai 等人（2022b）提出了一种基于 RLAIF 的训练流程，它使用由 LLM（例如 GPT-4 或其他具有超人能力的语言模型）生成的反馈，而不是人工反馈。根据预设标准，政策模型会自我评估并修改红队提示的响应。然后，他们使用修订后的响应对初始策略模型进行微调。最后，微调后的策略模型评估另一个语言模型响应（即 AI 反馈）的无害性。与 RLHF 方法相似，他们使用此反馈训练奖励模型并优化策略模型的行为。Lee 等人 (2023a) 比较了使用 RLAIF 和 RLHF 训练的模型在总结任务上的性能差异。他们的结果表明，使用 AI 反馈训练的模型在由人类评估时实现的整体性能与使用人类反馈训练的模型几乎相同，尽管存在细微差别。

在某种程度上，RLAIF 解决了 RLHF 固有的逃避问题（Bai et al, 2022b）（即保持无害性而不会明显降低效用）。AI 反馈为构建需要最少人为干预的训练循环提供了一种可行的替代方案，从而降低了训练成本。遵循透明且可访问的 AI 行为准则的 AI 监督可能有助于实现可扩展的监督 (Bowman 等人，2022 年)。

从人类和 AI 反馈中进行强化学习 (RLHAIF) RLHAIF 集成了人类和 AI 元素来提供监督。Wu 等人 (2021) 研究了 AI 协助人类总结书籍的可行性。该方法通过将书籍摘要任务分解为子任务以形成树状结构，促进了人类对模型性能的监督和评估。与此同时，Saunders 等人 (2022) 探索了利用 AI 帮助人类评估模型功效的可行性。他们的研究结果表明，模型生成的批评有助于人类识别他们可能错过的缺陷。Bowman 等人 (2022) 提出了一项概念验证实验，以证明评估基于夹层 (Cotra, 2021) 的可扩展监督技术的前景。当与不可靠的 LLM 合作时，结果表明人类远远超越了模型和他们自己。Perez 等人 (2023) 使用语言模型自主生成数据集，以评估不同规模的语言模型的行为。作者制作了 154 个经过人类验证的高质量数据集。这些方法证明了使用人工智能辅助扩大人类对复杂问题和各个领域的监督的可行性。

讨论一些努力正在进行中，通过用其他组件替换纯人类来增强 RLHF 算法（Leike 等人，2018 年）。鉴于人类反馈的多维性质，已经设计出各种方法来提供由特定规则指导的有针对性的人类判断。此类规则的示例包括聊天流畅度（Saunders 等人，2022 年）和隐私保护（Carr，2023 年）等考虑因素。Saunders 等人 (2022) 将高质量对话的要求解构为代理应遵守的自然语言指南，并要求对每个指南进行单独评估。通过收集有针对性的人工评估并针对这些数据训练模型，我们可以获得更有效的规则条件奖励模型。这种方法大大提高了对话代理的效率，与提示式语言模型相比，它们更有帮助、更准确、更无害。Carr (2023) 提出了基于隐私反馈的强化学习 (RLPF)，旨在协调语言模型的输出质量与保护隐私。该方法利用 NLP 技术对模型生成的文本进行实时隐私风险评估，然后根据这些评估调整强化学习反馈信号。明确地说，如果生成的文本包含敏感信息，则会产生负面反馈，而高质量的非启示性文本则会收到正面反馈。

随着模型的训练，它会逐步完善其功能，提高文本质量并最大限度地减少同时评估隐私泄露。与严重依赖大规模手动数据注释的传统学习方法相比，这种方法通过使用成熟的 NLP 技术提供了更有效的隐私风险评估。RLxF 方法的核心是将大问题分解为较小的子问题的策略，从而能够使用更有效的工具（例如 AI 和软件）来快速解决子问题。通过利用这些子问题的解决方案，可以加快主要问题的解决。这些技术可以被视为 IDA 的基本实例；主要区别在于没有持续的迭代过程。尽管如此，有证据表明它们有望为超越人类表现的 AI 系统提供反馈（Wu et al, 2021）。因此，这些方法可以作为更高级 AI 系统训练的基础技术。

迭代蒸馏和放大

迭代蒸馏和放大 (IDA) 引入了一个通过人类和人工智能之间的迭代协作构建可扩展监督的框架 (Christiano 等人，2018)。该过程从初始代理开始，表示为 A[0]，它反映了人类 H 的决策。A[0] 使用强大的技术进行训练，使其具备接近人类水平的熟练程度（蒸馏步骤）；然后，H 与多个 A[0] 实例之间的协作交互导致创建增强型代理 A[1]（放大步骤）。连续过程在算法 1 中描述。

Cotra (2018) 区分了 RL 和 IRL 中的广义和狭义定义。广义 RL 为 AI 系统提供稀疏的奖励信号，并允许自主探索和优化累积的未来奖励。这可以导致超人的新策略，但很难完美地指定我们关心的内容。狭义强化学习会提供密集反馈，奖励选择的合理性，而不是最终结果。这使 ML 系统更像人类，但限制了其能力。同样，广义 IRL 会从人类行为的全部范围中推断出深远的长期价值，而狭义 IRL 仅推断短期工具价值。前者风险更高，而后者能力有限。

在 IDA 训练期间，需要使用狭义技术来确保每个代理本身模仿人类行为。具体而言，可以使用狭义强化学习或 IL 来训练代理，使其尽可能像人类一样且可控。人类可以利用代理的计算能力和可并行性来制定更具远见的宏观策略。这本质上是对人类内在能力的放大。在下一次迭代中，代理再次使用狭义技术模仿这种强化的人机系统。这使得代理能够从狭义能力逐渐过渡到广义能力，同时保持与人类价值观的一致性。随着迭代次数的增加，人机系统的能力越来越强，逐渐逼近一个既具备高度能力又符合人类价值观的系统，实现安全性和能力的兼顾。换言之，Narrow 技术用于确保智能体遵循人类价值观，而 Amplification 阶段的扩展人类策略是利用智能体的一种方式，而不会扩展智能体自身的学习目标。

AlphaZero 很好地说明了 IDA（Christiano 等人，2018 年；Nguyen，2020 年）。该算法从一个简单的策略（例如，随机移动选择）开始，并从其自玩游戏中学习，即放大阶段。然后，它使用这些游戏作为训练数据来开发更好的移动选择启发式方法，即蒸馏阶段。可以重复此蒸馏放大过程以创建快速且熟练的围棋 AI。在这里，对齐和能力之间的区别至关重要（Mennen，2018 年）。对齐但能力较差的 AI 试图获胜，但可能无法在与中等对手的比赛中获胜。有能力但对齐较差的 AI 除了获胜之外还实现了某些游戏属性。目标是 AI 有能力且对齐，精通游戏，并与赢得游戏的目标保持一致。

IDA 的可行性引发了相当大的争论（Yudkowsky，2018 年）。 IDA 运行的关键假设是错误不会在整个迭代过程中不断累积（Leike 等人，2018 年）。因此，在提炼和扩增步骤中仍然存在技术挑战，需要足够先进和安全的学习技术。此外，尽管原作者将 IDA 比作 AlphaZero 的训练过程（Silver 等人，2017 年）并在玩具环境中进行了演示（Christiano 等人，2018 年），但它的实用性取决于确保 H 可以将部分复杂任务委托给 A，类似于领导者协调团队共同完成项目。在实践中，Gato（Reed 等人，2022 年）说明了 IDA（Mukobi，2022 年）的关键方面，这些方面可能为 AGI 铺平道路。它将多个专家 AI 的能力整合到一个单一模型中，验证了 IDA 的提炼可以使用当代深度学习实现。虽然尚未完全实现，但 Gato 暗示了放大潜力，利用其多样化的技能来加速新任务的学习。然而，Gato 缺乏安全的放大或提炼方法来保持对齐属性。设计适合 Gato 等模型的对齐保留 IDA 方法仍然是 AI 安全研究的重要方向。本质上，虽然 Gato 标志着实现 IDA 的显著进展，但进一步的理论进步对于确保 IDA 框架实现安全的 AGI 至关重要。

在这里插入图片描述

递归奖励模型

如 §2.2 中所述，奖励模型利用人类反馈来训练奖励模型，然后由代理执行该模型。它使我们能够将系统目标的构建与评估其行为分开（Ibarz 等人，2018 年）。通过这种方式，奖励模型可以洞悉 AI 系统的优化方向。特别值得注意的是，它能够将系统与人类的意图和价值观进行精细调整，例如微调语言模型以遵循人类的指令（Bai 等人，2022a；Touvron 等人，2023 年）。此外，奖励模型已被证明在推动 AI 研究方面很有价值（Zhao 等人，2023 年；Bukharin 等人，2023 年）。递归奖励模型 (RRM)（Leike 等人，2018 年）旨在将奖励模型的应用扩展到更复杂的任务中。 RRM 的核心见解是递归使用已经训练过的代理 At-1，通过对其自身的放大版本进行奖励学习来提供反馈，以便训练后续代理 At 完成更复杂的任务。A0 通过基本奖励建模进行训练（从纯人类反馈中学习）。这种方法不仅受到人类反馈的影响，还受到模型自身对构成奖励结果的评估的影响。如果评估结果比产生行为更容易的假设成立，那么奖励建模的迭代过程可以迭代地实现更高的能力来监督更强大的人工智能系统，为将监督扩展到更复杂的领域铺平道路。该过程在算法 2 中详细说明。

在这里插入图片描述

例如，我们的目标是训练人工智能 A 制定全面的城市规划。设计一个城市需要许多复杂的元素，例如交通规划、公共设施以及住宅区和商业区的分布。评估一个城市的整体设计是一项重大挑战，因为许多问题可能只有在经过长时间的真实世界测试后才会显现出来。为了协助这一过程，我们可能需要一个专门负责交通规划的智能体 B。

然而，交通规划本身就是一项多方面的任务。因此，我们还需要其他智能体来评估道路宽度、交通流量和公共交通设计等方面。对于每一项子任务，例如测量道路宽度，我们都可以训练一个辅助智能体来验证是否符合安全标准，是否考虑了各种交通方式等等。在此过程中，我们建立了一个 RRM 流程，其中每个智能体都在评估子任务的智能体的帮助下进行训练。

这种方法类似于大型公司的组织结构（Leike 等人，2018 年）。在城市规划的背景下，主要规划团队（首席执行官）负责最终的设计决策。他们的决策由交通团队（部门经理）的建议提供信息，而交通团队的建议又基于道路宽度团队（经理）的意见，等等。每个决策层级都依赖于下级的反馈，每个任务都通过奖励模型进行优化。

RRM 面临的挑战可以围绕外部和内部对齐的概念来描述（Hubinger，2020）。外部对齐围绕反馈机制的充分性，以保证学习到的奖励模型在行为模型感知的领域中是准确的，就像分布一样。这一挑战取决于几个因素，包括人类反馈的质量、泛化的难度以及代理欺骗的可能性。相反，内部对齐集中于人类如何有效地使用透明工具来防止奖励模型和代理中的欺骗性或灾难性行为。这取决于监督机制的有效性以及验证奖励模型没有进行任何优化以及代理是否保持短视的能力（Cotra，2018）。

缓解这些挑战的潜在方法（Leike 等人，2018）包括在训练期间通过在线反馈来纠正奖励模型（Christiano 等人，2017）、通过离线策略反馈来教授不安全状态（Everitt 等人，2017）、通过无监督学习或注释利用视频和文本等现有数据（Baker 等人，2022），不同层次的分层反馈（Bukharin 等人，2023 年）对抗性训练以发现漏洞（Madry 等人，2018 年），以及征求反馈的不确定性估计（Hadfield-Menell 等人，2016 年；MacGlashan 等人，2017 年）。RRM 的优势在于其竞争性训练方法，它需要人工反馈而不是演示，从而可能使反馈更可靠、更易于获得（Hubinger，2020 年）。本质上，RRM 的过程可以比作 IDA（Christiano 等人，2018 年），其中奖励建模取代了监督或模仿学习。因此，RRM 面临的挑战与 IDA 中遇到的挑战非常相似，特别是在防止错误积累方面。此外，奖励建模本身不一定能提炼出一个狭窄的模型（Cotra，2018 年），这在权衡一致性和性能方面带来了挑战。

辩论

辩论涉及两个代理提出答案和陈述以协助人类法官进行决策（Irving 等人，2018），如算法 3 所述。这是一个零和辩论游戏，代理试图找出彼此的缺点，同时努力获得人类法官的更高信任，这可能是构建可扩展监督的潜在方法。例如，在围棋游戏中，人类法官可能无法辨别单个游戏棋盘本身的优势。然而，通过观察游戏的过程和最终结果，这些法官可以更容易地推断出这一点。

该方法的前提依赖于一个关键假设：为真理辩护通常比为谎言辩护更容易，这为说真话的辩论者带来了优势。然而，这个假设并不普遍成立。例如，在一个复杂的问题中，人类可能无法理解辩论中使用的专业概念。此外，梯度下降的有限性可能会导致我们陷入不良的循环模式（即，在优化一个属性（例如诚实和突出缺陷）时，模型往往会忽略或削弱另一个属性）（Irving 等人，2018 年）。

值得一提的是，随着 LLM 功能的进步，我们已经可以看到辩论的实际例子（Du 等人，2023 年；Claude，2023 年）。在特定的现实场景中，辩论可能会面临挑战（Irving 等人，2018 年）。例如，某些问题可能过于复杂，人类无法理解，或者过于庞大而无法完整呈现。想想解释 10 千兆像素图像或筛选整个互联网的复杂性。同样，有些情况下问题的最佳答案非常冗长。Envision 需要跨越一百页的答复。为了解决这些问题，代理可能首先选择一个答案，然后随着辩论的进行，揭示问题或答案的部分内容。Irving 等人（2018 年）对这个过程进行了一个玩具实验。同时，我们必须承认人类时间的限制。在需要与环境互动的场景中，例如指挥机器人，每个动作都可能需要一场独特的辩论。由于时间限制，人类并不总是能够判断每场辩论。为了应对这一挑战，我们可能需要设计 ML 模型来预测人类的反馈。

另一个考虑因素是辩论机制的收敛性（Irving 等人，2018 年）。Du 等人（2023 年）展示了辩论框架的内在趋势，即即使准确性不能得到保证，最终也会收敛到单一反应。同时，如果在实现收敛过程中遇到挑战，我们可能不得不依靠直觉来衡量收敛的有效性。这意味着需要人类评估者的干预，并要求这些人类评估者具备一定的专业知识，这带来了必须解决的挑战。

此外，许多讨论源自不同的观点。Ngo（2021 年）认为辩论是一种迭代放大，但更具体地说是在具体的研究问题中奠定安全基础，其对抗性框架使发现问题变得更加容易。Michaelcohen（2020 年）对激励辩论者采用旨在影响判断过程的欺骗性策略的不利影响表示担忧。Armstrong（2019 年）； Barnes (2020) 阐述了辩论过程中可能出现的各种问题，包括论点模糊问题、模棱两可的回答以及误导性暗示的传播等挑战。虽然一方可能会肯定论点中存在任何潜在缺陷的可能性足够低，主张可信，但对方辩手可能会断言在论点中某处发现缺陷的可能性足够高，从而主张缺乏信任。Beth Barnes (2020) 引入了交叉询问的概念，以激励辩手提供更多信息性回应。在此过程中，辩手有权选择先前的主张进行审查，并获得对方辩手的回应副本。整个交流过程都有记录，辩手可以向法官展示相关部分。交叉询问的引入可以有效地阻止不诚实的辩手利用与他们之前的论点相反的笼统叙述来误导法官。

辩论（Irving 等人，2018 年）、IDA（Christiano 等人，2018 年）和 RRM（Leike 等人，2018 年）之间存在显着的相似性。这些方法可以从一个基本原则的角度来理解：评估可以比任务完成更简单28。因此，利用人工智能系统的评估能力可以产生对人类更有利的能力分布。这些方法面临的挑战，特别是在减轻错误积累方面，也是类似的。

在这里插入图片描述

合作逆强化学习

几乎所有以前的方法都认为从反馈中学习是一个独立于推理和控制的过程，并且通常隐式地将反馈提供者视为存在于环境之外的实体——事实上，操纵（Shevlane 等人，2023 年）和奖励篡改（Everitt 等人，2021 年）等故障模式正是在本应存在于环境之外的反馈机制成为环境的一部分并因此受到 AI 系统的影响时发生的。然而，合作逆强化学习 (CIRL) 框架将控制和从反馈中学习统一起来，并将人类反馈提供者建模为同一环境中的同伴代理。它不是通过加强监督来解决可扩展的监督问题，而是试图消除 AI 系统博弈监督的动机，让提供反馈的人类和 AI 系统处于合作而非对抗的地位（Shah 等人，2020 年）。在CIRL范式中，AI系统与人类合作以实现人类的真正目标，而不是单方面优化人类的偏好。

CIRL 的动机和总体思路许多错位模式，包括奖励黑客攻击（Victoria 等人，2020；Skalse 等人，2022）、欺骗（Park 等人，2023b）和操纵（Shevlane 等人，2023），都是 AI 系统自信地针对错误指定的目标进行优化的结果（Pan 等人，2021）。在训练和部署期间，指定的目标（例如奖励函数）对 AI 系统来说扮演着不可挑战的真理的角色，并且人类反馈仅在目标中指定的范围内受到尊重，这意味着它可能被篡改（Everitt 等人，2021）或操纵（Shevlane 等人，2023）。

CIRL（Hadfield-Menell 等人，2016 年、2017b 年；Shah 等人，2020 年）试图通过以下方式缓解此问题：

让 AI 系统明确持有有关其奖励函数的不确定性，以及
让人类提供有关奖励函数真正是什么的唯一信息。这种不确定性使 AI 系统倾向于听从人类的意见，并有动力确定人类真正想要什么。具体来说，它将整个任务建模为双人合作游戏，其中人类玩家 H 和机器人玩家 R 共享一个共同的奖励函数 r(·)。重要的是，奖励函数和奖励信号对 R 不可见（实际上也不是由训练机制明确计算的），并且只能由 R 通过类似 IRL 的过程从 H 的行为中推断出来（包括通过询问和与 H 互动）。这个游戏被称为 CIRL（Hadfield-Menell 等人，2016 年）、辅助游戏（Fickinger 等人，2020 年）和辅助 POMDP（Shah 等人，2020 年）。

简而言之，人工智能系统将人类的真实目标 r(·) 作为自己的目标（尽管不确定 r(·) 的值），并不断尝试通过观察和与人类互动来找出 r。这减少了操纵等动机，因为操纵人类行为只会污染信息源，而不会影响 r。

CIRL 的公式化 Hadfield-Menell 等人（2016 年）通过基于经典多智能体 MDP 来描述 CIRL 的设置（我们将其表示为 M），从而得出以下 M 的定义。在这里插入图片描述在上面的等式中，S 和 {AH,AR} 分别是世界状态和动作的空间，T : S×AH ×AR → ∆(S) 是转换函数，γ 是折扣率。到目前为止，该定义与标准多智能体 MDP 的定义相同。然而，其余元素引入了关键的区别：奖励函数是参数化的，其参数可以通过分布建模。Θ 是参数 θ 的值空间；r : S × AH × AR × Θ → R 是共享奖励函数，P0 ∈ ∆(S × Θ) 是初始状态和奖励函数参数的联合分布。这种参数化方法允许 R 明确地建模并推理其对真实奖励函数的信念。使用 Nayyar 等人 (2013) 的技术，任何 CIRL 设置都可以简化为等效的单智能体 POMDP，从而证明存在相对易处理的最优策略 (Hadfield-Menell 等人，2016)。

CIRL 研究中的值得注意的方向虽然有些人强调了 H 积极教授 R 的重要性 (Fisac 等人，2020)，但一些研究 (Shah 等人，2020) 对博弈均衡和联合策略（包括 H 的教学行为）的重视提出了质疑，而是关注 R 对 H 策略的最优反应，因为假设人类总是会按照最优联合策略行事是不现实的。更具体地说，Shah 等人 (2020) 考虑了策略条件下的信念 B : ΠR → ∆  ΠH ，它指定了 H 对任何 R 策略的策略响应的分布，目的是在给定 B 的情况下找到 R 的最优策略。这里，B 本质上是一种人类建模形式，一个挑战是获得一个像 B 一样稳健准确的人类模型 (Hong 等人，2022)。

在另一个方面，Hadfield-Menell 等人 (2017b) 和 He 和 Dragan (2021) 研究了手动指定不完善的奖励函数，以此作为 H 传达有关真实奖励函数的信息的一种方式。这包括 R 方面的工作（即，使 R 能够根据不完善的规范对真实奖励函数进行推理）（Hadfield-Menell 等人，2017b），也包括 H 方面的工作（即，开发算法工具来帮助 H 制定更强大的规范，以更好地传达真实奖励函数）（He 和 Dragan，2021）。除了改进游戏设置外，设计更具可扩展性的 CIRL 算法也被视为优先事项。

还有一些工作将 CIRL 和助手游戏扩展到多智能体设置（Fickinger 等人，2020），其中机器人需要为多个人服务。这对应于 Critch 和 Krueger（2020）中的多/单委派设置，其中人类的不同目标带来了挑战并需要使用社会选择方法。

由弱到强的泛化

可扩展的监督可以帮助人类为更聪明、更复杂的AI系统提供监督信号，确保超人类级别的AI系统的行为符合人类的意图和价值观。然而，如果我们无法获得可扩展的监督信号怎么办？例如，对于某些任务，评估并不一定比生成简单，这使得无法利用任务分解然后由AI辅助实现可扩展的监督。

最近，一种称为由弱到强的泛化现象被验证，其核心思想是使用来自弱模型的弱监督信号来训练强模型（Burns等，2023）。具体而言，在ground truth上训练弱模型，然后用弱标签注释新数据以训练强模型。三个场景（即 NLP 分类、国际象棋谜题和奖励建模）的结果表明，由弱到强的泛化是一种稳健的现象，但仍有进一步改进的空间，例如缩小用弱标签训练的强模型与基本事实之间的差距。由弱到强的泛化为超级对齐问题提供了一个有价值的类比：人类如何作为弱监督者来监督超级人工智能系统。由弱到强的泛化背后的见解是，强模型可以超越弱标签进行泛化，而不仅仅是模仿弱模型的行为。换句话说，弱模型引出了强模型的能力。然而，如果人类不知道基本事实，验证由弱到强的泛化将具有挑战性。尽管如此，由弱到强的泛化仍然为解决超级对齐问题提供了一个有价值的视角。

由弱到强泛化的框架一直在进一步扩展并与可扩展的监督相结合。实证结果表明，弱模型可以通过评估两个专家模型之间的辩论来评估强模型的正确性（Khan 等人，2024）。此外，让专家辩论者更具说服力可以提高非专家在辩论中辨别真相的能力，证明了在没有基本事实的情况下将模型与辩论策略相结合的有效性。一些框架采用外部放大器来创建迭代的蒸馏和放大过程，这为在训练过程中将弱到强的泛化技术与 IDA 相结合提供了一个潜在的框架（Ji 等人，2024a）。此外，Leike（2023a）提出了几种将可扩展监督与弱到强的泛化技术相结合的方法，例如，递归分解任务分解为原子任务（符合可扩展的监督原则），监督这些原子任务，并采用使用人类偏好数据通过从弱到强的泛化技术训练的奖励模型。

AI Alignment: A Comprehensive Survey---从反馈中学习、可扩展监督、由弱到强的泛化

从反馈中学习

可扩展监督

从 RLHF 到 RLxF

迭代蒸馏和放大

递归奖励模型

辩论

合作逆强化学习

由弱到强的泛化

网站公告

今日签到

热门文章

最新发布