LLMs 驱动的数据合成、整理和评估-EW帮帮网

1. AI 速读

总体概要

本文综述了大型语言模型（LLMs）在合成数据生成、筛选和评估方面的最新进展，旨在为学术和工业界提供深入、系统化的研究方向。文章强调了合成数据在解决真实世界数据局限性中的重要性，特别是在数据量和质量方面。通过一个通用的合成数据生成工作流程，文章组织了相关研究，突出了现有研究中的空白，并概述了未来研究的前景。文章的核心思想是，LLMs驱动的合成数据生成不仅能够自动化整个模型训练和评估过程，减少人类参与，而且能够为开发下一代LLMs铺平道路。此外，文章还探讨了合成数据生成的挑战，如确保数据的忠实性和多样性，以及未来研究方向，包括复杂任务分解、知识增强、大型和小型语言模型的协同作用以及人机协作。文章旨在推动数据中心AI的快速发展，并展望了一个未来，其中LLMs社区能够自我改进，生成用于自我提升的数据。

核心要点

LLMs在深度学习中的作用：
- LLMs（大型语言模型）的出现改变了深度学习的格局，它们通过广泛的预训练获得了丰富的知识和卓越的语言理解能力，为解决数据量和质量的问题提供了数据中心化的解决方案。
合成数据生成的潜力与挑战：
- LLMs驱动的合成数据生成作为一种可扩展的数据收集方法，能够克服现实世界数据的局限性，如高成本、稀缺性和隐私问题。然而，生成既正确又多样化的数据仍然是一个挑战，需要精心设计的过程。
合成数据生成的应用生态系统：
- 合成数据在训练小型语言模型或微调特定任务的LLMs中扮演着重要角色，同时也为训练更强大的LLMs或自我改进提供了基础。
合成数据生成的通用工作流程：
- 当前的研究主要集中在合成数据生成、数据整理和评估三个主题上，这些方面相互关联，共同实现最佳的数据生成效果。
数据生成的常见实践：
- 合成数据生成的常见实践包括提示工程和多步生成，这些方法通过不同的策略提高生成数据的忠诚度和多样性。
数据整理的重要性：
- 数据整理是去除低质量样本、提高数据集整体质量的关键步骤，它包括高质量样本过滤和标签增强等方法。
数据评估的方法：
- 数据评估分为直接和间接两种方法，分别评估数据个体质量和通过其对下游任务的有效性来评估。
未来研究方向：
- 未来的研究方向包括复杂的任务分解、知识增强、大型和小型模型的协同作用以及人机协作等方面，旨在进一步提高合成数据的质量和应用范围。
结论：
- 本文通过对LLMs驱动合成数据生成的综述，旨在为学术界和工业界提供深入、系统的方法论，推动数据中心化AI的快速发展，并展望了一个由LLMs社区构建的，具有人类级能力的未来。

段落概要

Introduction

文章的“Introduction”部分强调了大型语言模型（LLMs）在深度学习领域的重要性，特别是在解决高质量数据稀缺问题上的潜力。LLMs能够生成与人类输出相媲美的流畅文本，为合成数据生成提供了有效途径，这不仅能够克服现实世界数据的高成本、稀缺性和隐私问题，还能减少人类生成数据中的偏见和错误。文章指出，合成数据可以作为训练和评估模型的营养源，推动深度学习模型在更广泛应用中的发展，同时也为下一代LLMs的开发铺平道路。尽管合成数据生成面临高质量和多样性的挑战，但文章旨在通过提供一个统一的框架来组织相关研究，推动学术和工业界对LLMs驱动合成数据生成能力的深入探索。

Preliminaries

文章的“Preliminaries”部分主要定义了使用预训练的大型语言模型（LLMs）生成高质量合成数据的问题，并概述了生成数据的基本要求。核心要点包括：

问题定义：研究挑战在于利用预训练LLMs生成高质量合成数据，通常通过数据增强方式，使用少量种子样本或未标记输入（Dsup）来实现。
生成任务公式化：将合成数据生成任务（Dgen）表述为模型M在特定生成任务T和提示p下的输出，其中数据注释作为合成数据生成的特殊范式，具有广泛的应用。
生成数据的要求：高质量合成数据需满足两个主要要求，即忠实性（逻辑和语法一致性）和多样性（生成数据间的变异，以模仿真实世界数据的多样性）。
挑战：LLMs固有的幻觉问题和知识分布的肥尾效应可能导致生成数据中的噪声，特别是在生成复杂或特定领域的数据时。

该部分为理解LLMs驱动合成数据生成的基本概念和挑战奠定了基础。

Generic Workflow

文章中的“Generic Workflow”部分详细阐述了大型语言模型（LLMs）驱动合成数据生成的通用工作流程，主要包括数据生成、数据精选和数据评估三个关键步骤。在数据生成方面，文章强调了通过提示工程和多步骤生成策略来提高合成数据的忠实度和多样性。提示工程涉及任务规范、条件提示和上下文学习，以指导LLMs生成更符合特定需求的数据。多步骤生成则通过将复杂任务分解为一系列简单子任务，逐步引导LLMs生成高质量数据。数据精选阶段，文章介绍了通过高质量样本过滤和标签增强方法来提升数据集的质量，确保合成数据的有效性和可靠性。数据评估部分，文章讨论了直接和间接两种评估方法，以验证合成数据对下游任务的适用性和效果。总体而言，该工作流程旨在通过精心设计的步骤，最大化LLMs在合成数据生成中的潜力，以满足不同领域和复杂任务的需求。

Future Directions

文章中“未来方向”部分的核心要点是：未来研究应关注复杂任务分解，利用类似HuggingGPT和MetaGPT的模型开发数据生成代理；加强知识增强，通过与外部知识图谱或网络信息的链接提升语言模型的知识效率；探索大型和小型语言模型之间的协同作用，利用实时反馈改进数据生成过程；以及设计以人为中心的人机协作系统，确保数据生成的可持续性和效率，同时减轻机械任务对人的负面影响。这些方向旨在推动数据中心人工智能的发展，促进各领域大量数据的快速生产，并构建一个具有仿生和沟通能力的大型语言模型社区，以实现自我改进。

Conclusion

文章的结论部分强调了大型语言模型（LLMs）在推动合成数据生成方面的系统性进展，旨在为企业和其他组织提供有效构建特定领域数据集的指导。同时，文章探讨了该领域的挑战与机遇，并提出了未来研究的可能方向。文章期望通过这些工作促进各领域大量数据的快速生产，推动以数据为中心的人工智能发展，并展望了一个未来，其中具备仿生和沟通能力的大型语言模型社区能够自我生成数据以实现自我改进。文章还指出了研究的一些局限性，主要集中在文本数据和基于LLMs的方法上，而未涉及其他模态的数据和模型。最后，文章提出了对LLMs驱动合成数据生成、精选和评估流程的伦理关注，强调了恶意使用合成数据的风险。

2. 个人解读

2.1. 研究领域

图 1：基于 LLMs 的应用生态系统示意图，其中合成数据是开花结果（训练小型 LLMs 或微调特定任务 LLMs）和生根发芽（训练更强大的 LLMs 或自我完善）的流动养分。

鉴于 LLMs 最近取得的进步，其生成流畅文本的能力与人类输出的文本不相上下（Hartvigsen 等人，2022 年；Sahu 等人，2022 年；Ye 等人，2022a；Tang 等人，2023 年；Gao 等人，2023a），LLMs 生成的合成数据成为人类生成数据的可行替代品或补充。具体来说，合成数据旨在模仿真实世界数据的特征和模式（刘等人，2024 年）。一方面，LLMs 通过广泛的预训练，已经获得了大量的知识库，并表现出卓越的语言理解能力（Kim 等人，2022；Ding 等人，2023a），这为生成忠实数据奠定了基础。另一方面，LLMs 强大的指令遵循能力使其在生成过程中具有更好的可控性和适应性，便于通过更灵活的流程设计为特定应用创建量身定制的数据集（Eldan 和 Li，2023 年）。这两个优势使 LLM 成为极具潜力的合成数据生成器。

作为 LLMs 的重要应用，合成数据生成对深度学习的发展具有重要意义。如图 1 所示，LLMs 驱动的合成数据生成（Li 等人，2023c；Wang 等人，2021；Seedat 等人，2023）实现了整个模型训练和评估过程的自动化，只需要极少的人工参与（Huang 等人，2023），这使得深度学习模型的优势可以应用于更广泛的应用领域。除了提供可扩展的训练和测试数据外，LLM 驱动的合成数据生成还可能为开发下一代 LLM 铺平道路。TinyStories（Eldan和Li，2023年）和Phi系列（Gunasekar等人，2023年；Li等人，2023年b）的启示强调，数据质量对于有效的模型学习至关重要，而LLM使我们能够通过数据操作主动 "设计 "模型学习的内容，从而大大提高模型训练的有效性和可控性。截至 2024 年 6 月，Hugging Face1 上有超过 300 个数据集标记为 "合成"，许多主流 LLM 利用高质量合成数据进行训练，包括 Alpaca（Taori 等，2023 年）、Vicuna（Zheng 等，2023 年）、OpenHermes 2.5 和 Openchat 3.5（Wang 等，2023a）。

生成同时具有高正确性和多样性的合成数据集看似简单，但需要精心的流程设计，并涉及很多技巧（Gandhi 等人，2024 年），这使得 LLMs 驱动的合成数据生成成为一个非同小可的问题。虽然大多数现有工作一般都针对各种任务生成数据（例如预训练（Gunasekar 等人，2023 年；Li 等人，2023 年 b；Eldan 和 Li，2023 年）、微调（Mukherjee 等人，2023 年；Mitra 等人，2023 年；Xu 等人，2023 年 a）、评估（Feng 等人，2023 年；Wei 等人，2023 年）、数据生成（Gunasekar 等人，2023 年；Li 等人，2023 年 b；Eldan 和 Li，2023 年）等），但这些任务的数据生成并不容易、在不同领域（如数学（Yu 等人，2023a；Luo 等人，2023a）、代码（Luo 等人，2023b；Wei 等人，2023b）、教学（Honovich 等人，2023a；Wang 等人，2023d）），它们有许多共同的想法。为了解决 LLM 驱动的合成数据生成这一新兴领域缺乏统一框架的问题，并开发一个通用的工作流程，本调查报告调查了最近的研究，并根据生成、整理和评估这些密切相关的主题对它们进行了组织，如图 2 所示。我们的主要目的是全面概述该领域的现状，确定关键的重点领域，并强调有待解决的问题。我们希望能为学术界和工业界带来真知灼见，推动 LLM 驱动的合成数据生成的进一步发展。

图 2：由 LLMs 驱动的合成数据生成、整理和评估分类法。

2.2. 研究问题

在本文中，我们将研究使用预训练 LLM 生成高质量合成数据的挑战，这些 LLM 表示为 M。在更多情况下，我们并不是从头开始创建新数据集，而是使用少量种子样本或未标记输入进行数据增强，我们统一表示为 Dsup。虽然对于 LLMs 驱动的合成数据生成来说 Dsup 并非必要，但它通常可以提供有价值的辅助信息。因此，整个生成任务可以表述为：

其中，Dgen 表示最终生成的数据集，p 指用于模型推理的提示。T 指定生成任务，如改写、问题解答、注释等。值得注意的是，数据标注作为合成数据生成的一种专门范式，具有特别广泛的适用性，包括 RLAIF（Bai 等，2022）和基于 LLMs 的评估（Chen 等，2023b；Zheng 等，2023；Kim 等，2023），其中可能涉及特定的挑战和相应的解决技术。

简而言之，我们的目标是生成与评估指标密切相关的数据。虽然高质量数据的标准在不同的下游任务中可能会有所不同，但在大多数现有文献中，有两个一般要求被认为是具有挑战性的：

忠实性（Faithfulness）：生成的数据必须首先在逻辑和语法上保持一致。然而，LLM 的 hallucination fat-tailed knowledge distribution 问题（大型语言模型在知识分布不均匀的情况下，可能会在知识较少的领域产生幻觉。由于模型在某些领域的知识非常丰富，它可能会过度自信地生成文本，即使在没有足够信息支持的情况下也是如此。这种过度自信可能导致模型在知识较少的领域产生虚构的信息，从而产生幻觉）会给生成的结果带来很大的噪音，具体表现为事实错误、不正确的标签或不相关的内容。在生成冗长、复杂或特定领域的数据时，这些问题会变得更加突出。
多样性（Diversity）：通过多样性捕捉生成数据之间的差异，并反映文本长度、主题甚至写作风格的不同。多样性对于生成模拟真实世界数据多样性的合成样本至关重要，从而防止模型训练或评估过程中出现过度拟合和偏差。然而，由于 LLM 本身的偏差，不受控制的生成内容往往比较单调，从而限制了其在下游任务中的适用性。

这两项要求是当前大多数研究工作的重点。在随后的工作流程中，我们将介绍不同的方法如何解决这些问题。

2.3. 数据生成工作流

关于 LLMs 驱动的合成数据生成的现有研究一般包括三个主要课题：生成、整理和评估。在这些方面采用了各种方法，以协同实现最佳数据生成。

2.3.1. 数据生成

本节总结了利用 LLM 生成合成数据的一些常见做法，大致可分为 prompt engineering 和 multi-step generation 两种。图 3 提供了总体说明。

图 3：一个有效生成合成数据的简单示例。任务说明、条件和上下文演示的相应字段突出显示，< > 标记出了可切换的内容。

2.3.1.1. Prompt Engineering

LLMs 生成合成数据的最大优势之一是其遵循指令的能力，这有助于提高可控性（Wang 等，2023c；Radford 等，2019）。因此，许多方法都尝试用启发式提示来引导 LLM，以提高合成数据的忠实性和多样性（刘等人，2024）。根据经验，有效的提示一般包含三个关键要素：任务规范、生成条件和上下文演示，然后用模板 E 将它们包装成自然指令的形式：

如上所示，生成任务 T 和辅助数据集 D 都会影响 p。接下来，我们将详细介绍应如何适当设计提示的各个部分，以适应各种情况。

Task Specification：在传统的众包标注场景中，被招募的工作人员通常会得到一本代码手册，其中规定了必要的背景，如任务目的、数据解释和其他背景知识，以便他们能更好地理解自己的工作（Gilardi 等人，2023 年）。同样，这样的任务说明对于为 LLMs 驱动的数据生成设置正确的情境至关重要，它还可以包括角色扮演（Li 等人，2023c）、格式澄清、知识扩充（Xu 等人，2023b；Sudalairaj 等人，2024）等。有证据表明，一个简单的序言，如 "假设你是一个{xxx}"，就能为数据生成设置一个适当的场景，让学习者更好地扮演角色，从而显著提高学习者的学习成绩（Li 等人，2023c）。Yoo 等人（2021 年）用 text type, label type, and label-token verbalizer 三元组定义了任务规范。当需要额外的领域专业知识来解决语境理解和数据生成中的术语复杂性等问题时，这样的描述头就显得尤为重要。因此，Xu 等人（2023b）利用外部知识图谱和 LLM 获取领域主题，用于上下文信息提示，从而有效提高了生成数据的忠实性和复杂性。

Conditional Prompting：如第 2.2 节所述，将 LLMs 用于以下方面的一个关键挑战是合成数据生成需要确保足够的多样性，因为直接提示 LLM 为某些任务生成数据往往会导致高度重复的输出，即使解码参数 temperature 设置的很高（Gandhi 等人，2024 年；Liu 等人，2024 年）。为解决这一问题，一种被广泛采用的策略是条件提示，它明确而具体地向 LLMs 传达所需的特定数据类型。条件提示的核心是通过制定一系列 condition-value 对来划定目标数据：

这能有效描述合成数据的理想属性和特征。通过这些属性的不同组合，我们可以实现人为定义的多样性（Gunasekar 等人，2023；Li 等人，2023b；Eldan 和 Li，2023）。条件提示不仅能更好地控制生成数据集的多样性和覆盖范围，还能将内容细化到更窄、更集中的范围，从而更有可能符合我们的具体期望和要求（Li 等人，2023c）。目前关于条件提示的研究主要集中在以下两个方面：

Conditioning Scope：早期的研究（Gao 等人，2023a；Ye 等人，2022a,b）采用了一种基本的输出条件提示策略，利用特定的标签对目标数据进行提示。以分类任务为条件变量。这样做的理由主要是为了保持类别平衡和覆盖范围。然而，这种策略并不适合缺乏明确类别标签的数据。Yu 等人（2023b）的后续研究认为，使用更细粒度的属性（如主题、长度和风格（Xu 等人，2023b））进行条件提示，由于可能的属性组合数量巨大，可以导致更多样化的生成，也适用于开放式数据。此外，Eldan 和 Li（2023 年）还要求每一代人在生成的故事中加入三个随机选择的单词。事实证明，这种方法也大大提高了生成数据的多样性，通过在提示中加入 "创造性随机"，将重点从输出的启发式特征转移到了更有条理、更有针对性的调节机制上（Eldan 和 Li，2023 年）。
Conditioning Values：在定义了条件范围后，我们需要为每个条件分配具体的值。尽管从已知类或标签中采样的策略看似简单明了（Ye et al.为了解决这个问题，Josifoski 等人（2023 年）主动从外部知识图谱中检索条件实例，而 Xu 等人（2023 年 b）和 Ding 等人（2023 年 b）则利用 LLM 生成多样化的条件提示实例。具体来说，Ding 等人（2023b）构建了一棵概念树来深入研究不同的子课题，确保采样条件值的覆盖范围，从而有助于生成更多样化的数据。此外，提示模板 E 也可视为一种特殊类型的条件。事实证明，在整个生成过程中加入具有一定随机性的模板，可以增强生成内容的多样性（Meng 等人，2022 年）。

In-Context Learning：由于 LLM 本身存在偏差，因此仅凭任务说明和条件提示就想从 LLM 那里获得有利的回应仍然具有挑战性。在这种情况下，一种直接而有效的策略就是提供若干示例。研究表明，由于 LLMs 具有出色的情境学习（ICL）能力，几个示例可以让它们深入了解真实世界数据中表现出的模式，从而显著提高生成数据的忠实度（Li 等人，2023c）。在辅助数据集 Dsup 中有标注样本的 "few-shot"设置中，这些样本可以直接用作 ICL 的示范。

鉴于提示长度和数据不一致性的限制，上下文样本的质量极大地影响了上下文学习的效果。Sudalairaj 等人（2024）认为，像 Self-Instruct（Wang 等人，2023e）那样从种子样本池中随机选择上下文示例，会导致生成的数据缺乏多样性和质量。为解决这一问题，Sudalairaj 等人（2024 年）选择了集中于特定方面的示例，以更好地激发 LLM 固有的长尾知识。Liu 等人（2022b）和 Su 等人（2023）根据嵌入空间中的余弦相似度，优先选择一致的样本作为示范样本。另外，Ye 等人（2022b）使用量化的影响分数来选择信息量最大的样本，从而引导生成过程。为了提高上下文示例的信息量，He 等人（2023 年）在将每个示例整合到提示中之前，都会提示 LLM 对其进行解释。这种方法不仅能提供有价值的额外信息，还能很好地与随后的 "思维链"（Chain-of-Thought）生成过程保持一致。

2.3.1.2. Multi-Step Generation

在前面我们介绍了一些常见的提示策略，这些策略通常是为特定的生成任务 T 而设计的。然而，在大多数情况下，由于缺乏足够的推理能力，指望 LLM 在单次推理中生成所需的数据是不现实的，尤其是在针对具有复杂结构或语义的数据时（Cui and Wang，2023）。为了解决这个问题，一种常见的策略是多步骤生成，通过这种方法，整个生成过程被人工分解成一连串更简单的子任务以强制 LLM 按计划逐步生成数据：

其中 D0 = Dsup。每个中间输出 Di 都是在 pi 的提示下，针对子任务 Ti 使用模型 Mi 生成的。这些输出可能会被用于后续生成。

通过这种方式，我们将 LLM 的推理路径与人类的先验知识隐性的结合起来。具体来说，有两种常见的任务分解策略：sample-wise 分解和 dataset-wise 分解，其主要目的是提高不同规模合成数据的质量。

Sample-Wise Decomposition：多步骤生成的一个典型用例是处理对话数据或实体-关系三元组等非单一多段文本数据时面临的长文本处理和逻辑推理挑战。在这种情况下，一种直接的方法是将样本分成较小的 chunks，每次只生成每个样本的一部分（Li 等人，2022；Ye 等人，2023；Wang 等人，2023e）。这样，D1:k 可被视为 Dgen 的不同部分：

值得注意的是，生成过程的每次迭代都可以用之前生成的内容为条件。例如，Ding 等人（2023b）提示 LLMs 交替扮演助手和用户，根据上下文互相回复，最终生成一份完整的对话记录。通过这种方式，每个内部组件 Di 之间的一致性可以通过分开的指令得到明确加强，从而使模型更容易遵循要求并生成更忠实的数据。需要注意的是，D1:k 不一定构成最终 Dgen 的一部分，相反，明确输出一些中间推理步骤也能改善复杂数据的生成（Bai 等人，2022 年；He 等人，2023 年）。思维链（CoT）提示是提高 LLM 生成内容忠实性的最常用策略之一（Wei 等人，2022 年）。尽管如此，目前对此类潜在元数据的探索研究仍显不足，因此从推理角度对任务进行抽样分解仍是未来研究的一个未决问题。

Dataset-Wise Decomposition：数据集任务分解会动态调整多步骤生成的每个阶段所使用的条件，以确保整个数据集朝着正确的方向发展：

具体来说，S3（Wang 等人，2023b）根据在以前生成的数据上训练的下游模型的性能，在每次迭代时瞄准最常被错误标记的类别。同样，Honovich 等人（2023b）和 Shao 等人（2023）利用 "先生成后扩展 "的模式，相应地增强了整个数据集的多样性。其他一些方法也利用特定的数据结构来模拟数据生成的路径。例如，Explore-Instruct（Wan 等人，2023 年）将领域空间建模为树形结构，并通过树形遍历不断完善生成的数据，以促进生成数据的专业化和领域覆盖。

2.3.2. 数据整理

经过前面的步骤，人们可能会生成过量的 Dgen。然而，这些数据往往包含相当一部分有噪声、无价值甚至有毒的样本，这主要有两个原因。

首先，由于幻觉问题，LLM 不可避免地会产生带有错误标签的损坏样本。
其次，包含模糊描述的无效提示会诱使模型生成不相关或多余的样本。因此，未经适当处理就直接利用这些低质量数据可能会产生严重的负面影响。

为了解决这个问题，人们研究了大量的数据整理方法，主要分为高质量样本过滤和标签增强两大类。

图 4：数据整理的两种主要方法

2.3.2.1. High-Quality Sample Filtering

样本过滤的目的是剔除不受欢迎的低质量样本，获得更有用的数据子集 Dcurated ⊂ Dgen。如图 4 所示，这些方法通常会设计启发式标准或重新加权函数，对样本进行重新排序过滤。

Heuristic Metrics：基于启发式度量的方法，关键步骤是根据学习过程动态设计恰当的标准，如置信分（Seedat 等人，2023 年）、影响函数（Ye 等人，2022 年b）和生成能力（Meng 等人，2022 年）。SuperGen（Meng 等人，2022 年）利用预估生成概率来识别与所需标签最相关的样本。Seedat 等人（2023 年）丢弃了低置信度和低不确定性的样本。还有一些方法假定干净的样本在不同条件下容易保持相似的预测，并采用跨条件一致性进行过滤。具体来说，这种一致性可以是 LLM 和下游分类器之间的一致性（Yu 等人，2023c），也可以是多次执行之间的一致性（Ye 等人，2023），还可以是相邻数据点之间的一致性（Seedat 等人，2023）。Chen 等人（2023b）利用 LLM 来评估不同样本的质量，并过滤掉得分较低的样本。

结果表明，Alpagasus（Chen 等人，2023b）是在一个小得多但经过精心策划的数据集上训练出来的，它在多个基准测试中都超过了最初的 Alpaca（Taori 等人，2023），这凸显了数据整理的重要性。

Sample Re-Weighting：重新加权法认为所有数据都是有价值的，但重要性各不相同。因此，它们会在下游使用过程中为注释正确或有影响力的数据样本分配更大的权重（Zhang 等人，2023b；Gao 等人，2023a；Meng 等人，2023）。例如，SunGen（Gao 等人，2023a）提出了一种无需人工注释的自适应双级再加权算法。FewGen（Meng等人，2023年）设计了一种判别元学习目标来调整样本权重，并划分不同标签之间的细微差别。

2.3.2.2. label enhancement

标签增强方法致力于纠正生成样本中可能存在的错误注释。由于确认偏差，让 LLM 识别自己的错误是不现实的。为了解决这个问题，最近的研究要么依靠人工干预，要么结合学生模型进行无人工干预的知识提炼。

Human Intervention：一种直接的标签制订策略是由人工对错误的样本进行重新标注（Chung 等人，2023a；Wang 等人，2021；Pangakis 等人，2023）。Wang 等人（2021 年）建议主动选择置信度最低的样本进行人工重新标注。Pangakis 等人（2023 年）和 Liu 等人（2022a）进一步强调了人工审核的重要性，并建议比较人工和 LLM 在相同代码簿指导下的注释。尽管这些方法简单易行，但可能会导致相当大的标注成本，在实际部署中可能并不现实。

Auxiliary Model：为了降低标注成本，人们开发了一种更实用的免人工范式，其中包括辅助学生模型进行知识提炼和标签精炼（对数据集中的标签或注释进行改进和优化的过程，以提高数据集的质量和准确性）（肖等人，2023；赵等人，2023a；萨阿德-法尔孔等人，2023）。这些方法依赖于学生模型的弱监督能力，并假设从 LLM 教师那里提炼出来的学生可以生成更优秀的标签。开创性工作 FreeAL（肖等人，2023 年）提出了一个协作框架，利用学生模型从弱注释中提炼出高质量的任务相关知识，并反馈 LLM 进行标签提炼。MCKD（Zhao 等人，2023a）设计了一个多阶段蒸馏管道，采用数据分割训练和跨分区标注，以避免对噪声标签的过度拟合。随着 LLM 的能力和可用性不断扩大，作为人工干预的一种具有成本效益的替代方案，辅助学生模型的加入将发挥更加重要的作用。

2.3.3. 数据评估

在使用生成的数据之前，必须对数据的质量和应用效果进行评估，以确保其对下游任务的价值。目前主流的评估方法大致可分为两类：直接评估（评估 Dgen 的质量）和间接评估（评估 Dgen 对下游任务的有效性）

图 5：数据评估的直接和间接方法

2.3.3.1. Direct Evaluation

Data Faithfulness：在理想情况下，如果有现有数据集的基本事实（ground truths），可以很容易地实现对 LLM 生成结果的自动评估（Zhu 等人，2023 年）。然而，对于开放式数据，必须进行基于人工的评估。一个直截了当的想法是将一些生成的样本提供给人类专家，然后由他们来判断这些样本是否正确，据此我们可以估算出整体的生成质量（Wang 等人，2023e）。从理论上讲，样本量越大，估算结果就越准确，但相应的人力成本也会越来越高。为此，可以利用可靠的辅助模型对生成的数据进行更全面、更经济的评估，以取代人类专家（Chung 等人，2023b）。考虑到大多数模型只能处理长度有限的内容，适当的信息提取可以减轻辅助模型的负担，并有助于更精确地预测样本是否包含事实错误（Lee 等人，2022 年）。

Data Diversity：数据多样性的量化主要采用词汇统计和样本相关性计算。词汇统计（Yu 等人，2023b），如词汇量和 N-gram 频率，提供了一种简单直观的方法。然而，它们很难捕捉到数据集的语义信息。样本相关性的计算可以有效弥补这一不足。最常见的样本相关性测量方法是基于余弦相似性（Wang 等人，2023b）和样本距离（Chung 等人，2023b），它们能更好地捕捉数据集的上下文和语义多样性。此外，还可以利用这些指标来选择与之前生成的样本相似度更高的上下文演示 edemo（Wang 等人，2023e），从而获得更多样化的生成结果。

2.3.3.2. Indirect Evaluation

Benchmark Evaluation：在生成数据上训练的下游模型的性能也能在一定程度上反映生成质量（Yu 等，2023b；Chung 等，2023b）。具体来说，除了下游模型的专业能力外，合成数据的影响可以从多个维度进行评估。例如，TruthfulQA 可以评估模型识别真实主张的能力（Sun 等，2023 年）；NIV2 用于评估模型在多个任务中的语言理解和推理能力（Wang 等，2023 年e）。

Open Evaluation：对于开放式基准，由于缺乏标准答案，必须由人类或辅助模型进行评估。为了充分利用辅助模型的偏好输出，人们设计了多种评估策略，如回答排名（Xu 等人，2023a）、四级评分系统（Wang 等人，2023e）和 Elo 分数（Bai 等人，2022）。为了进一步降低评估成本，孙等人（2023）、徐等人（2023a）利用 Vicuna 提出的基于 GPT-4 的自动评估框架进行评估。然而，一般的 LLM 对特定领域的任务可能缺乏足够的知识，这阻碍了它们提供有效的评估（Bran 等人，2023 年）。因此，收集人类评估数据以微调开源模型进行评估是现实世界中的重要实践（He 等人，2023 年）。其他技术如（Peng 等人，2024 年，2023 年）仍有待进一步探索。

响应排名（Response Ranking）：

- 介绍：响应排名是一种将模型生成的多个响应按优劣顺序排列的评估方法。
- 应用：该方法通常用于比较不同模型的输出，以确定哪个模型在给定任务上表现更好。
- 实例：例如，Xu等（2023a）通过让评估者对模型生成的不同回答进行排名，从而确定最佳响应。这种方法直观地展示了各响应之间的相对质量。

四级评分系统（Four-Level Rating System）：

- 介绍：四级评分系统是一种将模型输出按质量分为四个等级的评估方法。
- 应用：评估者根据预定义的标准对模型输出进行打分，通常等级包括“优秀”、“良好”、“一般”和“差”。
- 实例：Wang等（2023e）使用四级评分系统来评估模型生成的文本，确保评分过程既简单明了又能有效区分不同质量的输出。

Elo评分（Elo Scores）：

- 介绍：Elo评分最初用于棋类比赛，后来被引入用于模型评估，通过对模型进行对战模拟，评估其相对水平。
- 应用：在NLP模型评估中，通过模拟模型之间的“对战”，根据每次对战的结果更新模型的Elo评分，从而反映模型的相对表现。
- 实例：Bai等（2022）采用Elo评分系统来动态评估和比较不同模型的表现，通过持续更新评分，模型的排名能够更准确地反映其真实水平。

基于GPT-4的自动评估框架：

- 介绍：为降低人工评估成本，Sun等（2023）和Xu等（2023a）利用了由 Vicuna 提出的基于 GPT-4 的自动评估框架。
- 应用：该框架利用 GPT-4 的强大理解和生成能力，自动评估模型输出的质量，从而大幅减少评估所需的人工干预。
- 实例：Vicuna 提出的自动评估框架可以对大批量的模型输出进行快速评估，同时保持较高的评估准确性和一致性。这种自动化评估方法在大规模模型对比实验中尤为有用。

2.4. 未来发展方向

2.4.1. 复杂任务分解

目前的多步骤生成算法依赖于模型对任务要求的理解，要求它在有限的信息下进行复杂的逻辑推理。然而，在现实世界的复杂场景中，有限的信息可能无法实现有效的决策制定。例如，数学问题-解决方案对的生成涉及多个推理步骤，可能需要使用计算器工具进行验证。迄今为止，关于如何激活 LLMs 的推理和规划能力以实现自动合成数据生成，仍然缺乏系统性的研究。受 HuggingGPT（Shen 等人，2023 年）和 MetaGPT（Hong 等人，2023 年）等流行的基于 LLMs 的 agents 的启发，我们认为开发一种用于工业应用的数据生成 agent 也是非常有价值的。

2.4.2. 知识增强

最近的研究发现，LLM 的知识具有长尾性和偏差性（Navigli 等人，2023 年；Fei 等人，2023 年）。由于缺乏特定领域的知识，LLMs 往往会生成有偏差、单调甚至不真实的数据。虽然我们在前面的章节中介绍了如何通过任务规范和条件提示来平滑地引导数据生成，但这些方法仍然有很大的局限性，不利于泛化性实施。相反，我们认为直接在成熟的领域知识库上开发自动条件控制，将大大提高知识增强的效率。例如，我们可以在 LLM 与外部知识图谱之间建立某些链接（Ji 等人，2022 年），或从网站上检索增强（Gao 等人，2023 年 b），这有助于在整个生成过程中对数据特征进行定义、分解和推理。此外，随着领域知识的增强，我们还可以更好地评估生成数据的质量，甚至开发自动评估系统。总之，我们相信知识驱动的数据生成将是未来研究的重点。

2.4.3. 大模型和小模型之间的协同作用

在第 3.2 节中，我们介绍了使用小型特定领域模型进行数据整理的方法。其中，FreeAL（肖等人，2023 年）展示了通过大型和小型模型之间的集成协作进行低成本数据整理的可行性。在数据生成过程中，利用自动性能评估提供的实时反馈来指导下一次生成中的相应调整，这一想法暗示了一个重要的研究方向。然而，现阶段对小型 LMs 的利用仅仅是基于预测置信度。未来，我们期待看到大型模型和小型模型之间更多样化的协作模式，以提高生成数据的质量（创新点），如利用各种输出信息、新的协作架构设计等。

2.4.4. 人类与模型合作

数据作为模型智能的来源，理论上不可能完全在没有人为干预的情况下生成。否则，带有噪声、有毒信息的野生合成数据很容易 "毒害 "模型，甚至导致模型崩溃。由于 LLM 本身的偏差，它们很难自我意识到生成数据的偏差，最终偏离我们的意图。因此，设计一个人性化的交互系统，将一些必要的人类知识用于注释和验证（创新点）是至关重要和不可替代的。迄今为止，仍缺乏一个通用框架来对数据生产过程中的人机协作进行标准化和系统化。

我们认为，这种系统的合理设计必须建立在对人工干预的优势和局限性的充分理解之上，并应遵循以人为本的原则。为了实现可持续的、高效的人工干预，我们需要综合考虑可行性、成本甚至劳动心理等各种因素。具体举例如下：(i)应确保 LLMs 提供的信息的可读性和可解释性，以减少人类理解的障碍；(ii)应进行上游知识的丰富或过滤，以提高人力资源的利用效率，减少对低成本高效益任务的消耗；(iii)加入愉快的互动功能，不仅可以减轻机械的数据处理任务对人类的负面影响，还能吸引更广泛的受众。

2.5. 结论

在本文中，我们系统回顾了在大型语言模型（LLM）的推动下合成数据生成方面取得的进展。我们旨在为企业和组织提供指导，帮助他们利用 LLMs 有效地构建特定领域的数据集。同时，我们还将努力深入探讨这一领域的挑战和机遇，并提出未来研究的潜在方向。我们希望我们的工作能促进各领域大量数据的快速生成，并推动以数据为中心的人工智能达到极限。我们还设想了一个梦幻般的未来：一个拥有仿生学和通信等类人能力的 LLMs 社区可能会被构建出来，为其自我完善而生成数据。

在本文中，我们调查了有关 LLM 驱动的合成数据生成、整理和评估的现有研究，并提出了适用于现实世界实践的通用工作流程。合成数据生成是一个广泛的话题，涉及各种模态的数据和模型，包括视觉和语音。由于篇幅所限，我们主要关注文本数据的目标和 LLMs 驱动的方法，而其他领域的研究则留待未来工作中进行。我们还将继续关注最新研究成果，并添加更多相关方法和更详细的分析。

2.6. 微调技术

大量的研究涉及模型微调（Zhao 等，2023b；Sun 等，2023；Meng 等，2023；Kurakin 等，2023）和软提示（Chen 等，2023a）等调整技术，这些技术已经在其他领域进行了大量研究，可详细参考（Hu 等，2023；Lu 等，2023；Wei 等，2023a；Xiao 和 Chen，2023）。尽管这些方法在提高生成性能方面很有效，但大多数现有方法都是建立在 LLM 的可访问性基础上的，而它们在黑箱模型上的应用还有待进一步探索。

2.7. 基于 LLMs 的数据生成技术的应用

LLM 驱动的合成数据生成已成为传统人工数据收集的新替代方案，并在各种应用中展现出巨大潜力，包括一般任务、特定领域任务和多模态任务。

通用任务：随着 LLM 功能的不断扩展，这一 generation pipeline 已被广泛应用于基础 NLP 研究，包括文本分类（Ye 等人，2022b；Yu 等人，2023c；Sahu 等人，2022）、命名实体识别（Xiao 等人，2023）、问题解答（Li 和 CallisonBurch，2023）、关系提取（He 等人，2023）和自然语言推理（Zhang 等人，2023b）。这些研究进一步巩固了情感识别（Gao 等人，2023a；Ye 等人，2022b）、在线翻译（Oh 等人，2023）、立场检测（Li 等人，2023a）和垃圾邮件识别（Smith 等人，2022）等各种应用。

特定领域的任务：一些特定领域的任务也对这一 pipeline 提出了很高的要求，在这些任务中，人工标注可能极其昂贵且不切实际，例如医疗诊断（Tang 等人，2023 年）、药物发现（Xiao 等人，2023 年）、临床试验提取（Xu 等人，2023 年b）、工业广告（Zhang 等人，2022 年）和表格数据分析（Seedat 等人，2023 年）。

多模态任务：这种生成范式简单、成本低，因此在多模态任务中也大有可为，包括文本图像检索（Kritharoula 等人，2023 年）、聊天理解（Han 等人，2023 年）、视觉问题解答（Han 和 Gardent，2023 年）以及多模态指令调整（Liu 等人，2023 年）

2.8. Benchmark 数据集

在表 1 中，我们总结了用于评估经过数据生成训练的模型的具有代表性的基准数据集。其中，ToolBench（Qin 等，2023）由 LLM 生成，通常用于评估 LLM 在工具使用熟练度。在大多数分类任务评估中（Li 等人，2023c；Wang 等人，2023b；Sahu 等人，2022），LLMs 很少作为评估对象；通常对生成数据训练的小参数量的语言模型进行评估测试。

LLMs 驱动的数据合成、整理和评估