Google-多代理设计:用更好的提示和拓扑优化代理

发布于:2025-07-21 ⋅ 阅读:(9) ⋅ 点赞:(0)

多代理设计:用更好的提示和拓扑优化代理

在这里插入图片描述

原文地址

摘要

大型语言模型被用作多种互动和合作的多种代理,在解决复杂的任务方面表现出色。 代理商是用声明其功能的提示,以及在跨代理之间协调互动的拓扑。 设计多代理系统(MAS)的提示和拓扑本质上是复杂的。 为了自动化整个设计过程,我们首先对设计空间进行了深入的分析,旨在了解构建有效MAS的因素。 我们揭示了提示与拓扑结合在实现更有效的MAS设计方面发挥关键作用。 根据洞察力,我们提出了多代理系统搜索(MASS),这是一个MAS优化框架,该框架通过将其优化阶段从本地到全局,从提示到拓扑,在三个阶段,超过三个阶段,有效利用复杂的MAS设计空间:1)块级级(本地)提示优化; 2)工作流拓扑优化; 3)工作流级(全局)提示优化,其中每个阶段都在以前阶段的迭代优化提示/拓扑基础上进行条件。 我们表明,大众优化的多代理系统的表现优于现有替代方案的大幅度。 基于质量创建的系统,我们终于提出了构建有效多代理系统的设计原理。

1. Introduction

大型语言模型(LLM)展示了基于用户提示的理解,推理和产生连贯响应的非凡能力,彻底改变了广泛的应用程序(Kojima等,2022; Ouyang等,2022)。 基于LLM的代理人通过自主处理各种领域的复杂任务(包括代码生成和调试)(Jimenez等,2023),检索发电(Singh等,2025; Wang等,2024a),数据分析(Guo等人,2024; Hu evertive su su,20224),以及2024的互动。 等,2025)。 这些代理通常用提示来编程,以加强它们与环境相互作用,利用可用工具,并在多个转弯中实现其目标(Yao等,2023)。除了个体代理外,LLM可以在复杂的拓扑结构中精心策划,这些拓扑结合了多个代理,以实现共同的目标。 这种类型的多机构系统(MAS)通常通过涉及更多多样化的代理观点或角色概况(例如验证者(Shinn等,2024)和多代理辩论(Qian等,2024; Wang等,2024b),通常超过其单层的对应物。
在这里插入图片描述

图1 拟议的多代理系统搜索(MASS)框架通过交织的及时及时的提示优化和拓扑优化在可自定义的多代理设计空间(左侧说明的关键组件)中,发现有效的多重系统设计(具有优化的拓扑和优化的提示,右)。

但是,为新领域设计有效的MAS通常被证明是具有挑战性的。 首先,单个药物可能会迅速敏感(Verma等,2024),在该提示中的简单修改已经可以发挥明显但意外的性能降解(Liu等,2024a; Zhou等,2024b)。 在MAS中,当将敏感剂级联时,可能会放大由于迅速灵敏度引起的复合效应。 与迅速的设计一起,制作有效的拓扑结构可能需要根据反复试验进行大量手动实验。 整体组合搜索空间不仅在迅速设计的无限空间,而且还可以将哪种代理集成到拓扑结构的设计决策中,这使问题复杂性加剧了。

尽管最近的研究探索了自动化代理设计的各个方面,但了解对改善MAS性能最重要的事情仍然存在差距。 例如,DSPY(Khattab等,2024)自动设计设计示例以改进及时编程的过程。 Li等。 (2024a)建议通过扩大多数投票代理的数量来优化MAS。 ADAS(Hu等,2024a)计划通过基于LLM的元代理在代码中表达的新拓扑。 Aflow(Zhang等,2024b)在一组预定义的操作员中使用蒙特卡洛树搜索搜索更好的拓扑。 但是,包括提示和拓扑在内的多个设计空间之间的相互作用尚不清楚。

在本文中,我们首先对MAS中的常见设计空间进行了深入的分析,研究了各个方面的影响,例如优化提示,扩展代理的数量以及涉及不同类型的拓扑结构。 我们的分析表明,提示经常形成具有影响力的设计组成部分,该组件产生了出色的MAS,而有影响力的拓扑仅代表了整个搜索空间的一小部分。 基于这些见解,我们旨在将有影响力的MAS组件的本质提炼成修剪的搜索空间,从而降低整体搜索过程的复杂性。 我们提出了多代理系统搜索(MASS),这是一种新型的多阶段优化框架,可在有效的搜索空间上自动化MAS的优化。 质量在可配置的拓扑空间上集成了插件播放提示优化器和工作流优化器。 它通过将优化阶段从局部到全局(从提示到拓扑,在三个阶段)交织到MAS上的关节优化的复杂性:1)块级级(本地)提示为每个拓扑块的“热身”; 2)在修剪的拓扑空间中优化工作流拓扑; 3)给定最佳拓扑的工作流级(全局)提示优化。

通过优化确定的有影响力的组件,质量收益优化的MAS,可以实现最先进的性能,优于现有的手动制作的MAS基准并自动产生的替代方案,并通过大量的差距在各种任务中证明,包括推理,多啤酒花,多啤酒花的理解和代码生成。 根据Mass发现的最强MAS,我们提供了建立有效MAS背后的进一步见解和准则。 总体而言,我们的贡献可以总结如下:1)我们对影响基于LLM的MAS性能的设计因素提供了深入的分析,强调了提示的重要性并确定了影响力的拓扑; 2)我们提出了一种新型的多阶段优化器质量,该质量通过在有影响力的搜索空间中的提示和拓扑的优化来使MAS设计自动化; 3)质量在各种评估基准方面显示出显着的性能提高,为未来构建有效的多代理系统提供了指南。

2. Designing Multi-Agent Systems

在本节中,我们首先提出多智能体系统(MAS)的设计框架,随后分析提示设计与拓扑结构设计的影响。我们将智能体(或等效功能模块)的结构排列称为智能体拓扑,并将工作流“ W W W”定义为跨不同拓扑构建MAS的逻辑序列。因此,MAS的设计可大致分为两个层面:模块级设计与工作流级编排。在模块层面,我们的目标是通过优化_提示_设计,构建高效执行预期任务的独立智能体;而在工作流层面,优化则涉及确定智能体的类型、数量及其最有效的排列方式(即拓扑优化)。形式化地,给定定义所有有效配置 a a a的搜索空间 A \mathcal{A} A(见图4),_工作流拓扑优化_可表述为以下优化问题,其目标函数 f ( ⋅ , ⋅ ) f(\cdot,\cdot) f(,)作用于输入输出数据集 ( x , y ) ∼ D (x,y) \sim \mathcal{D} (x,y)D

W ∗ ( a ) = arg ⁡ max ⁡ a ∼ A E ( x , y ) ∼ D [ f ( W ( a ( x ) ) , y ) ] . \mathcal{W}^*(a) = \arg \max_{a \sim \mathcal{A}} E_{(x,y) \sim \mathcal{D}} [f(\mathcal{W}(a(x)),y)]. W(a)=argaAmaxE(x,y)D[f(W(a(x)),y)].

本节余下部分将深入分析MAS设计的各组成部分。

2.1. Block-level: Prompt Design for Agents

在块级,显著影响下游性能的主要“可优化组件”是提示,它定义了代理的角色(例如,“你是个反思错误的专家…”),提供附加的指令以形成其行为(例如,“你应该一步一步地思考…”)并且可选地,包含很少的镜头演示(在上下文中的示例)以引导代理的响应(Wan等人,2024年、2025年)。例如,最先进的提示优化器搜索指令和少量演示,其中演示是从模型自身的正确预测中引导的,该正确预测基于验证度量对验证集进行。在示范的条件下,提示优化器然后利用数据集概要或各种提示为指令建议几个候选项,以提高候选项多样性(Opsahl-Ong等人,2024年)的报告。然后,指令和演示被联合优化。

尽管众所周知LLM对提示敏感(Verma等人,2024; Zhou等人,2024 a),应用自动提示优化(APO)技术的MAS是相当不平凡的。与单轮任务不同,APO可以通过将提示视为可优化变量并将验证集上的性能视为目标来轻松执行。在MAS中,由于代理之间的相互依赖性,APO变得更加复杂(例如,一个代理的输出可以是级联中另一个代理的输入,其中中间输出的地面实况响应不可用),并且随着更多数量的代理的参与,组合优化的复杂性呈指数增加;当代理增加时,奖励信号也变得更加稀疏,从而阻止我们以任何可管理的预算直接在MAS上实现APO;因此,许多先前的工作(Xia等人,2024; Zhang等人,2024 f)仍然主要使用手工制作的提示符,而不是将提示符作为可优化的组件包括在MAS设计中。

为了系统地了解提示设计在MAS中的影响,我们具体地和定量地分析了提示优化的效果,并将其有效性与MAS文献中常见的其他操作进行比较,例如使用更多代理但使用默认提示进行缩放。我们在一个思想链上进行APO(Kojima等人,2022)通过MIPRO具有指令优化和单次样本优化的代理(Opsahl-Ong等人,2024),并公平地比较总推理令牌成本与自一致性(Kojima et al.,2022)、自精炼(Madaan等人,2024)和多代理辩论(Du et al.,2024),其中规范见附录§B。在图2中,提示,它配备了更多的信息指令和范例代理,证明了显着的优势,其令牌有效性超过其他积木。此外,通过在提示优化的代理之上应用自一致性,我们观察到令牌成本的扩展性能有所改善,而扩展代理数量(例如SC或Reflect)的标准方法饱和得更早。这一经验观察揭示了提示的重要性,同时为设计有效的MAS提供了早期证据-在扩展其拓扑结构之前对代理进行本地优化。

在这里插入图片描述
图2|准确性与Gemini 1.5 Pro的MATH上每个问题的非优化代理的总令牌计数,与仅具有自我一致性(SC),自我完善(反射)和多代理辩论(辩论)的缩放代理相比。误差条表示1个标准差。我们表明,通过使用更多的计算,更有效的提示,可以获得更好的准确性。

2.2. Workflow-level Search Space Design

在工作流级别,主要关注的是编排代理以有效地实现最佳性能。作为MAS特有的相对较新的概念,拓扑优化最近已经获得了显著的关注(Li等人,2024 c; Zhang等人,第2024段b)。然而,尽管现有的许多研究都强调搜索方法,例如发现最有效的方法来确定最优配置,但很少关注搜索空间的设计,而搜索空间决定了任何搜索算法的周长和范围。这种不平衡与神经结构搜索(NAS)的历史发展相类似(白色等人,2023年)的报告。最初,该领域集中于复杂的搜索方法,例如Bayesian优化(Kandasamy等人,2018年; Ru等人,2021)和可微搜索(Liu等人,(2018年版)。后续工作强调了经常被忽视的搜索空间设计的重要性,认为它可以同等重要,如果不是更重要的话(Wan等人,2022; Zhou等人,第2023、2024条c款)。受此启发,我们假设手工创建的拓扑可能是次优的,而自动拓扑优化(可能被框定为严格的优化问题)可以通过明智地设计MAS的搜索空间来发挥类似的关键作用。为了实现这一点,我们首先定义一个表达性搜索空间,类似于先前的工作,它由以下构建块之间的连接组成:

  • Aggregate: 智能体可以并行地协作进行多样化的预测,然后由聚合运算符来获得最一致的预测。聚合块可以由并行代理进行参数化。多数票(Li等人,2024a)和自我一致性(Chen et al.,2024c)位于该拓扑结构内。
  • Reflect: 智能体可以充当验证者,根据先前的预测提供批评和改进建议。然后将反馈馈送到预测器或反射器本身以进行迭代改进。类似地,reflect可以通过定义自反射的轮数的参数化。𝑁𝑟自精炼(Madaan等人,2024)和反射(Shinn等人,#20240;,代表了这一点。
  • Debate: 辩论中的主体可以比单一主体预测得出更真实的预测(Du等人,2024; Liang等人,2024),其中每个辩论代理将收集来自所有其他代理的意见并提供更新的响应。这种拓扑结构将涉及代理的混合,并且代理定义了辩论的回合数。
  • Custom Agents: 虽然前三种形式的代理代表了绝大多数的代理拓扑结构构造为多个并行,串行和混合的代理,更通用的代理定义可以插入到MAS设计空间。例如,对于特定于任务的用例,我们引入了一个代理作为总结,以提高可定制设计空间中的长上下文能力。
  • Tool-use: 为了建立有效的MAS,使代理能够利用工具来访问外部信息对于系统性能是至关重要的,例如使用用于RAG的检索器(刘易斯等人,2020)和具有编码中的测试用例的执行者(Chen等人,(第2024段d)。我们引入了工具使用作为一个可优化的二元“插入”决策∈{0,1}。

为了了解单个拓扑结构的影响,我们在图3中报告了各种拓扑结构的性能。值得注意的是,并非所有拓扑都有益于MAS设计,而受到正面影响的拓扑仅代表整个集合的一小部分,因此在HotpotQA(Yang等人,2018年),只有辩论带来3%的收益,而其他人未能改善甚至降低系统性能。我们在LiveCodeBench的测试输出预测子任务中再次观察到了类似的趋势(Jain等人,2024年)的报告。它强调了在搜索空间的影响集中进行搜索的重要性,而包含递减的构件块不仅会导致更高的搜索复杂度,而且会降低性能。

在这里插入图片描述
图3| Gemini 1.5 Pro不同拓扑的性能与基础代理相比,每个拓扑都使用APO进行了优化,其中Sum.(总结)和Exe。(执行器)是如图4所示的任务特定拓扑。我们观察到,并不是所有的拓扑结构有一个积极的影响MAS的设计。

3. Mass: Multi-Agent System Search

我们在SEC的分析。2强调的重要性,精心设计的提示个人代理和仔细定义的搜索空间,以实现有效的MAS性能。在此基础上,我们提出了一个多级优化算法,多代理系统搜索(质量),超越现有技术,只专注于优化工作流拓扑结构,没有适当的提示设计。相反,我们的方法证明了MAS设计的更大的有效性,适当优化的提示和精心设计的搜索空间。在算法1和图4中示出了Mass框架,遵循从局部到全局、从块级到工作流级的直觉,其克服了组合优化的复杂性,具有下面详细描述的有效的每阶段优化。

在这里插入图片描述
图4|说明Mass框架及其搜索空间和多阶段优化。搜索空间结合了提示(指令,演示)和可配置的代理构建块(聚合,反映,辩论,总结和工具使用)。1)块级提示优化:我们对每个代理模块单独进行块级提示优化(用表示</>); 2)工作流拓扑优化:以在阶段1中在每个代理块上找到的最佳提示为条件,Mass从影响加权设计空间中采样有效配置,同时融合来自阶段1的每个构建块的提示; 3)工作流级提示优化:以阶段2中发现的最佳工作流程为条件,我们再次在最佳发现的MAS上进行工作流级别的即时优化(仅用于说明的可视化拓扑)。

**1)块级提示优化。**在组成代理之前,我们首先确保各个代理在块级别进行了彻底优化,如第二节所强调的那样。2.1图2 -这一步骤确保每个代理在最可管理的计算预算中为其角色准备了最有效的指令。为了进一步克服大MAS空间上联合优化的复杂性,我们首先用单智能体APO预热初始预测器,其中指令和样本都用模块化提示优化器O联合优化。𝑎𝑎接下来,我们以暖化的预测器为条件,继续优化每个拓扑结构,使代理的数量最少𝑎𝑖,𝑎𝑖|𝑎0),使得2个预测者与1个辩论者配对形成作为辩论拓扑的最小构建块,从而降低了优化的复杂性,并且该拓扑可以稍后用更多的预测者和辩论者来扩大,但是都配备有优化的提示。为了衡量每个构建块的影响,我们在优化完成后存储验证性能。重要的是,虽然阶段(1)作为每个构建块的预热阶段,但它仍然是保证后续拓扑优化在有效空间中搜索的关键阶段,组成表现良好的代理,而不是遭受任何具有手动提示的病态代理的复合影响。

在这里插入图片描述
**2)工作流拓扑优化。**在这个阶段,我们专注于优化整体MAS结构,确定最有效的安排和代理之间的连接。图3中的分析表明,有益的拓扑结构仅代表整个设计空间的一小部分。因此,我们的目标是提取的本质强性能的拓扑到一个修剪空间,从而使工作流级拓扑搜索更有效。在这里,我们建议测量增量的影响力Δ E Δ= E(ΔEΔ)/E(Δ EΔ 0),它量化了在初始代理Δ0上集成拓扑Δ E Δ的相对增益。根据直觉,有影响力的维度具有更高的选择概率,我们激活相应的拓扑维度,如果>,给定U(0,1)和= Softmax(,)。𝐼𝑎𝑝𝑎为了将不同的拓扑结构组合到一个统一的空间中,我们使用基于规则的顺序来约束工作流,以降低优化复杂性,遵循预定义的顺序,例如[总结,反映,辩论,聚合]。我们集成拒绝抽样超过预定义的设计空间,拒绝任何停用的尺寸,或无效的拓扑结构组成超过最大预算的代理数量。𝐵我们参考附录§B了解每个任务的详细搜索空间。

以下是该段英文的中文翻译:


3)工作流级提示词优化。
作为最后一步,我们将整个多智能体系统(MAS)设计视为一个整体,并在此基础上进行额外一轮的提示词优化,优化过程依赖于第二阶段中发现的最佳拓扑结构,即
W ∗ = O D ( W c ∗ ) \mathcal{W}^* = O_{\mathcal{D}}(\mathcal{W}_c^*) W=OD(Wc)
值得注意的是,尽管在第一阶段已经对每个个体进行了提示词优化,这一阶段仍起到适应或微调的作用,确保提示词能够适配整个MAS的协同流程,并优化智能体之间的相互依赖关系。我们的实验结果(图5与图6)表明,该阶段通常能够带来实际效益。

4. Related Work

基于LLM的Agent系统的形式。基于LLM的代理系统的最简单形式包括能够动态地交互并响应环境的单个代理(Yao等人,2023年)的报告。最近的进展赋予了代理人不同的角色和工具(Wu等人,2023),协调多个代理彼此合作(Chen等人,第2024段b)。代理合作的标准形式(即,拓扑)通常涉及并行和串行信息流。并行形式通常在并行的许多代理之间使探索多样化(Li等人,2024 a)和自我一致性(SC)(Wang等人,2023)是用于并行结垢剂的代表性方式。串行形式旨在通过代理链来推进任务的开发,其中LLM可以用作反射代理来自我证明和改进先前的预测(Madaan等人,2024年; Shinn等人,2024年)的报告。稍后,来自多个代理的意见可以被汇总以由聚集代理检索最一致的答案(Chen等人,2024 c; Lin等人,2024年)的报告。此外,多智能体辩论由更复杂的信息流组成(Chen等人,2024 a; Wang等人,2024 c; Zhang等人,2024 c),并且最近的研究表明,辩论可以引出更真实的预测(Du等人,2024年; Khan等人,2024年)的报告。最近的代理拓扑结构扩展到上述连接之外(Qian等人,2024; Wang等人,2024 b),并且Mass可以自动地在上述空间中搜索最佳拓扑。

MAS的自动优化。最近的研究开始通过将代理功能解释为可学习的策略来自动化代理设计(Zhang等人,2024 d,e)和用于试剂微调的合成轨迹(Qiao等人,2024年)的报告。从单个智能体进一步发展,自动多智能体优化面临更高水平的复杂性,从而需要更复杂的搜索空间和算法设计。在多智能体优化的所有最新进展中,优化空间已经跨越了提示(Khattab等人,2024)、工具(Zhou等人,2024 d)、工作流程(Li等人,2024 c)和思维策略(Shang等人,2024年)的报告。更接近我们的拓扑搜索空间DyLAN(Liu等人,2024 b)动态地激活试剂的组合物,和Archon(Saad-Falcon等人,2024)将MAS框架化为一个超参数优化问题。它们都没有考虑到重要的瞬发空间,我们在第1.2节中演示了瞬发优化的重要性。2.2.此外,GPTSwarm(Zhuge等人,2024)使用策略梯度算法来优化代理节点之间的连接。最新的自动化代理设计方法,ADAS(Hu等人,2024 a)和AFlow(Zhang等人,2024 b)也尝试使用高级搜索算法和LLM作为优化器来优化代理工作流。然而,我们观察到,在这些现有的工作中,正确的即时设计的重要性还没有得到充分的研究。

5. Experiments

模型和评估数据。除了用于自动化MAS的常见基准(Hu等人,2024 a; Zhang等人,2024 b),我们对广泛的任务集合进行实验:1)Hendryck的MATH(Hendrycks等人,2021)和DROP(Dua等人,2019)用于推理; HotpotQA(Yang等人,2018)、穆思缺(Trivedi等人,2022)、2 WikiMultiHopQA(Ho等人,2020)从LongBench(Bai等人,2024)用于长上下文理解; 3)MBPP(Austin等人,2021)、人类评价(Chen等人,2021)和LiveCodeBench(LCB)“测试输出预测”(Jain等人,2024)进行编码。有关数据分割和提示模板的详细信息,请参阅附录§B和§D。我们主要在两个Gemini 1.5模型尺寸上运行所有实验(Reid等人,2024)(gemini-1.5-pro-002和(gemini-1.5-flash-002),并进一步验证Claude 3.5 Sonnet(@20240620)(Anthropic,2024)的关键发现。

表1| Gemini 1.5 Pro和Gemini 1.5 Flash的评估集结果。我们报告了3轮评估的所有结果的平均值和标准差。我们报告了MATH和LiveCodeBench(LCB)的测试输出预测子任务的准确度(%),DROP,HotpotQA,MuSiQue和2WikiMQA的F1得分,以及MBPP和HumanEval的pass@1。我们注意到AFlow* 的元提示符仅适用于Claude 3.5 Sonnet。因此,我们使用Gemini 1.5 Pro作为执行程序,Claude 3.5 Sonnet作为优化程序来重现AFlow,其中 * 表示结果仅供参考。所有方法的推理中的代理数都小于10。在这里插入图片描述

Baselines. 我们考虑以下基线:1)CoT(Kojima等人,2022):通过零触发提示的直接思维链推理; 2)CoT-SC(Wang等人,2023):具有自我一致性以从多样化的推理痕迹中找到最一致的答案; 3)自我精炼(Madaan等人,2024年; Shinn等人,2024):用于验证和自我改进预测的反射代理; 4)多代理辩论(Du等人,2024; Liang等人,2024):由代理证明答案并聚集来自其它代理信息; 5)ADAS(Hu等人,2024年a):自动代理设计框架,其中基于LLM的元代理基于先前的评估迭代地建议新代理; 6)AFlow(Zhang等人,2024 b):通过在一组预定义操作符上的Monte-Carto树搜索来自动设计工作流。我们通过将代理的最大数量限制为10来公平地比较所有基准。我们参考附录§B了解所有质量标准。

Setup.Mass集成了最先进的提示优化器MIPRO(Opsahl-Ong等人,2024),其通过贝叶斯代理模型优化每个代理的指令和演示。我们将自举演示的数量限制为3,指令候选的数量限制为10,每个代理在10轮中。在所有任务的拓扑优化中,我们通过拒绝采样搜索10种不同的拓扑。在拓扑优化的沿着,在验证集上对每个拓扑进行3次评估,以稳定预测。然后,在三次运行中,在保持的测试集中报告优化的MAS。我们将模型温度设置为0.7,最大输出令牌数为4096,Softmax中的设置为0.05,以锐化每个搜索维度的选择概率。我们在所有阶段都实现了相同的LLM主干作为评估器和优化器。

Main reaults. 我们在表1中列出了与评估集基线相比的质量的主要结果。相对于常见形式的多智能体系统(例如,自我一致性、自我完善和多智能体辩论),批量产生了实质性的收益,这些系统在没有优化协作中的智能体的提示的情况下进行扩展。质量导致高性能MAS:Gemini 1.5 Pro和Flash的平均MAS分别为78.8%和74.3%,其中我们观察到Claude 3.5 Sonnet的一致改进,如表4所示。通过将Mass与最先进的自动化Agent设计基准ADAS和AFlow进行比较,我们首先注意到,即使ADAS已经基于常见的Agent形式来调节其元Agent生成,它也只带来了微小的增益。元智能体不断地提出复杂的拓扑结构,但没有优化即时设计。另一方面,AFlow表现出了与大众竞争的性能,特别是在2WikiMQA和HumanEval上。

我们将AFlow的性能归因于:1)其“扩展”阶段,其基于将预测与地面实况进行对比的错误日志生成新节点,其提供隐式文本梯度(Pryzant等人,2023)以反映提示设计中的任何格式错误; 2)在预定义的一组运算符内的更精细的搜索空间。虽然AFlow在搜索空间设计的重要性上获得了与Mass类似的灵感,但它仍然缺乏及时优化的阶段来正确优化其预定义的操作符,导致MATH和MuSiQue的MAS搜索结果性能不佳。与这些基线不同,Mass带来的持续改进突出了在提示和拓扑设计空间中搜索的重要性。

**Ablating optimization stages.**为了了解每个质量优化阶段的增量增益,我们在图5中提供了一个逐阶段的消融研究。我们列出了Mass从块级到工作流级优化的平均性能,并将其与单个代理APO基线进行比较,其中块级优化性能表示APO后性能最好的构建块<$∈ A。首先,我们注意到块级优化和单代理优化之间有很大的收益,平均为6%,这表明MAS从在构建块内优化其代理中获益匪浅。此外,从阶段(1)到阶段(2),通过在搜索最佳配置的同时组合有影响的拓扑,可以实现另外3%的增益。在这里,我们提供了在进行阶段(2)时的附加消融,而没有预先的即时优化或没有搜索空间修剪。图5(右)显示了它们对于有效的搜索空间探索都至关重要。最后,通过对最佳拓扑进行工作流级提示优化,Mass获得了进一步的收益(102%),这表明优化对Agent相互依赖建模的提示在MAS设计中是有益的。

在这里插入图片描述
图5|左图:在Gemini 1.5 Pro上完成8项评估任务后,Mass每个优化阶段的平均性能。我们比较了以单药(CoT)起始点作为参考的质量和通过MIPROv 2优化单药的APO基线(Opsahl-Ong等人,2024年)的报告。每个任务的消融详情请参见附录§C。右:在HotpotQA上评价的拓扑优化(2 TO)对比消融研究(无修剪和无早期即时优化(1 PO)阶段)。

**Cost-effectiveness of Mass.**我们对Mass的成本效益进行了分析。特别是,我们将Mass的优化轨迹可视化,如图6所示。Mass的轨迹展示了一种稳定的优化趋势,通过向更好的提示和拓扑交错搜索,逐渐提高了验证性能。然而,当涉及到没有明确的即时优化阶段的自动设计基线时,由于MCTS的性质,AFlow在其优化中暴露于较大的变化,而ADAS陷入了发现过于复杂的拓扑的陷阱,这些拓扑似乎不如即时设计空间有效。总体而言,Mass的优化轨迹突出了在有效设计空间中进行优化的重要性,其中交叉优化通过更多连续的回报进一步解决了复杂性。后续章节图2.1中,Mass还展示了先进的令牌有效性,参见图9。

在这里插入图片描述
图6| Mass的优化轨迹与DROP上每个验证轮的自动代理设计基线进行了比较。我们注意到,作为Mass的一个明显优势,Mass的阶段(1)和(2)内的优化可以完全并行化,而ADAS和AFlow是迭代算法,必须等待提出新的代理,直到完成早期的轨迹。

**Best-found MAS architectures & Design principles.**在图7中,我们进一步检查了优化提示的示例和Mass在更有效拓扑中的轨迹。优化从零触发CoT代理开始,很快阶段(1)中的Mass通过其优化的提示识别出争论中的高性能拓扑。然而,正如在阶段(2)中发现的那样,与更多并行代理的聚合实际上比多代理辩论更重要。工作流级别的即时优化然后导致聚合的最佳性能预测器。整体优化流程揭示了我们的指导方针,建立有效的MAS:1)优化个别代理人适当的是很重要的,然后再组成一个MAS; 2)更有效的MAS可以通过组成有影响力的拓扑结构;和3)建模代理之间的相互依赖是有益的,可以通过工作流级联合优化。

在这里插入图片描述
图7|在(1)块级优化中:多智能体辩论是性能最好的拓扑结构。在(2)工作流拓扑优化中,多个并行代理的聚集比代理的性能更重要。最后,(3)工作流级优化,以最优拓扑结构为条件,寻找最优提示。

6. Conclusion

我们的方法设计有效的MAS,首先进行了彻底的分析,大量的设计空间,揭示了关键作用的提示,并确定一个有影响力的子集的搜索空间。基于这些发现,我们引入质量,一种新的多阶段优化框架,搜索修剪设计空间,交错提示和拓扑优化,以有效地产生高性能的MAS。我们的实验表明,质量优化MAS显着优于现有的手动和自动化方法在广泛的任务集。最后,基于质量发现的优化系统,我们提取有价值的设计原则,以指导未来有效的LLM为基础的MAS的发展。

以上内容全部使用机器翻译,如果存在错误,请在评论区留言。欢迎一起学习交流!

郑重声明:

  • 本文内容为个人对相关文献的分析和解读,难免存在疏漏或偏差,欢迎批评指正;
  • 本人尊重并致敬论文作者、编辑和审稿人的所有劳动成果,若感兴趣,请阅读原文并以原文信息为准;
  • 本文仅供学术探讨和学习交流使用,不适也不宜作为任何权威结论的依据。
  • 如有侵权,请联系我删除。xingyezn@163.com