下列引用来自知乎作者Algernon 知乎link
FCP作为ZSC领域两阶段训练方法的开创者
论文《Collaborating with Humans without Human Data》来自 NeurIPS 2021。这篇论文提出 Fictitious Co-Play (FCP) 来解决 ZSC 问题。论文认为,ZSC 的第一个重要问题是对称性,第二个重要问题则是能够与不同水平的智能体合作。这篇论文提出的 FCP 则是一种简单的两阶段方法。在第一阶段,使用 SP 训练 个不同的同伴来打破对称性。为了得到不同水平的智能体,需要在训练过程中对每个智能体设置多个检查点,越往后的检查点表示技能越熟练的智能体。在第二阶段,需要训练 FCP 智能体来作为之前得到的个智能体的最佳响应。如下图所示。
我对上文提到的两个问题“ZSC 的第一个重要问题是对称性,第二个重要问题则是能够与不同水平的智能体合作。”很不解,同时不知道为什么要这样设计算法。解答如下:
- 对称性问题:
- 对称性问题指的是在多智能体环境中,不同智能体的行为或策略可能处于对称状态,即所有智能体在训练初期或环境设计上是等同的,彼此之间没有明显的区别。例如,在某些博弈或协作任务中,如果智能体的训练初期都拥有相同的策略和能力,它们可能在合作时难以分辨彼此的角色,导致合作效率低下。
- 解决方法:为了打破这种对称性,论文中提到的 Fictitious Co-Play(FCP)方法在第一阶段通过训练多个不同的智能体(同伴),每个智能体都有不同的技能水平。这样,智能体在训练过程中不会保持对称,能促进它们发展出不同的策略和能力,以避免在合作中“雷同”的策略。
- 能够与不同水平的智能体合作:
- 与不同水平的智能体合作是指智能体不仅要能够与其他智能体合作,还要能够与不同技能水平的智能体协同工作。在实际应用中,智能体可能面临与能力较强或较弱的伙伴合作的情况,因此必须具备适应不同合作伙伴能力的能力。
- 技能水平的不同:论文中提到,在训练过程中对每个智能体设置多个检查点,其中越往后的检查点对应的智能体技能越熟练。这意味着,智能体会经历多个阶段,从初学者到专家。为了适应与不同水平的智能体合作,FCP 方法通过在第二阶段训练智能体使其成为与这些不同能力的伙伴合作时的最佳响应者,即智能体不仅能适应能力较强的合作伙伴,还能与能力较弱的合作伙伴有效协作。
例如
第一阶段自博弈:
AA A0A0(初始状态) A1A1(中间状态) A2A2(收敛状态)
BB B0B0(初始状态) B1B1(中间状态) B2B2(收敛状态)
第二阶段FCP智能体为G
GA(A0,A1,A2)——即G要与不同状态、技能程度的A进行训练
GB(同理)
总结:
对称性问题:指的是在多智能体环境中,智能体的角色或策略相似,缺乏差异化,导致合作时的效率较低。解决对称性问题的方法是训练多个不同技能水平的智能体,以打破这种“对称”。
与不同水平的智能体合作:强调智能体不仅能与技能相当的伙伴协作,还能够适应和配合技能高低不一的伙伴。为此,FCP 通过设置多个检查点训练出技能层次不同的智能体,并在训练过程中确保智能体能够与这些不同水平的伙伴协作。