ARMOR：基于稳健强化学习的无人机物理攻击控制-EW帮帮网

大家读完觉得有帮助记得关注和点赞！！！

抽象

无人机（UAV）依靠机载传感器进行感知、导航和控制。但是，这些传感器容易受到物理攻击，例如 GPS 欺骗，这可能会破坏状态估计并导致不安全的行为。虽然强化学习（RL）提供了自适应控制功能，但现有的安全 RL 方法对此类攻击无效。我们推出 ARMOR (一个嘲讽R奥布斯特M动画-Optimized 状态Representations），一种具有攻击弹性、无模型的 RL 控制器，可在对抗性传感器纵下实现稳健的无人机作。 ARMOR 不依赖于原始传感器观察，而是通过两阶段训练框架学习无人机物理状态的稳健潜在表示。在第一阶段，使用特权攻击信息训练的教师编码器为 RL 策略训练生成攻击感知潜在状态。在第二阶段，通过监督学习训练学生编码器，仅使用历史传感器数据来近似教师的潜在状态，从而在没有特权信息的情况下实现实际部署。我们的实验表明，ARMOR 优于传统方法，确保了无人机安全。此外，ARMOR 还提高了对看不见的攻击的泛化，并通过消除迭代对抗训练的需求来降低训练成本。

第一介绍

无人机（UAV）广泛用于各种应用，包括物流、农业、监控和紧急服务[1]. 无人机依靠机载传感器进行感知、自主导航和控制。传感器测量的正确性对于在无人机任务中实现安全可靠的性能至关重要。但是，传感器容易受到通过物理通道注入恶意信号或噪声而发起的物理攻击。此类攻击的示例包括 GPS 欺骗[2]、使用噪声的陀螺仪篡改[3]和光学传感器通过激光束进行欺骗[4]. 物理攻击会破坏无人机的物理状态估计，导致不安全的控制措施，并导致偏离计划轨迹或坠毁，如图 1 所示。

无模型强化学习（RL）已成为一种很有前途的无人机控制方法，可在复杂和动态的环境中实现自适应决策[5]. 但是，由于基于 RL 的控制器也依赖于传感器，因此它们容易受到物理攻击。屏蔽等技术[6]和控制屏障功能（CBF）[7]已提出用于安全政策学习。但是，它们在物理攻击下无效。屏蔽和 CBF 依赖于不安全动作的先前定义和不安全动作空间的明确定义边界。物理攻击呈现出一种截然不同的威胁模型。它们可能会导致控制器在保持安全范围内的错觉下执行不安全的作。例如，GPS 欺骗会导致无人机任务期间的增量偏差，最终导致其轨迹出现重大偏差。虽然这些偏差在定义的作空间内可能看起来很安全，但它们可能会累积起来导致 UAV 遵循意外且具有潜在危险的路径。

对抗性训练是开发基于攻击弹性的 RL 控制器的一种流行方法. 但是，对抗性训练在物理攻击下具有以下限制.

（1）由于迭代生成对抗场景，它会产生高昂的训练成本。

（2）缺乏通用性，因为该策略仅对训练中遇到的特定攻击模式有效。

（3）它对以前看不见的攻击缺乏零射击效果。

图 1：左图：如果没有攻击弹性控制策略，遭受物理攻击的无人机会严重偏离其计划轨迹，从而导致任务失败。右图：我们的目标是设计攻击弹性控制策略，使无人机能够在受到攻击的情况下保持航线。

我们提出了 ARMOR，这是一种基于攻击弹性的 RL 无人机控制器。ARMOR 不是直接依赖来自机载传感器的高维物理状态信息，而是生成专为抵御物理攻击而设计的无人机物理状态的强大潜在表示。这种潜在状态表示使无人机能够在恶意干预的情况下安全运行并完成其任务。我们的主要创新是两阶段离线培训框架。在第一阶段，我们使用使用特权信息的教师编码器训练 RL 策略。在第二阶段，我们使用学生编码器调整 RL 策略，该编码器仅依赖于板载传感器。在联机部署期间，仅使用 student encoder。

教师编码器可以访问特权信息，例如受到攻击的目标传感器、传感器偏差的大小以及传感器作的持续时间。通过将无人机的高维物理状态信息与特权信息相结合，教师编码器使用变分自动编码器（VAE）生成稳健的潜在状态表示[12]. 这种潜在表示使 RL 策略能够在控制任务中实现高性能，并且它还对物理攻击保持弹性。

由于特权信息在实际场景中不可用，因此我们引入了一个完全依赖于板载传感器的学生编码器。学生编码器使用长短期记忆（LSTM）网络处理从机载传感器获取的无人机历史物理状态信息，捕获时间依赖关系以生成强大的潜在状态表示。学生编码器通过监督学习学习来近似教师编码器的潜在状态表示。 RL 策略与 student 编码器一起使用进行部署。

通过将学习过程解耦为教师和学生编码器并利用特权信息，ARMOR 消除了迭代对抗场景生成的需求，从而显著降低了培训成本。强大的潜在状态表示进一步增强了 ARMOR 在各种攻击类型和场景中的泛化能力，同时还支持零镜头泛化，确保对以前未见过的攻击的弹性。

虽然之前的工作已经探索了机器人的表示学习和特权信息的使用，这些方法侧重于增强正常情况下的控制，而不是对攻击的弹性。相比之下，我们的工作设计了稳健的潜在状态表示，专门针对对抗性扰动下的控制进行了优化。

我们的贡献如下：

我们引入了一个两阶段的离线训练框架，用于为 UAV 开发具有攻击弹性的无模型 RL 控制器。首先，使用特权信息对控制器进行训练，以实现稳健高效的策略学习。其次，该策略适用于仅使用板载传感器数据的在线部署。
我们提出了一种鲁棒的状态表示方法，将无人机的高维物理状态信息转换为弹性的潜在向量表示，确保对物理攻击的鲁棒性。
我们提出了一种迁移学习策略，使 RL 控制器能够在没有特权信息的情况下推断出稳健的潜在状态表示，而是仅依赖于历史传感器信息。

第二相关工作

II-A 型安全且有弹性的无模型策略学习

安全 RL 的先前工作主要集中在不确定性下的安全性。这些方法通过约束控制策略来修改作. 屏蔽[就是这样一种方法，它使用安全滤波器来修改控制输入，以确保输出保持在安全设置中。控制屏障函数（CBF）定义约束，通过派生满足约束的控制作来确保系统保持在安全集内。安全批评方法使用可学习的作值函数来检测可能不安全的作，并使用回退机制来选择安全作。物理攻击会纵无人机对其状态的感知，从而导致在定义的作空间内看起来安全的不安全作。上述安全 RL 机制旨在处理正常作条件下的不安全作，它们不是为了减轻物理攻击引起的故意状态纵。

健壮的 RL 技术是另一类用于处理状态作的工作。稳定的 MDP 方法通过推导出给定当前状态的不安全作的概率，并推导出替代作以避免不安全轨迹，从而制定保守的策略。另一方面，对抗性训练旨在学习可以在干扰下运作的政策，这通常是通过让主角代理学习政策而对手试图破坏系统的稳定来实现的。虽然这些方法提高了稳健性，但它们处理物理攻击的能力有限。它们对预定义的不确定性集和已知攻击模式的依赖限制了它们对新型或看不见的攻击的普遍性。此外，这些技术通常会增加培训成本，因为它们需要针对各种场景和攻击类型进行大量培训。此外，当不确定性范围很广时，这些方法会导致过于保守的政策，从而牺牲性能来换取安全。

II-B 型UAV 状态表示

之前的工作探索了机器人状态表示的对比学习，它学习判别性表示，但通常是有监督的，并且在安全关键型机器人中的使用有限[13,14]. Lee 等人提出了一种使用特权信息为四足机器人提供的潜在向量表示，但他们的重点是推断正常传感器条件下的本体感觉控制，而不是对攻击的弹性控制[16]. 此外，变分自动编码器（VAE）已被广泛用于提供概率潜在表示，为编码高维数据提供了强大的框架[15]. 我们的工作建立在这些基础上，但侧重于对抗条件下的弹性控制，解决安全意识机器人技术方面的关键差距。

第三预赛

无人机依靠传感器进行感知。例如，GPS 测量位置（x,y,z），陀螺仪测量角度方向（φ,θ,ψ），则加速度计测量速度（x˙,y˙,z˙）和加速度（x¨,y¨,z¨），磁力计测量航向，气压计测量海拔高度（z），光流传感器测量水平运动。

图 2：ARMOR 的两阶段训练方法概述。首先，教师编码器使用特权信息进行训练，其中包括攻击信息（目标传感器、损坏状态、攻击持续时间等）。控制策略与 teacher 编码器联合训练。其次，通过监督学习训练学生编码器来接近教师编码器。学生编码器无权访问特权信息，而是依赖于从板载传感器派生的历史物理状态信息流。对于联机部署，控制策略使用 student 编码器。

III-A 系列威胁模型

物理攻击通过注入噪声或恶意信号来纵传感器。例如，陀螺仪和加速度计可以通过噪声进行作，可以通过传输恶意 GPS 信号来纵 GPS[2]，磁力计可以通过注入电磁信号来纵，并且可以通过投射激光束来欺骗光流传感器. 这些攻击会纵无人机的物理状态估计值（例如位置、角度方向、速度），导致过度位置漂移、角度方向不稳定，从而导致碰撞或碰撞等严重后果。

III-B 型无人机控制设计

UAV 的控制架构由两个主要组件组成：运动生成和跟踪控制。 UAV 在基于连续轨迹的运动框架中运行，其中所需的轨迹在惯性坐标系中定义。无人机的轨迹使用航路点轨迹生成器（WTG）进行参数化，该发生器提供与时间相关的参考位置。UAV 在每个时间步的状态t由下式给出：pt=p0+∫0tv⁢(τ)⁢𝑑τ, 哪里pt是 Time 的位置t,p0是初始位置，而v⁢(t)是速度。

物理攻击会诱发偏见bt在传感器测量中，导致控制策略π⁢(⋅)生成不安全的控制作一个t这可能会导致无人机的真实状态ot偏离参考轨迹g⁢(t). 这种偏差量化为：Δ⁢pt=‖pt−g⁢(t)‖≫ε哪里ε定义安全阈值，通常建模为半径的圆形区域ε以 Target 状态为中心g⁢(t). 如果无人机始终在此范围内，则认为轨迹是安全的，即Δ⁢pt≤ε⁢∀t;否则，它被视为不安全。

四ARMOR：两阶段训练框架

ARMOR 的目标是在对抗和非对抗场景中控制无人机。图 2 显示了我们的两阶段训练方法的概述。

在第一阶段，我们训练一个教师编码器，该编码器可以访问特权信息（Xt），例如目标传感器、纵的状态、攻击引起的物理状态偏移量以及攻击的持续时间。教师编码器基于变分自动编码器（VAE）[12]，它接收 robot 的两个状态Ot和Xt，并计算一个 latent embeddinglt¯，这表示机器人的当前状态。接下来，我们使用强化学习来训练控制策略，使用教师编码器的潜在嵌入（lt¯）作为输入。特权信息使控制策略能够快速学习和适应攻击引起的状态作并输出弹性作。

在第二阶段，我们训练一个完全依赖板载传感器的学生编码器。在实际场景中，特权信息Xt不可用。为了在此约束下实现部署，学生编码器被实现为时间变化自动编码器（TVAE），它接收一系列历史物理状态信息（H）派生自板载传感器。它计算一个 latent embeddinglt以如图 2 所示的监督方式，这近似于教师编码器的潜在表示l¯t，使相同的 RL 策略能够在没有特权信息的情况下可靠地运行。

我们的方法采用了受 Chen 等人启发的特权学习策略。但引入了两项关键创新，可以提高对抗性稳健性和部署效率。

（1）我们使用教师编码器生成一个稳健的潜在表示，该表示对攻击引起的扰动具有弹性，而潜在表示是控制策略的输入。这鼓励策略完全依赖于弹性表示，从而提高对传感器作的稳健性。相比之下，Chen 等人同时使用原始观察和潜在表示来训练策略，这可能会稀释潜在表示的稳健性优势。

（2）而不是单独培训教师和学生政策，我们在训练和部署中重复使用单一控制策略。这样就无需从头开始学习第二个策略，从而简化了训练流程并提高了样本效率。

IV-A 型第一阶段 – 使用特权信息进行训练

我们将控制问题表述为马尔可夫决策过程（MDP）.MDP 由元组(𝒮,一个,𝒯,ℛ)哪里𝒮是状态空间，一个是作空间，𝒯是转移概率P⁢(st+1|st,一个t)和ℛ是一个标量奖励函数。培训框架的目标是学习控制策略π⁢(一个t|st)这会随着时间的推移最大化预期的奖励折扣总和。

在 ARMOR 的教师培训阶段，我们假设一个完全可观察的模拟环境。教师编码器可以访问无人机的机载传感器读数和在实际部署期间不可用的特权信息。完整状态定义为st:=⟨ot,xt⟩哪里：ot包括无人机的可观察物理状态，例如位置、角度方向、航向、加速度、线性和角速度。xt包含特权信息，包括受到攻击的传感器、相应的损坏物理状态、注入的偏差的幅度以及攻击的持续时间。此信息是从模拟器中提取的，并且仅在训练期间使用。控制作一个t指定 UAV 的低级控制目标（例如，速度命令、航路点更新和推力值）。表 I 总结了 ARMOR 的输入和输出。

教师编码器被实现为映射输入的多头变分自动编码器（VAE）st=⟨ot,xt⟩设置为 3 个 outputs：f老师⁢(st)=(l¯t=(μt,σt),y^t,s^t), 哪里l¯t是具有 mean 的潜在表示μt和方差σt,y^t是预测的攻击类型，而s^t是输入st. 攻击类型分类器鼓励潜在空间捕获特定于攻击的模式，而 varianceσt提供允许控制策略的不确定性估计π⁢(一个t|l¯t)调整其在看不见的攻击下的行为。

教师编码器使用辅助解码器进行训练，以通过重建损失评估潜在表征的质量;但是，解码器在训练后被丢弃，只有编码器与 RL 策略一起使用。教师编码器的训练是通过最小化组合损失来训练的，其中包括重建损失、Kullback-Leibler （KL）散度和辅助攻击分类损失：

RL 策略π⁢(一个t|l¯t)使用 Proximal Policy Optimization （PPO）进行训练[32]，具有 latent 表示l¯t作为输入。这种设计鼓励策略依赖于强大的、可感知攻击的潜在表示形式，从而提高其弹性。

此阶段使策略能够在训练期间利用特权信息，从而允许它在对抗条件下生成弹性行为。由此产生的潜在空间是第二阶段策略学习和学生编码器监督的稳健表示。

奖励功能旨在促进任务完成，同时确保安全和稳定。例如，RL 代理会因最小化与目标航点的距离而获得正奖励，而对突然运动、过度倾斜或偏离轨迹等不安全行为则获得惩罚。奖励函数定义为：

哪里pt是无人机的位置，gt是目标航点，而‖pt−gt‖是到目标的欧几里得距离。指数项提供了目标奖励的平滑近似值，随着无人机接近目标，奖励会急剧增加。其余项对轨迹偏差、倾斜（θt）和突然的控制作（一个t），以及相应的权重α,β和γ. 术语θt表示无人机的总倾斜度（例如，滚动和俯仰偏差的组合），以及一个t表示 Time 的控制命令t（例如，位置改变）。系数α,β和γ分别对偏离目标、不稳定和突然运动的处罚进行加权。

表 I：ARMOR 在两个训练阶段使用的输入。Ot：无人机物理状态，Xt：优先信息，St：教师编码器的输入，H：学生编码器的输入，以及一个t：行动。

IV-B 型第二阶段 – 迁移学习适应

在此阶段，我们介绍了一个学生编码器，它仅根据来自板载传感器的数据进行作。核心思想是近似教师的潜在表征l¯t仅使用历史 UAV 物理状态。这实现了一种迁移学习设置，其中最初使用特权信息训练的 RL 策略现在可以与学生编码器生成的潜在表示一起运行。

我们将学生编码器实现为使用长短期记忆（LSTM）网络构建的时间变化自动编码器（TVAE），该网络有效地对时间序列传感器数据中的顺序依赖关系进行建模。编码器将滑动窗口中的 UAV 历史物理状态序列作为输入H:={ot−N,…,ot−1}，其中每个ot表示 UAV 在时间的物理状态t（例如，位置、速度、角速率和方向）。此序列H提供隐式捕获对抗性干扰随时间推移的影响的时态上下文。学生编码器映射H到 latent 表示lt这近似于 Teacher 编码器的潜在表示l¯t.lt然后传递给经过训练的控制策略以派生控制作。

学生编码器输出：（i）潜在表示lt（平均值和方差），（ii）攻击类型预测，以及（iii）输入的重建（在训练期间）。这种多头设计鼓励潜在空间将任务相关特征与攻击引起的扰动分开，从而提高不同攻击类型的泛化。

学生编码器通过监督式学习进行训练，使用教师编码器的输出作为目标。对于每个输入历史记录Ht，学生旨在近似教师的潜在表征l¯t并确保 Control Policy 从两种表示形式中生成一致的作。具体来说，我们将综合损失降至最低：

其中第一项鼓励学生编码器匹配教师的潜在表示，第二项对齐策略输出，并且ℒ攻击惩罚攻击类型分类中的错误。训练完成后，RL 控制策略最初使用l¯t被重用且保持不变。在部署时，RL 控制策略采用lt作为输入，仅使用无人机机载传感器数据即可实现攻击弹性控制。

V评估和结果

在本节中，我们首先概述了实验设置、仿真环境和用于评估的指标。然后，我们提出了从三个关键方面评估 ARMOR 有效性的结果：

（1）学生编码器在无法访问特权信息的情况下近似教师的潜在状态表示的性能。

（2）在物理攻击下保持安全稳定飞行的能力。

（3）泛化到看不见的攻击场景。

物理攻击。我们在 5 种不同类型的物理攻击下评估 ARMOR[33]针对无人机的 GPS、陀螺仪、加速度计、磁力计和光流传感器。我们使用 RAVAGE 模拟逼真的物理攻击[34]，一种支持发起类似于真实物理攻击信号特征（攻击偏差、攻击持续时间、偏差模式）的物理攻击的软件工具。表 II 概述了攻击参数。

表 II：用于评估的攻击参数。

传感器	偏置类型	Bias Range	攻击持续时间
全球定位系统	漂移	1-20 米	长达 60 秒
陀螺仪	振荡	1-90 度	长达 60 秒
加速度计	振荡	0.5-1 米/秒	长达 30 秒
磁力计	随机	10-90 度	长达 60 秒
光流	随机	0.1-0.5 米	长达 30 秒

Simulation Environment 的 S S S T我们考虑在 3D 空间中运行的四轴飞行器。无人机动力学使用 gym-pybullet 进行仿真，与 OpenAI Gym 兼容环境构建，该引擎提供刚体动力学的真实模拟。该系统通过离散化四轴飞行器的连续时间动力学进行仿真所示：

哪里m是四轴飞行器的质量，(T1,T2,T3,T4)是四个转子产生的推力，g=9.81⁢米/秒2是重力加速度，l=0.2⁢m是四轴飞行器臂的长度（从中心到每个旋翼的距离），以及我x⁢x,我y⁢y,我z⁢z是关于x,y和z轴。我们将状态定义为Ot，如表 I 所示。该作定义为一个=(T1,T2,T3,T4)，表示每个电机产生的推力。

我们使用0.004⁢s以确保对无人机的动力学进行准确建模。 state 和 action spaces 都归一化为 range[−1,1]对于所有实验。为了保持物理真实感，我们限制了推力命令的绝对差异，这限制了身体角速率φ˙,θ˙,ψ˙自|ω|≤10,rad/s.

控制目标是达到随机采样的目标位置g在 3D 空间中，表示为半径为0.1⁢m. 为了引导无人机朝着目标前进，同时确保稳定和安全的飞行，我们设计了一个形状的奖励函数，为达到目标提供激励，为不安全行为提供惩罚（方程 2）。

比较。我们将 ARMOR 的有效性与两种先前的技术进行了比较：（1）稳健对抗强化学习（RARL）[8]，它将对抗性训练表述为主角（控制策略）和注入干扰（物理攻击）的对手之间的最小博弈，旨在学习一种对传感器扰动具有鲁棒性的策略。（2）混合恢复策略（HRP）[38]，它将神经网络策略与稳定 PID 控制器相结合，其中学习的策略在恢复区定义的安全区域内运行，并遵循这些区域之外的稳定控制器以确保安全。

基线 RL。我们使用与 ARMOR 相同的架构实施基线 RL 策略，只是它不包含任何编码器。此基线直接处理高维物理状态信息作为 PPO 策略的输入，而无需将其映射到潜在表示形式。基线用作评估编码器在提高对物理攻击的弹性方面的有效性的消融。

度量。我们使用以下三个指标进行评估：

任务成功率衡量无人机成功到达目标位置的情节比例g在误差范围内ε. 如果最终的无人机位置pT满足‖pT−g‖≤ε哪里ε=5⁢m [11,30].
2.
Crash Rate 衡量的是任务因坠毁而失败的剧集的比例。碰撞定义为 UAV 的状态超出预定义的安全边界，导致事件终止。
3.
State Drift 测量攻击期间物理状态与理想物理状态的平均绝对偏差。例如，在 GPS 攻击的情况下，状态漂移被量化为无人机当前位置之间的欧几里得距离pt和理想的位置p^t在每次t攻击持续时间内T.

V-AARMOR 培训

图 3 比较了 ARMOR 在两种情况下的训练性能：（a）无攻击条件（名义条件），我们将 ARMOR 与基线 RL 进行比较，以及（b）对抗性条件（物理攻击），我们将 ARMOR 与对抗训练的控制策略进行比较。我们将教师和学生编码器策略称为 RL 控制策略，这些策略分别使用教师和学生编码器的潜在表示形式。这些数字表示 5 个随机种子的平均性能。

如图 3（a）所示，在没有攻击的情况下，所有方法：baseline-RL、Teacher Encoder 策略和 Student Encoder 策略，都实现了相当的最终情节奖励，在 500k 个时间步长后收敛到大约 2200 个。最终性能的相似性表明，在 Teacher 和 Student 编码器中使用基于编码器的潜在表示不会妨碍策略在名义条件下学习最佳控制的能力。

图 3：训练性能比较。左：在标称条件下，所有方法均达到相似的最终性能。右：在对抗条件下，与 RARL 相比，Teacher 和 Student 编码器策略都显著加快了学习速度。Student Encoder 策略支持更快的收敛，即使没有访问特权信息也是如此。

图 3（b）显示了 ARMOR 在对抗条件下的优势。我们使用 RARL 训练控制策略[8]对抗稳健性的方法。这个策略收敛缓慢，需要近 1200k 个时间步长，时间是原来的两倍，才能达到 2100 的奖励。相比之下，教师编码器策略和学生编码器策略都表现出明显更快的收敛速度（2×更快）。使用特权信息训练的 Teacher Encoder 策略在不到 2100k 的时间步长内达到大约 600 的奖励。值得注意的是，Student Encoder 策略尽管无法访问特权信息，但也实现了类似的收敛。这些结果表明，ARMOR 的两阶段训练可以有效地将鲁棒性从攻击感知特权学习阶段转移到在线部署阶段。

V-BARMOR 在物理攻击下的有效性

此后，我们将在线推理期间部署的 Student Encoder 策略称为 ARMOR。图 4 显示了一个示例，展示了 ARMOR 在 GPS 欺骗攻击下的有效性。红线代表无人机的实际轨迹。使用基线 RL（顶行）时，由于位置估计不正确，无人机明显偏离预期路径（虚线），从而导致坠毁。相比之下，使用 ARMOR（底排），无人机保持稳定飞行，与预期路径的偏差最小，尽管受到攻击，但仍成功完成了任务。

在 GPS 欺骗攻击下控制性能。

Top row （顶行）显示基线 RL 的轨迹偏差。

底行显示了 ARMOR 的轨迹，展示了尽管受到攻击，但仍能进行弹性控制。

我们在表 III 所示的五种不同类型的物理攻击下评估了 ARMOR。ARMOR 对所有攻击类型都表现出强大的弹性，保持安全稳定的飞行。ARMOR 的平均成功率为 88%，发生 0 次崩溃。即使任务失败，ARMOR 也能防止崩溃并保持最小的状态漂移。

V-C与 Baseline-RL、HRP 和 RARL 的比较

首先，我们详细讨论了两种情况，比较了在两种具有不同偏差模式的不同攻击类型下的 ARMOR 与基线 RL 和 HRP：（1） GPS 欺骗，它在位置估计中引入了漂移偏差，以及（2）陀螺仪攻击，它在姿态估计中诱导了振荡偏差。然后，我们提出了一个更全面的比较。

GPS 攻击（左）和陀螺仪攻击（右）下的位置和姿态误差。

返回页首：Baseline-RL 表现出显著的位置和姿态误差

中间：HRP 部分减轻了错误，但难以保持稳定的飞行。

下图：ARMOR 保持了明显较低的位置和姿态误差。表 III：HRP、RARL 和 ARMOR 在 5 种无人机传感器的物理攻击下的性能比较

目标传感器	HRP			拉尔			装甲
目标传感器	成功	崩溃	状态漂移	成功	崩溃	状态漂移	成功	崩溃	状态漂移
全球定位系统	40%	50%	6.2±2.5 米	82%	0	0.1±0.03 米	87%	0	0.1±0.03 米
陀螺仪	32%	60%	18.5±3.1 度	78%	0	4±2 度	83%	0	2.3±1.6 度
加速度计	30%	50%	5.5±1.7 米/秒	80%	0	0.02±0 米/秒	83%	0	0.01±0 米/秒
磁力计	62%	15%	30±4.1 度	92%	0	8.1±2.3 度	94%	0	7.7±2 度
光流	46%	30%	7.1±3.6 米	83%	0	0.23±0.05 米	90%	0	0.1±0.05 米

图 5 显示了 UAV 在 GPS 欺骗攻击下的位置误差。基线 RL 在这次攻击下完全失败，任务成功率为 0%，崩溃率为 100%。轨迹偏差严重>0.9，导致失控。 HRP 部分减轻了位置误差，但难以保持稳定性，导致明显的状态漂移。相比之下，ARMOR 在所有轴上保持准确的位置跟踪（x,y,z），将状态漂移保持在 0.1 米左右。

图 5 还显示了陀螺仪攻击下的姿态误差。基线 RL 表现出较大的姿态误差±8 度，导致任务成功率 0%，坠毁率 100%，状态漂移约为 0.8。 HRP 减少了姿态误差，但无法完全抑制攻击的效果，导致崩溃率为 60%，状态漂移为 18.5。相比之下，ARMOR 在整个攻击过程中保持稳定的姿态控制，将误差控制在内±1 度，导致状态漂移小于 3 度。这些结果表明 ARMOR 在抑制不同类型的传感器偏差方面具有鲁棒性。

表 III 将 ARMOR 的性能与两种先前的技术进行了比较：HRP[38]和 RARL[8]，在针对 5 个不同传感器的物理攻击下。与 HRP 相比，ARMOR 在针对所有传感器类型的攻击中始终实现更高的成功率和更低的状态漂移，同时还可以防止崩溃，在所有指标上都明显优于 HRP。另一方面，ARMOR 的有效性与 RARL 相当。平均而言，ARMOR 实现了 88% 的任务成功率，而 RARL 为 83%，并且在所有攻击类型中都表现出较低的状态漂移。因此，ARMOR 在物理攻击下的表现优于 HRP 和 RARL。

V-D 型零喷射性能

接下来，我们评估 ARMOR 对训练期间未遇到的攻击的有效性。表 IV 和表 V 比较了 ARMOR 和 RARL 的零射击性能，RARL 是当前对抗性训练稳健策略的最新方法。尽管有各种对抗式训练方法，它们在概念上类似于 RARL，依赖于针对改变观察结果的对手的迭代策略更新。因此，我们使用 RARL 作为我们评估的代表性基线。具体来说，我们评估了专门针对单一攻击类型（GPS 或陀螺仪）训练的控制策略，并针对针对不同传感器的看不见的攻击进行了测试。

表 IV：RARL 和 ARMOR 在仅针对 GPS作进行训练并在看不见的攻击（陀螺仪和陀螺仪 + 加速度计）上进行测试时，其零射击性能。

指标		陀螺仪	陀螺仪 + 加速度计
拉尔	成功	0%	0%
	崩溃	60%	75%
	状态漂移	15±5.1 度	12.3±2.6 度，8 度±2.1 米/秒
装甲	成功	60%	50%
	崩溃	0%	10%
	状态漂移	3.5±1.8 度	2.8±1.6 度、1.1 度±0.4 米/秒

表 V：当仅对陀螺仪作进行训练并在看不见的攻击（GPS 和 GPS+加速度计）上进行测试时，RARL 和 ARMOR 的零射击性能。

指标		全球定位系统	GPS+加速度计
拉尔	成功	5%	5%
	崩溃	70%	80%
	状态漂移	6.5±2.2 米	11.5±2.1 米、10.2 米±2.7 米/秒
装甲	成功	70%	55%
	崩溃	5%	8%
	状态漂移	0.6±0.2 米	0.8±0.3 米、2.1±1.3 米/秒

案例 1：在 GPS作（在位置估计中引入漂移偏差）训练的策略在诱发高频振荡偏差的看不见的陀螺仪攻击和多传感器（陀螺仪 + 加速度计）攻击上进行评估。 RARL 在陀螺仪攻击下成功率为 0%，崩溃率为 60%。对于多传感器攻击，RARL 的性能进一步恶化，崩溃率高达 75%，状态漂移明显。相比之下，ARMOR 在陀螺仪攻击下达到 60% 的成功率，在多传感器攻击下达到 50%，同时将崩溃率保持在 10% 以下，并将状态漂移减少4×与 RARL 相比。

案例 2：在陀螺仪作（引入高频振荡偏差）上训练的策略在导致慢速漂移偏差的看不见的 GPS 攻击以及多传感器（GPS + 加速度计）攻击上进行评估。 RARL 的泛化性很差，仅获得 5% 的成功率，并表现出高崩溃率（70-80%）和显着的状态漂移。相比之下，ARMOR 表现出很强的零射击泛化能力，在 GPS 攻击下达到 70% 的成功率，在多传感器攻击下达到 55%，同时保持较低的崩溃率，并将状态漂移降低 10 倍以上×.

这些结果突出了 ARMOR 能够推广到针对单个和多个传感器的看不见的攻击。

六讨论

与对抗性训练相比，ARMOR 提供了两个主要优势：（1）训练效率，以及（2）零射击效果。

对抗性训练方法通过共同训练对抗性策略来生成对抗性扰动，从而涉及迭代策略更新。这会导致高计算成本并延长训练时间。相比之下，ARMOR 的两阶段训练框架消除了对显式拮抗剂的需求。相反，它在训练期间利用攻击感知的潜在状态表示，并将知识传递给学生编码器进行部署。如图 3（b）所示，ARMOR 实现了与 RARL 相当的有效性，同时需要的训练时间步长明显减少。

此外，ARMOR 展示了强大的零样本泛化能力，使控制策略能够处理看不见的攻击类型，包括单传感器和多传感器攻击。ARMOR 在零射击评估中明显优于 RARL，实现了更高的成功率，显著降低了崩溃率，并减少了状态漂移。最后，虽然 ARMOR 对单个看不见的攻击类型表现出有希望的零射击鲁棒性，但由于扰动的复合效应，对多传感器攻击的泛化受到限制。这是未来工作的途径。

七结论

我们介绍了 ARMOR，这是一个用于攻击弹性无人机控制的两阶段学习框架。ARMOR 在训练期间利用攻击感知特权信息来学习强大的潜在状态表示，并使用迁移学习来调整这些表示以适应在线部署。这种方法消除了对迭代对抗性训练的需求，从而产生了更高效和可扩展的框架。我们的结果表明，ARMOR 保持了安全稳定的飞行，性能优于现有技术。此外，ARMOR 表现出有前途的零射击泛化，能够抵御以前看不见的攻击。未来的工作将探索将 ARMOR 扩展到在不同物理动力学和传感模式下运行的广泛机器人系统。我们还将整合理论上的安全保证和对抗条件下的约束满足。

ARMOR：基于稳健强化学习的无人机物理攻击控制