具身导航助力果园种植!基于模仿学习的果园环境无人机视觉导航

发布于:2025-08-29 ⋅ 阅读:(16) ⋅ 点赞:(0)

  • 作者:Peng Wei1^{1}1, Prabhash Ragbir2^{2}2, Stavros G. Vougioukas1^{1}1, Zhaodan Kong2^{2}2
  • 单位:1^{1}1加利福尼亚大学戴维斯分校生物与农业工程系,1^{1}1加利福尼亚大学戴维斯分校机械与航空航天工程系
  • 论文标题:Vision-based Navigation of Unmanned Aerial Vehicles in Orchards: An Imitation Learning Approach
  • 论文链接:https://arxiv.org/abs/2508.02617v1
  • 数据集:https://drive.google.com/drive/folders/1tZiZu2b680ZqZX4IVkYo1QmVzZMHSpVP

主要贡献

  • 提出了基于视觉输入的无人机自主导航方法:利用变分自编码器(VAE)与模仿学习构建控制器,实现无人机在果园行间无需 GPS 即可自主飞行。
  • 设计了基于干预的模仿学习框架:通过人类飞行员在危险情境下的实时干预,逐步优化无人机的控制策略,仅需少量迭代即可实现稳定的自主导航。
  • 在真实果园环境中实现了验证:首次在真实果园中部署并验证了该策略的有效性,证明其在不同树种、季节和速度下具有良好的泛化能力,显著减少人工干预并优于现有基线算法。

研究背景

  • 无人机在农业场景中的应用日益广泛,包括作物监测、产量估算、病虫害检测和精准施药等。
  • 在果园环境中,GPS信号受树冠遮挡严重,且存在大量不规则障碍(枝条、叶片),使得传统依赖 GPS 和激光雷达的导航方式效果不佳。
  • 现有基于模块化(感知-规划-控制)的导航方法计算开销大且不够鲁棒。相比之下,人类驾驶员仅依靠视觉即可完成飞行,启发了研究者发展端到端的视觉-运动策略(visuomotor policy)
  • 强化学习虽然在无人驾驶、机器人等领域展现潜力,但在安全关键系统中存在样本效率低、试错风险高等问题;因此,模仿学习(IL)成为更合适的替代方案。

方法

UAV 平台

开发了一套定制化四旋翼无人机平台,其主要特征如下:

  • 机体结构:450 mm 轴距,最大起飞重量 1.8 kg,续航约 13 分钟。

  • 感知模块

    • Intel RealSense D435i RGB 相机(前向安装,视场角 70°);
    • Intel RealSense T265 相机用于视觉里程计(VIO);
    • SF11/C 激光测高仪用于高程测量。
  • 控制与计算

    • 飞控:PixRacer R15,运行 PX4 自动驾驶栈,负责低层级控制;
    • 计算核心:Nvidia Jetson Xavier NX,负责状态估计、深度学习推理和高层规划;
    • 外部SSD 用于数据存储;
    • 无线电模块用于遥测与人工干预。

该平台兼顾了轻量化、续航时间与实时计算能力,适合果园复杂环境中的自主飞行。

干预式模仿学习框架

为解决传统行为克隆在分布外状态下易失效的问题,本文采用基于干预的 DAgger方法

  • 基本思想:学习策略 πθ 通过最小化与专家策略 πE 的差异来优化:

πθ∗=arg⁡min⁡θD(πθ,πE) \pi^*_\theta = \arg\min_\theta D(\pi_\theta, \pi_E) πθ=argθminD(πθ,πE)

  • 算法流程

    • 初始阶段收集专家完整示范作为训练数据集;
    • 策略 πθ\pi_\thetaπθ 在真实飞行中执行,若即将进入危险状态,人类飞行员立即接管;
    • 系统仅记录干预片段,加入数据集并重新训练策略;
    • 多轮迭代后,策略在减少人工干预的同时逐步趋于稳定。

基于 VAE 的控制器

无人机的导航策略由变分自编码器(VAE)与策略网络组成,统称为 VAE-based Controller

变分自编码器 (VAE)
  • 功能:将高维图像压缩至低维潜在空间,提取关键信息以增强泛化能力。

  • 结构

    • 编码器:五层卷积 + LeakyReLU,输入尺寸 128×128×3,输出潜在向量维度 256;
    • 解码器:五层反卷积 + ReLU,将潜在向量重建为图像。
  • 损失函数
    LVAE(ϕ,ψ)=∥x−pϕ(x^∣z)∥2−β⋅DKL(qψ(z∣x),p(z)) L_{VAE}(\phi,\psi) = \|x - p_\phi(\hat{x}|z)\|^2 - \beta \cdot D_{KL}(q_\psi(z|x), p(z)) LVAE(ϕ,ψ)=xpϕ(x^z)2βDKL(qψ(zx),p(z))
    其中 β\betaβ = 3,用于平衡重建误差与 KL 散度。部署时,仅使用编码器生成潜在向量。

策略网络
  • 结构:两层 MLP(每层256单元,ReLU激活),输出为偏航速率(范围 [−1,1])。
  • 输入:VAE潜在向量 + 无人机状态(姿态、速度)。
  • 训练目标:最小化专家动作与策略输出的均方误差:
    Lpolicy(θ)=∥πθ(a∣s)−πE(a∣s)∥2,s∈D L_{policy}(\theta) = \|\pi_\theta(a|s) - \pi_E(a|s)\|^2, \quad s \in D Lpolicy(θ)=πθ(as)πE(as)2,sD

系统架构

整套系统采用分层控制架构:

  • 状态估计

    • T265 相机提供 VIO;
    • 激光测高仪提供高度;
    • IMU数据与传感器信息融合至 EKF,输出无人机完整状态。
  • 高层控制

    • 规划器根据 EKF 状态维持恒定高度与前向速度;
    • VAE 控制器实时生成偏航速率命令(30 Hz)。
  • 低层控制

    • PX4 自动驾驶栈执行级联 PID 控制,输出电机转速。
  • 人机交互

    • 人类飞行员可遥控无人机以采集示范,或在危险状态下干预接管。

数据采集与训练

  • 数据环境:加州 UC Davis 混合果园(杏仁、核桃、李子、桃树、开心果),行距 6.1 m,树距 4.6 m,行长约 73 m。
  • 图像数据集:110,551 张 RGB 图像,涵盖不同季节、天气、时间。
  • 专家示范:约 31,887 条(35 分钟飞行数据),主要为偏航修正。
  • 训练策略
    • 先训练 VAE 提取视觉特征;
    • 冻结 VAE 编码器,利用专家示范训练策略网络;
    • 采用 ADAM 优化器;
    • 每次迭代收集干预数据(首轮 23,557,后续逐渐减少)。

实验结果

定性结果

训练环境验证

  • 无人机在 UC Davis 的混合果园六条训练行中进行飞行实验。
  • 第一次迭代训练后:无人机能够学习基本的飞行和避障行为,但在复杂场景下仍需人工干预。
  • 三次迭代训练后:无人机实现了完全自主飞行,能够连续通过果树行间,无需人工接管。
未见环境泛化测试

  • 同一果园中新行:在未用于训练的果树行(冬季),无人机成功完成飞行任务,显示出良好的泛化能力。

  • 新果园环境:在核桃园与杏仁园(春季,枝叶更密集)进行测试:
    • 在核桃园(行距较宽)中,无人机能自主完成整个行的飞行。
    • 在杏仁园(行距更窄、枝叶更密)中,尽管在大部分区域表现良好,但在局部复杂场景中仍需人工干预。

定量结果

与基线方法对比

本文与两种基线控制器进行了对比实验:

  • Baseline1:基于人工特征与线性回归(Ross et al., 2013)。

  • Baseline2:基于紧凑 CNN 的端到端控制(Loquercio et al., 2018)。

  • 指标一:人工干预率

    • 三种方法均随迭代次数增加而减少干预率。
    • VAE 控制器在三轮训练后干预率降至 低于 10%,显著优于基线方法。
    • t 检验结果显示,VAE 控制器与基线之间的差异在统计学上显著(表1)。

  • 指标二:飞行距离

    • 在训练行与未见行均测试 10 次,计算无人机在需要人工干预前的平均飞行距离。
    • VAE 控制器在两类环境中均表现最佳,飞行距离最长(图13)。
    • 在新果园(核桃与杏仁园)测试中,VAE 控制器依旧优于基线方法(图14)。

实时计算效率
  • 在 Jetson Xavier NX 上运行时,三种方法的平均单帧处理时间分别为:

    • Baseline1:34.1 ms(显著较慢);
    • Baseline2:2.43 ms;
    • VAE 控制器:2.85 ms。
  • 结果表明,所提方法能满足实时导航需求,同时相比基线1大幅节省计算资源。

不同速度下的鲁棒性

  • 训练阶段无人机速度为 0.6 m/s,测试时将速度提高至 0.8 m/s 和 1.0 m/s。
  • 所有控制器在速度升高时失败率增加,平均飞行距离下降。
  • VAE 控制器在高于训练速度的条件下仍保持较优性能,相比基线更稳定。

讨论

系统组件的重要性

  • 扩展卡尔曼滤波器(EKF):用于多源传感器融合(VIO、激光测高、IMU),确保无人机状态估计的稳定性,是实现鲁棒自主飞行的基础。
  • 高度与速度控制器:通过维持恒定飞行高度与前向速度,减少了因人类操作差异带来的数据分布不一致问题,使模仿学习更专注于偏航控制任务。
  • 与农业应用的契合:在精准农业中,无人机往往需要在固定高度和速度下进行监测,因此该设计不仅有利于学习过程稳定,也符合实际应用需求。

与基线方法的比较分析

  • 基线1(线性回归):过于保守,预测的控制命令集中在中间区间,缺乏产生大幅偏航的能力,容易在复杂环境中失效。
  • 基线2(CNN):虽然在训练集上拟合较好,但存在过拟合问题,在新环境下泛化性差。
  • VAE 控制器:在控制命令分布上兼顾了拟合度与方差,既能学习到人类专家的行为模式,又能保持适度探索能力,因此在不同环境下表现更优。

失败案例与局限性

尽管控制器整体表现良好,但在以下场景中仍存在不足:

  • 缺失树木的一侧:无人机因失去行间结构特征而产生航向模糊,需要人工干预重新校正。
  • 行尾区域:视觉特征稀疏,导致策略输出不稳定,需切换至人工控制完成转场。

这些问题表明,现有策略在环境不规则或特征稀缺时容易失效。未来可通过引入记忆机制(保持航向稳定)或结合 GPS 规划器(行尾过渡)进行改进。

人类干预与学习效率

  • 实验表明,人类干预在前三次迭代能有效提供高质量数据,显著提升策略性能。

  • 随着无人机策略趋于成熟,飞行员难以判断何时介入,往往在接近失效时才干预,导致数据一致性下降,甚至可能降低训练效果。

  • 因此,论文建议:

    • 限制迭代次数(本研究为三次),避免“噪声干预”影响模型;
    • 在未来工作中引入 计算机辅助模块,帮助人类更一致地判断干预时机。

可迁移性与平台依赖

  • 当前策略依赖于特定无人机的动力学特性(质量、惯量),无法直接“零样本”迁移至不同平台。
  • 一种潜在的解决方案是结合自适应低层控制器(如张等人提出的方法),使高层策略能在不同机体上无缝部署。

总结与未来工作

  • 总结
    • 本文提出了一种基于视觉输入的无人机自主导航策略,通过 VAE 提取视觉特征,并结合干预式模仿学习进行训练,在真实果园环境中实现了高效、可靠的自主飞行。
    • 实验验证了该方法在不同环境和速度下的鲁棒性与泛化能力,相较于现有方法具有更低的人工干预率和更长的自主飞行距离。
  • 未来工作
    • 引入恢复规划模块:使无人机在遇到危险状态时能够自主恢复,而非依赖人工干预。
    • 适配不同平台:考虑无人机动力学差异,实现控制器的跨平台可迁移性。
    • 增强鲁棒性:应对缺失树木、行尾稀疏特征等导致的失败情形。
    • 多机协同:将框架扩展至多无人机协作导航,可结合博弈论与多智能体强化学习实现集群协同。
    • 动态环境适应:探索在存在移动目标或外部干扰(如风)的环境下的性能表现。


网站公告

今日签到

点亮在社区的每一天
去签到