RobotxR1:通过闭环强化学习在大语言模型上实现具身机器人智能

发布于:2025-05-14 ⋅ 阅读:(15) ⋅ 点赞:(0)

25年5月来自瑞士 ETH 的论文“RobotxR1: Enabling Embodied Robotic Intelligence on Large Language Models through Closed-Loop Reinforcement Learning”。

未来在现实环境中运行的机器人系统将需要机载具身智能,而无需持续的云连接,从而在功能与计算能力和内存限制之间取得平衡。这项工作提出 R1-zero 方法的扩展,该方法支持在机器人领域使用低参数计数大语言模型 (LLM)。R1-Zero 方法最初是为了使用静态数据集在 LLM 中进行数学推理而开发的。通过集成闭环强化学习 (RL) 框架将其扩展到机器人领域。此扩展增强具身人工智能 (Embodied AI) 设置中的推理能力,而无需单纯依赖通过监督微调 (SFT) 对大模型进行蒸馏。小规模 LLM 可以通过与环境的闭环交互进行学习来实现有效的推理性能,这使得以前需要更大模型的任务成为可能。

在自动驾驶环境中,Qwen2.5-1.5B 模型的性能比基于 SFT 的基线模型提升 20.2%。使用建议的训练程序,Qwen2.5-3B 的控制适应性得分达到 63.3%,超过规模更大、基于云端的 GPT-4o 58.5%。这些结果凸显小型 LLM 的实际车载部署不仅可行,而且如果通过环境反馈进行训练,其性能甚至可能超越大模型,这凸显交互式学习框架对于机器人 Embodied AI 的重要性——该框架基于实践经验而非静态监督。

自动驾驶 R1-zero Embodied AI 智体如图所示:请添加图片描述

机器人领域通过数据驱动的机器学习 (ML) 方法取得了重大进展,其中流行的策略是构建大规模数据集 [1, 2, 3, 4, 5],以监督的方式训练日益庞大和复杂的神经网络 (NN) [6, 7, 8, 9, 10, 11]。其基本假设是,更大的数据集提供更大的任务和环境多样性,从而降低机器人在部署时遇到不熟悉场景的可能性 [7, 11]。然而,现实世界的环境本质上是不可预测的,并且包含许多边缘情况,这些情况在任何数据集中都无法完全捕获 [12, 13]。人类依靠先验知识和上下文推理来识别异常情况并相应地调整其行为 [14, 15, 16]。迄今为止,大语言模型 (LLM) 代表对基于人工智能知识系统最接近的近似,这使得将其集成到机器人系统中成为具身人工智能 (Embodied AI) 的一个有希望的方向 [14, 16, 17]。

最近发表的论文 [18] Guo 提出 DeepSeek R1-Zero 方法,标志着 LLM 推理能力的重大进步 [18, 19]。该方法将强化学习 (RL) 与应用于 AIME 2024、MATH-500 或 GS​​M8K [20] 等数学数据集的 LLM 相结合,并引发关于此类模型在多大程度上能够解决数学博士水平问题的讨论 [21, 22]。然而,这需要在 RL 循环中训练一个庞大的 LLM——这种方法会产生极高的计算成本 [18, 23, 24]。本研究聚焦于自动驾驶系统 (ADS),将其作为具身机器人智能的一个具身且高风险的例子。部署如此大型的模型会对其造成重大限制,因为它会阻碍不依赖云基础设施进行边缘部署。尤其对于 ADS 和其他机器人领域而言,无处不在的云连接并不可行,并且会带来严重的安全漏洞 [25, 26, 27]。

一种潜在的解决方案是通过监督微调 (SFT) 将大型 LLM 的推理能力蒸馏为更小、更高效的模型,这种方法在 R1-Zero 框架 [18] 中也得到有效的验证。蒸馏后的模型或许会继承部分推理能力,但与人类推理(与感知反馈、态势觉察和物理环境紧密耦合)不同,这些模型以抽象的方式运行,缺乏支撑鲁棒机器人智能的闭环感知-行动具身 [28]。此外,R1-Zero 框架运行于静态、离线数学数据集,而机器人领域的强化学习通常涉及与动态环境的交互 [28, 29, 30]。成功解决抽象的数学问题并不一定意味着具备机器人操作所需的具身、上下文相关的推理能力。因此,机器人所需的推理类型与博士级数学基准测试所评估的推理类型有着根本的不同。同样,ADS 应该依赖于经过训练以模拟数学问题求解的模型,还是应该依赖于通过与环境直接交互而获得推理能力的系统。

这项工作利用 [31] 中引入的公开框架,以便与纯 SFT 训练的 LLM 进行比较,同时显著扩展 [31] 的 DecisionxLLM 和 MPCxLLM 架构,以支持动态环境中的机器人推理。现有的检索增强生成 (RAG) 结构(包括使用五个检索记忆,如基线 [31] 中所述)和提出的基于低秩自适应 (LoRA) 的 SFT 方法都被利用。这项工作受 [31] 中报告的性能启发,Qwen 模型系列 [38](参数范围从 1.5 到 7B)被用作主要的 LLM 架构。R1-zero 框架集成到此设置中,从而产生 RobotxR1,它包含 DecisionxR1 和 MPCxR1 模块,从而能够在遵循序贯决策和控制自适应的整体流水线中实现底层 LLM 完整基于 RL 的具身。

机器人自主栈和模型预测控制

所用的机器人自主栈遵循 1:10 比例的赛车 [39],其中赛道对应于为封闭赛道计算的最小曲率轨迹。然后,利用 [31] 中定义的曲线坐标系中运动学模型预测控制 (MPC) 跟踪该赛道。机器人状态定义为 x = [s n ∆φ δ v]^T,其中 s 和 n 分别表示到赛道的纵向和横向距离;∆φ 表示相对于赛道的航向误差;δ 表示转向角;v 表示纵向速度。

默认的 MPC 参数已根据经验获得并优化,以有效跟踪赛车路线。
成本函数权重以在线可调参数的形式公开,从而能够实时调整驾驶行为。此外,诸如边界膨胀因子 ε 和速度界限之类的约束可以通过 LLM 进行修改,从而允许机器人的驾驶策略根据自然语言指令进行动态调整。

DecisionxR1 — 增强推理

如图所示,DecisionxR1 模块的目标是教会 LLM 推理自动驾驶赛车的当前驾驶行为。更具体地说,LLM 应该根据给定的机器人状态历史来判断汽车是否遵循人类提示的驾驶行为。鉴于近期其他研究 [36, 37, 40, 41] 在训练 LLM 进行具身推理方面取得的成功,采用 [18] 中引入的两阶段 R1-zero 训练程序,使用 GRPO 对 DecisionxR1 模块进行微调。在第一阶段,模型按照 [31] 的方法进行 SFT,将具身推理知识提炼到预训练的 Qwen 1.5B 和 3B 模型中。在第二阶段,使用 GRPO 进一步优化模型,并以静态决策数据集和旨在强化决策准确性和输出结构的奖励函数为指导。

请添加图片描述

决策数据集:与 [18, 36] 类似,构建一个静态数据集,其中每个实例都被表述为一个二分类任务。该数据集是通过在模拟中以八种不同的驾驶风格(例如,中心线跟踪、倒车、赛道跟踪等)驾驶机器人并记录机器人状态信息 x获得的。二元行为遵循标签是通过编程计算的。编程标记是通过在 B 中定义一组规则来完成的,这些规则评估机器人动作与目标驾驶风格的匹配程度。例如,对于倒车,如果纵向速度 v 为负,则标签设置为 1(遵循),否则设置为 0(不遵循)。

决策的奖励模型:采用两种奖励,粗略地将其定义为准确性奖励和格式化奖励。正确性奖励激励精准决策,而格式化奖励则具有双重目的:鼓励模型清晰地表达其推理,并确保输出保持结构化且易于解析。

MPCxR1 - 增强控制适应性

与 DecisionxR1 模块不同,机器人系统中的控制适应性不能仅仅依赖于静态数据集。与许多机器人应用一样,有效的行为是通过与环境的交互产生的,而不是仅仅通过 SFT 学习的参数。打个比方,这种区别反映通过阅读手册学习驾驶 (SFT) 和通过实际驾驶课程学习驾驶 (GRPO) 之间的区别。在这种情况下,MPCxR1 模块将 LLM 与 MPC 置于一个闭环中,使其能够基于交互影响控制行为,从而促进具身学习和通过经验进行控制适应。

闭环强化学习环境:如图所示,标准 R1-zero 训练流程经过修改,融入来自驾驶模拟的闭环反馈。训练涵盖一系列驾驶行为 B,每个提示都指定一个不同的行为目标。例如,指示 MPCxR1 模块“尽可能以 1.83 米/秒的速度行驶”,如气泡 1 所示。作为响应,LLM 会生成旨在实现所需行为的 MPC 参数。在训练期间,这些 MPC 参数会在闭环模拟中进行测试,以便计算行为适应奖励。此外,为了增强和强调 GRPO 训练的 LLM 的泛化能力,强化学习训练在简单的圆形地图上进行,同时在复杂的赛道上进行评估。

请添加图片描述

控制适应性的奖励建模:为了训练 MPCxR1 模块,使用三种不同的奖励,即驾驶、格式化和参数提取奖励,它们将计入总奖励如下:

请添加图片描述
R_drive 的目标是奖励 LLM 生成能够实现人类提示所要求的正确驾驶行为 MPC 参数。在每个训练步骤中,这些参数都会应用于 MPC,车辆会在模拟中完成一圈。随后,可以使用针对默认 MPC 和 LLM 调整后的 MPC 计算的行为特定 RMSE 指标来评估性能。分别用 E_BMPC ∈ [0, ∞) 和 E_BLLM ∈ [0, ∞) 表示这些误差。

然后,驾驶奖励 R_drive ∈ [1, −4] 被计算为 LLM 相对于默认 MPC 参数所取得的相对改进。每个行为提示都有相应的 RMSE 公式,从而实现跨任务的一致奖励计算。R_fmt 是一个格式化奖励,鼓励模型构建其响应并对其答案进行推理。最后,R_param 是一个参数提取奖励,它应该阻止 LLM 产生虚假或无效的 MPC 参数,从而导致提取失败。该复合奖励引导 LLM 通过 GRPO 生成可解释、有效且与行为一致的控制自适应。

GRPO 训练流程改编自基于 LoRA 的 unsloth 实现 [23],并在消费级 GPU(RTX 4070 Ti、RTX 3090)上运行。虽然基于 LoRA 的 GRPO 与原始 DeepSeek R1 实现相比显著降低对 VRAM 的要求,但其计算量仍然远高于标准 LoRA SFT 训练。因此,任何大于 Qwen2.5-3B 的模型都无法使用 GRPO 进行训练,这需要大约 11 GB 的 VRAM。[31] 基线中使用的 Qwen2.5-7B 模型仅限于 SFT 训练,而 1.5B 和 3B 模型也都按照 [31] 中的步骤进行了 SFT 训练,以便进行比较。GRPO 训练了 750 步,3B 模型的训练时间约为 24 小时。

在本实验中,所提出的系统部署在一辆 1:10 比例的开源自动驾驶赛车 [39] 上,该赛车在 Jetson Oring AGX OBC 上运行一个 Q5_k_m 量化 Qwen2.5-3B 模型,该模型通过 llama.cpp [43] 推断。部署的嵌入式模型实现了 ∼38.78 tokens/s 的平均吞吐量和 ∼8.3 s 的平均延迟。机器人最初处于扰动状态,其中操作员手动更改 MPC 参数以引发不稳定振荡​​。然后,MPCxR1 模块收到指令:“以 2 m/s 的速度平稳行驶”。如图所示,机器人的行为能够同时适应两个目标,展现出其处理复合指令的能力,并充分利用 LLM 的开放词汇技能。第二个指令“倒车”和最后一个指令“恢复正常行驶”均成功执行(图中未显示)。

请添加图片描述


网站公告

今日签到

点亮在社区的每一天
去签到