这个是一份2025年7月的文献综述,我认为可以启发目前领域的研究:
https://arxiv.org/pdf/2507.10087https://arxiv.org/pdf/2507.10087
一、基础模型重构具身智能的能力边界
基础模型(尤其是 LLMs 和 VLMs)为具身系统带来了跨模态泛化与语义理解的革命性提升。
- 感知层面,VLMs 通过图像 - 文本嵌入空间的对齐(如 CLIP 的 4 亿对数据训练),突破了传统机器人视觉的封闭类别限制,实现 “零样本” 识别任意物体(如通过文本指令 “找铲子” 直接匹配视觉输入)。BLIP-2 等模型进一步结合冻结视觉编码器与 LLM,以低训练成本实现实时场景理解与视觉问答,为机器人提供了与物理世界交互的 “语义接口”。
- 规划层面,LLMs 的高层推理能力(如 GPT-4 的任务分解)支持具身系统将抽象目标(如 “清理洒出的饮料”)转化为可执行的子任务序列,且通过 “内省推理”(inner monologue)实现闭环反馈,动态修正计划。SayCan 等框架更将 LLM 的语义推理与机器人的物理可行性评估结合,解决了 “语言指令与物理能力脱节” 的核心问题。
- 控制层面,通用策略模型(如 RT-2、GR00T)通过融合视觉 - 语言 - 动作表征,使单一模型能跨任务、跨机器人形态(如人形、机械臂)生成控制指令,甚至通过代码生成(如 “Code as Policies” 框架)动态合成运动逻辑,突破了传统端到端控制器的任务特异性限制。
二、仿真与现实的协同:数据与泛化的突破口
具身智能的核心瓶颈之一是真实世界数据稀缺与场景多样性不足,而基础模型驱动的仿真 - 现实闭环提供了高效解决方案。
- 程序性仿真生成:LLMs 可将自然语言描述(如 “带货架的仓库”)转化为结构化场景图,自动生成包含物理约束的仿真环境(结合 Unity、Gazebo 等引擎),快速扩充训练数据。但需解决场景合理性(如物体碰撞、物理一致性)问题,避免 “幻觉环境” 误导模型。
- 代码驱动仿真设计:基础模型能将任务需求直接转化为可执行脚本(如 Python、ROS URDF),定义环境参数、 reward 函数和控制逻辑,简化复杂机器人系统的部署流程。例如,GPT-4 可生成 Omniverse 脚本实现随机场景创建,但需警惕模糊指令导致的不安全代码。
- 跨模态仿真任务:多机器人协同场景中,LLMs 分解任务并分配给无人机、移动机械臂等异质 agent,VLMs 则通过实时视觉反馈优化调度,验证了 “仿真中预演 - 现实中部署” 的可行性,但需解决多 agent 动态依赖与资源冲突问题。
三、开放世界具身智能的核心挑战与应对思路
在非结构化环境中,具身系统需应对动态性、不确定性与多模态融合难题,论文指出以下关键方向:
- 多模态推理与任务分解:需结合视觉、触觉、语言等多源信息(如 UniTouch 将触觉数据与视觉 - 语言嵌入对齐),通过层级化任务分解(如先解析场景语义,再生成动作链)确保子目标的物理可行性。例如,四足机器人通过 “语言子目标 + 地形仿真验证” 适应复杂地形。
- 通用策略与跨形态控制:通用策略模型(如 VLA 架构)需通过异质数据(真实演示、仿真数据、人类运动视频)训练,支持从 “视觉 - 语言输入” 直接生成电机指令。但需平衡训练成本与安全性,例如通过扩散模型生成平滑轨迹,避免剧烈动作导致的失稳。
- sim-to-real 迁移的语义锚点:缩小仿真与现实差距的核心是语义对齐—— 利用语言引导模型关注任务相关特征(如忽略纹理差异,聚焦物体几何与空间关系),或通过生成式模型(如扩散模型)合成真实感数据,减少域偏移影响。例如,ADEPT 动态生成复杂地形仿真数据,提升现实导航鲁棒性。
四、自适应与韧性系统的构建路径
具身智能需具备应对故障、环境变化的自适应能力,论文提出模块化与反馈机制的关键作用:
- LLM 引导的控制器修复:通过 CoT 推理实时调整控制参数(如 Lyapunov-LLM 控制器适应机械臂动态变化),但需解决计算延迟问题,可通过轻量化模型或物理约束提示优化。
- 闭环规划与记忆增强:结合 “内省推理”(实时反馈修正计划)与检索增强(RAG)记忆(如存储历史失败案例),提升长程任务的韧性。例如,RePLan 框架通过视觉 - 语言模型实时重规划,解决执行偏差。
- 模块化架构:拆分感知、规划、控制为独立模块(如 HiP 框架用不同基础模型处理语言推理、物理预测与动作生成),提升可解释性与可维护性,但需优化模块接口,避免 “短板效应”。
五、未来研究的优先级
论文明确了具身智能领域的核心待解问题:
- 实时性与轻量化:通过模型压缩、蒸馏适配机器人的计算与 latency 约束;
- 物理接地数据:构建机器人专属多模态数据集(含触觉、 proprioception 等),弥补互联网数据的 “具身缺口”;
- 多模态整合:设计能统一视觉、触觉、音频的表征方法,突破当前 “视觉 - 语言为主” 的局限;
- 安全与可解释性:开发 runtime 安全过滤器与透明决策路径(如代码生成策略),解决幻觉与黑箱问题;
- 泛化性提升:通过持续学习、跨形态迁移,增强系统对未知任务与环境的适应力。
综上,这篇论文为具身智能研究者提供了 “基础模型驱动的系统级整合” 思路 —— 从感知到控制的全链路语义接地、仿真与现实的协同优化、自适应架构的模块化设计,是实现通用具身智能的核心路径。
-----------
参考文献:
一、实时性与轻量化模型适配
[60] Sikorski, P. et al. (2025)
- 研究方向:边缘设备部署大语言模型控制移动机器人,探索轻量化模型在资源受限场景下的实时性优化。
- 推荐价值:解决基础模型计算开销大、推理延迟高的问题,为机器人端侧部署提供实践方案。
[171] Sun, S. et al. (2024)
- 研究方向:利用大语言模型优化人形机器人运动控制,通过物理约束提示(如嵌入物理定律)降低推理延迟。
- 推荐价值:结合领域知识轻量化模型,平衡实时性与控制精度。
二、物理接地与机器人专属数据
[101] Yang, F. et al. (2024)
- 研究方向:提出 UniTouch 框架,将触觉传感器数据与预训练视觉 - 语言表征对齐,构建多模态物理接地空间。
- 推荐价值:填补触觉等机器人专属模态与语义知识的鸿沟,为物理交互提供数据基础。
[122] Hu, Y. et al. (2023)
- 研究方向:综述通用机器人基础模型的数据需求,强调机器人专属数据集(如操作、感知长尾案例)的重要性。
- 推荐价值:指出互联网数据的局限性,为构建物理接地数据集提供理论框架。
三、多模态整合(视觉、触觉、音频等)
[102] Yu, S. et al. (2024)
- 研究方向:提出 Octopi 触觉 - 语言模型,结合 LLM 与触觉传感器推断物体属性(如柔软度与成熟度的关联)。
- 推荐价值:展示多模态融合在物理推理中的应用,突破视觉 - 语言主导的局限。
[123] Jones, J. et al. (2025)
- 研究方向:通过语言接地微调通用机器人策略,整合异质传感器(如触觉、 proprioception)数据。
- 推荐价值:探索多模态传感器的统一表征方法,提升开放世界场景理解能力。
四、安全与可解释性
[115] Wu, X. et al. (2024)
- 研究方向:分析 LLM/VLM 在机器人中的安全隐患,提出 runtime 安全过滤器与不确定性监控机制。
- 推荐价值:系统性梳理安全风险,为构建可靠具身系统提供防护框架。
[12] Liang, J. et al. (2023)
- 研究方向:提出 “Code as Policies” 框架,让 LLM 生成可解释的控制代码(如 Python 脚本),替代黑箱端到端模型。
- 推荐价值:通过代码可追溯性提升决策透明度,兼顾安全性与灵活性。
五、泛化性与跨场景迁移
[108] Brohan, A. et al. (2023)
- 研究方向:RT-2 模型通过微调预训练视觉 - 语言模型,将互联网知识迁移到机器人控制,实现跨任务泛化。
- 推荐价值:验证 “web-scale 知识→机器人技能” 的迁移路径,为通用策略模型提供范式。
[157] Yu, Y. et al. (2025)
- 研究方向:ADEPT 框架通过扩散模型动态生成复杂地形仿真数据,提升现实环境导航的泛化性。
- 推荐价值:解决 sim-to-real 迁移中的域偏移问题,增强对未知场景的适应力。
六、自适应与韧性系统
[167] Zahedifar, R. et al. (2025)
- 研究方向:Lyapunov-LLM 混合控制器,通过 CoT 推理实时调整参数,适应机械臂动态变化。
- 推荐价值:展示 LLM 在控制器自适应中的作用,为故障修复提供新思路。
[172] Skreta, M. et al. (2024)
- 研究方向:RePLan 框架结合视觉 - 语言模型实现实时重规划,解决长程任务中的执行偏差。
- 推荐价值:通过闭环反馈提升系统韧性,适用于动态开放环境。
总结
这些文献覆盖了基础模型在具身智能中的核心挑战(实时性、物理接地、安全性等),并提供了可落地的技术路径。研究者可优先关注RT-2、Code as Policies、UniTouch、ADEPT等框架的延伸工作,以及模块化架构(如 [174] HiP 框架)和多模态数据整合的最新进展。