中山大学具身智能体高效探索与精准问答!Beyond the Destination:面向探索感知的具身问答新基准

发布于:2025-05-20 ⋅ 阅读:(18) ⋅ 点赞:(0)

  • 作者: Kaixuan Jiang 1 ^{1} 1, Yang Liu 1 ^{1} 1, Weixing Chen 1 ^{1} 1, Jingzhou Luo 1 ^{1} 1, Ziliang Chen 2 ^{2} 2, Ling Pan 3 ^{3} 3, Guanbin Li 1 , 2 ^{1,2} 1,2, Liang Lin 1 , 2 ^{1,2} 1,2,
  • 单位: 1 ^{1} 1中山大学, 2 ^{2} 2鹏城实验室, 3 ^{3} 3香港科技大学
  • 论文标题:Beyond the Destination: A Novel Benchmark for Exploration-Aware Embodied Question Answering
  • 论文链接:https://arxiv.org/pdf/2503.11117
  • 代码链接:https://github.com/HCPLab-SYSU/EXPRESS-Bench
  • 项目主页:https://hcplab-sysu.github.io/EXPRESS-Bench/

主要贡献

  • 提出了EXPRESS-Bench:一个高质量、大规模的具身问答(EQA)数据集,包含777条探索轨迹和2044个问题-轨迹对,专门用于评估智能体的探索和推理能力,解决了现有数据集在探索过程和答案质量评估方面的不足。
  • 提出了Fine-EQA框架:一个两阶段的探索框架,结合了基于前沿的探索和目标导向的探索,通过构建全局语义地图和功能区域语义地图,引导智能体更高效地探索整个场景,同时对任务相关区域进行细粒度的调查,为EQA任务设定了新的基准。
  • 引入了探索-答案一致性评估指标:该指标同时评估答案的依据(即探索过程与答案之间的对齐程度)和探索效率,通过检测未接地的响应(看似正确但缺乏支持性探索证据的答案),提供对模型性能更严格的评估。

研究背景

  • 具身问答(EQA)是计算机视觉、自然语言处理和具身智能交叉领域的一个关键挑战。在EQA任务中,智能体需要在三维环境中导航,通过探索积极收集视觉信息,并回答有关场景的问题。
  • 与依赖静态图像或预存知识库的传统问答系统不同,EQA要求智能体进行动态探索以获取信息,然后才能形成答案。
  • 然而,当前的EQA方法存在探索效率低下、数据集设计存在局限性(如引入偏差或先验知识,导致智能体不依赖真实探索进行推理)以及评估指标不完善等问题。
  • 此外,现有的探索策略在复杂环境中表现不佳,无法确保对任务相关区域进行细致的探索。

EXPRESS-Bench

模拟器

  • EXPRESS-Bench 使用 Habitat 模拟器HM3D 数据集 来构建虚拟环境。
  • HM3D 数据集包含 1000 个大规模建筑的 3D 重建,涵盖了多种真实世界场景。
  • 这些场景具有丰富的语义信息,能够为智能体提供逼真的导航和探索体验。

数据集生成流程

数据集的生成分为三个主要阶段:轨迹生成、问题-答案对生成和数据筛选。

轨迹生成
  • 随机采样初始和目标位置:在场景中随机选择可导航的初始位置和目标位置。
  • 计算最短路径:计算从初始位置到目标位置所需的最短原子动作序列(如“向前移动”、“向左转”等),并记录所需的步数。这些动作序列作为真实轨迹。
  • 记录测地线距离:计算初始位置和目标位置之间的最短测地线距离。
  • 约束条件:为了确保轨迹的合理性和可操作性,将初始位置和目标位置限制在同一楼层,并确保步长在 10 到 100 之间。
  • 记录智能体状态:在每次执行原子动作后,记录智能体的坐标、方向和第一人称视觉观察。
  • 生成轨迹视频:将收集到的视觉数据生成轨迹视频,从第一人称视角可视化智能体的完整探索过程。
问题-答案对生成
  • 输入目标位置的视觉观察:将智能体在目标位置的视觉观察输入到多模态大模型 GPT-4o-mini 中。
  • 生成问题和答案:模型根据输入的视觉观察和示例问题-答案对生成新的问题和对应的答案。生成的问题和答案旨在模拟日常家庭场景中的自然对话。
  • 开放式答案:生成的答案是开放式的,而不是简单的“是/否”或多项选择题,以减少数据偏差,防止模型仅依赖其固有的常识。
数据筛选
  • 人工筛选:由于大模型的输出可能不可靠,且环境中可能存在多个相同类型的房间或重复的物体,导致问题的答案不唯一,因此需要人工筛选生成的数据。
  • 确保答案相关性:通过观看轨迹视频和使用 Habitat 模拟器提供的每层楼的俯视图,跟踪智能体在场景中的位置和运动,确保问题的答案与场景相关,并且目标区域可以清晰地识别和到达。
  • 保留唯一答案的问题:只保留那些没有其他与目标区域相同类型的区域,或者目标区域是与初始位置最近的类似区域的问题,以确保答案的唯一性。必要时,还会指定问题的关键区域,以保证每个预期答案是唯一的。

数据集统计

  • 轨迹数量:EXPRESS-Bench 包含 777 条轨迹,共 2044 个问题-轨迹对
  • 问题类别:问题主要分为以下七类:状态(state)、知识(knowledge)、位置(location)、属性(attribute)、计数(counting)、存在(existence)和物体(object)。各类问题的数量分布如下:
    • 状态(state):382 个
    • 知识(knowledge):164 个
    • 位置(location):256 个
    • 属性(attribute):329 个
    • 计数(counting):227 个
    • 存在(existence):360 个
    • 物体(object):326 个
  • 平均步数和距离:平均每回答一个问题,智能体需要在场景中导航 39.8 步,覆盖 6.6 米 的测地线距离。

探索-答案一致性评估指标

为了更好地评估智能体的探索和推理能力,本文引入了探索-答案一致性(EAC)评估指标。该指标通过以下两个分数来衡量模型的性能:

  • 正确性评估分数
    σ i = ϕ ( Q i , A i ∗ , A i , I i ) \sigma_i = \phi(Q_i, A^*_i, A_i, I_i) σi=ϕ(Qi,Ai,Ai,Ii)
    其中:

    • Q i Q_i Qi 是给定的问题。
    • A i ∗ A^*_i Ai 是正确答案。
    • A i A_i Ai 是模型的回答。
    • I i I_i Ii 是智能体最终第一人称观察到的环境图像。
    • VLM 根据问题、正确答案和图像对模型的回答进行评分,分数范围为 1 到 5,分数越高表示模型的回答越准确,越接近正确答案。
  • 依据评估分数
    δ i = ψ ( Q i , A i , I i ) \delta_i = \psi(Q_i, A_i, I_i) δi=ψ(Qi,Ai,Ii)
    其中:

    • VLM 根据问题和图像对模型的回答进行评估,分数为 0、0.5 或 1。
    • 分数为 1 表示智能体的观察与问题相关,模型对环境的描述准确,与智能体的感知一致。
    • 分数为 0.5 表示观察相关但模型描述不准确。
    • 分数为 0 表示观察不相关,模型生成的输出与环境无关,即使与正确答案相符。

最终,答案的得分计算为:
σ i × δ i \sigma_i \times \delta_i σi×δi

此外,还计算了输出的整体正确性 C C C 和模型完成任务的效率 E path E_{\text{path}} Epath
C = 1 N ∑ i = 1 N σ i × δ i × 100 % C = \frac{1}{N} \sum_{i=1}^{N} \sigma_i \times \delta_i \times 100\% C=N1i=1Nσi×δi×100%
E path = 1 N ∑ i = 1 N σ i × δ i 5 × max ⁡ ( p i , l i ) × 100 % E_{\text{path}} = \frac{1}{N} \sum_{i=1}^{N} \frac{\sigma_i \times \delta_i}{5 \times \max(p_i, l_i)} \times 100\% Epath=N1i=1N5×max(pi,li)σi×δi×100%
其中:

  • N N N 是问题的总数。
  • l i l_i li 是智能体沿真实路径导航的距离。
  • p i p_i pi 是智能体在实验中实际移动的距离。

此外,还评估了智能体的导航性能,通过测量其最终探索位置 P i E P_i^E PiE 与目标位置 P i T P_i^T PiT 之间的测地线距离 d T d_T dT
d T = 1 N ∑ i = 1 N disg ( P i E , P i T ) d_T = \frac{1}{N} \sum_{i=1}^{N} \text{disg}(P_i^E, P_i^T) dT=N1i=1Ndisg(PiE,PiT)

Fine-EQA框架

概述

Fine-EQA 包含两个主要阶段:探索阶段问答阶段。在探索阶段,智能体通过构建和维护一个全面的环境表示(如3D体素地图 M 3 M^3 M3 和2D平面地图 M 2 M^2 M2),来跟踪探索状态和空间占用。探索过程分为两个阶段:

  • 基于前沿的探索(FBE):通过识别已探索区域和未探索区域之间的边界,系统地扩展环境理解。
  • 目标导向的探索(GOE):基于语义分析,直接导航到与任务高度相关的区域。

在探索过程中,智能体会在两种探索策略之间灵活切换,以确保既能高效覆盖环境,又能对任务相关区域进行细粒度的调查。最终,当多模态语言模型(VLM)判断已收集到足够的信息来回答问题时,探索阶段结束,智能体进入问答阶段。

基于前沿的探索

FBE 是一种经典的探索策略,专注于已探索区域和未探索区域之间的边界。Fine-EQA 对传统FBE进行了改进,通过引入语义理解来增强探索效率。具体步骤如下:

  • 构建全局语义地图

    • 全局语义地图 M sem M_{\text{sem}} Msem 通过结合全局语义值 v g v_g vg 和局部语义值 v l v_l vl 来构建:
      M sem ← ( p sample , v l , v g ) M_{\text{sem}} \leftarrow (p_{\text{sample}}, v_l, v_g) Msem(psample,vl,vg)
    • 其中, p sample p_{\text{sample}} psample 是采样点, v l v_l vl 是基于VLM对局部场景的语义评估, v g v_g vg 是VLM对全局场景的探索决策置信度。
  • 识别前沿点

    • 通过分析每个点周围的探索状态,识别出候选前沿点 F = { f 1 , f 2 , … , f n } F = \{f_1, f_2, \dots, f_n\} F={f1,f2,,fn}
    • 每个前沿点 f i f_i fi 获得一个综合权重 w i w_i wi,计算公式为:
      w i = ω ( v i , sem , r i , e , r i , o , dis ( f i , p cur ) ) w_i = \omega(v_{i,\text{sem}}, r_{i,\text{e}}, r_{i,\text{o}}, \text{dis}(f_i, p_{\text{cur}})) wi=ω(vi,sem,ri,e,ri,o,dis(fi,pcur))
    • 其中, v i , sem v_{i,\text{sem}} vi,sem 是语义值, r i , e r_{i,\text{e}} ri,e r i , o r_{i,\text{o}} ri,o 分别是沿探索方向的未探索率和未占用率, dis ( f i , p cur ) \text{dis}(f_i, p_{\text{cur}}) dis(fi,pcur) 是到当前智能体位置的欧几里得距离。
    • 权重 ω \omega ω 通过增强 r i , e r_{i,\text{e}} ri,e r i , o r_{i,\text{o}} ri,o v i , sem v_{i,\text{sem}} vi,sem 的指数加权,同时基于 dis ( f i , p cur ) \text{dis}(f_i, p_{\text{cur}}) dis(fi,pcur) 应用指数衰减,以优先探索未探索区域并减少局部冗余。
  • 选择下一个探索位置

    • 智能体根据权重 w i w_i wi 随机选择下一个探索位置 χ \chi χ
      χ = γ ( F , W ) , W = { w i ∑ j = 1 N w j ∣ i = 1 , 2 , … , N } \chi = \gamma(F, W), \quad W = \left\{ \frac{w_i}{\sum_{j=1}^{N} w_j} \mid i = 1, 2, \dots, N \right\} χ=γ(F,W),W={j=1Nwjwii=1,2,,N}
    • 其中, γ \gamma γ 表示按不同概率随机采样点。

目标导向的探索

GOE 通过显式建模功能区域及其与任务的相关性,解决了纯基于前沿的探索在复杂环境中无法全面探索任务相关区域的问题。具体步骤如下:

  • 功能区域语义映射

    • 构建功能区域语义地图 M reg M_{\text{reg}} Mreg,将场景划分为不同的功能区域(如厨房、客厅、卧室等)。
    • VLM 识别当前场景中的功能区域,并从采样点 p sample p_{\text{sample}} psample 中选择代表性点 q q q
      M reg ( N ( q ) ) = ID Reg M_{\text{reg}}(N(q)) = \text{ID}_{\text{Reg}} Mreg(N(q))=IDReg
    • 其中, N ( q ) N(q) N(q) 是点 q q q 的邻域, ID Reg \text{ID}_{\text{Reg}} IDReg 是与功能区域 Reg \text{Reg} Reg 相关联的语义值。
  • 任务相关区域优先级排序

    • 使用LLM分析问题,并根据任务重要性对相关区域进行优先级排序。这一步骤至关重要,因为次要区域通常提供重要的上下文或通往主要区域的路径。
    • 当智能体识别出更高优先级的区域时,切换到该区域进行目标导向的探索。
  • 掩码语义映射

    • 为了专注于高优先级区域,对全局语义地图 M sem M_{\text{sem}} Msem 应用掩码操作 ϕ \phi ϕ
      M masked = ϕ ( M sem , M reg , r ) M_{\text{masked}} = \phi(M_{\text{sem}}, M_{\text{reg}}, r) Mmasked=ϕ(Msem,Mreg,r)
    • 其中, r r r 是当前最高优先级的区域。掩码语义地图 M masked M_{\text{masked}} Mmasked 仅包含优先级区域的语义值,有效引导智能体关注任务相关区域。
    • 为了避免重复探索,已访问过的点在 M masked M_{\text{masked}} Mmasked 中的语义值会降低。
    • 智能体选择 M masked M_{\text{masked}} Mmasked 中语义值最高的位置 χ \chi χ 进行进一步探索:
      χ = arg ⁡ max ⁡ x , y ( M masked ) \chi = \arg\max_{x,y}(M_{\text{masked}}) χ=argx,ymax(Mmasked)

实验

基线模型

  • 非探索性智能体
    • 盲LLMs:仅根据问题生成答案,完全忽略具身场景中的上下文信息,使用DeepSeek-V3、GPT-4和LLaMA-3-8b等LLMs。
    • 苏格拉底模型:使用真实数据G模拟智能体的导航和探索,从中随机抽取k帧,并使用图像描述模型对每帧进行描述,然后将描述串联起来,LLMs根据问题和串联的描述生成答案。
    • 多帧VLMs:从真实数据中随机选择k帧,然后输入到VLMs中生成答案。
  • 探索性智能体
    • 随机探索(RE):智能体在场景中随机探索,选择移动距离和方向,导航到最近的点。为了避免过度探索,由GPT-4o-mini决定何时停止。
    • 基于前沿的探索(FBE):使用纯基于前沿的探索方法,忽略语义信息,由GPT-4o-mini决定何时停止。
    • 目标导向的探索(GOE):智能体从随机探索开始,到达任务相关区域后切换为目标导向的探索。与Fine-EQA类似,当给定区域的最大探索限制达到时,智能体转换为随机探索或探索次优区域。
    • Fine-EQA(本文提出):使用GPT-4识别与任务相关的功能区域,使用Prismatic VLMs分配语义值并评估功能区域,由GPT-4o-mini决定何时停止探索并生成回答。
  • 人类表现:五名参与者查看真实数据并提供答案,然后对他们的分数进行平均。

与现有方法的比较

  • 非探索性智能体
    • DeepSeek-V3表现最佳,与LLaVA-v1.5-7b结合使用时,苏格拉底模型的性能有所提高,但仍然受到模型幻觉的影响。
    • 多帧VLMs的性能比苏格拉底模型差,表明在探索感知EQA中,从环境中提取关键信息比直接使用图像更为重要。
  • 探索性智能体
    • 具有主动探索能力的智能体表现出更强的环境感知能力,几乎超过了所有非探索性模型。
    • RE在C∗值上表现较好,但由于模型幻觉的影响,其C值显著下降,dT和Epath指标也比其他方法差。
    • FBE和GOE分别利用各自的优势,在探索效率(Epath)和导航(dT)方面表现出色,FBE在C指标上略优于GOE。
    • Fine-EQA通过将基于前沿的探索与目标导向的探索相结合,在这些指标上均超过了所有基线模型,证明了其探索策略的有效性。
  • 人类表现
    • 尽管Fine-EQA在各个指标上表现良好,但与人类表现相比,所有方法在C∗分数上仍存在显著差距,这验证了EXPRESS-Bench及其评估指标的有效性,同时也突出了当前方法在复杂环境中仍存在的局限性。

消融研究

  • 消融FBE和GOE会导致性能下降,影响回答的准确性和探索效率,特别是FBE模块对信息获取的增强作用更为显著。

探索和回答的有效性

  • 探索有效性
    • 通过随机选择场景并可视化不同探索策略下智能体的探索轨迹,发现RE由于忽略场景和指令信息,导致冗余和低效。
    • FBE和GOE虽然有所改进,但仍无法有效探索场景,无法覆盖相关区域或获取足够的上下文信息。
    • Fine-EQA通过整合场景上下文和指令中的区域线索,进一步提高了探索效率,能够快速扩展未知区域,并战略性地引导智能体前往任务相关区域进行更彻底、高效的探索。
  • 回答真实性
    • 使用VLMs评估问题推理模块的真实性。通过Prismatic VLMs确定智能体在探索过程中收集的环境观察是否支持对问题的准确回答。
    • 实验结果表明,Fine-EQA在提高智能体探索效率的同时,保持了探索-答案一致性,证明了其问题推理模块的真实性。

结论与未来工作

  • 结论
    • 本文提出了EXPRESS-Bench,这是迄今为止最大的用于评估EQA中探索和推理能力的数据集。
    • 出了Fine-EQA框架,通过结合基于前沿和目标导向的导航提高了探索效率,同时引入了EAC评估指标来更好地评估探索和推理的一致性。
    • 广泛的实验结果证明了EXPRESS-Bench在推动探索感知EQA方面的作用。
  • 未来工作
    • 未来的工作可以进一步改进探索策略,使其在更复杂的环境中表现更好,还可以探索如何将EAC指标应用于其他具身智能任务,以提高模型在真实世界场景中的可靠性和性能。


网站公告

今日签到

点亮在社区的每一天
去签到