25年6月来自清华、香港中文大学、UIUC 和北航的论文“SP-VLA: A Joint Model Scheduling and Token Pruning Approach for VLA Model Acceleration”。
视觉-语言-动作 (VLA) 模型因其强大的控制能力而备受关注。然而,其高昂的计算成本和较低的执行频率阻碍了其在机器人操控和自主导航等实时任务中的应用。现有的 VLA 加速方法主要侧重于结构优化,忽略这些模型在序列决策环境中运行的事实。因此,序列动作生成中的时间冗余和视觉输入中的空间冗余仍未得到解决。为此,SP-VLA,是一个统一的框架,通过联合调度模型和修剪 token 来加速 VLA 模型。具体而言,设计一种动作-觉察的模型调度机制,通过在 VLA 模型和轻量级生成器之间动态切换来减少时间冗余。受人类专注于关键决策点而依赖直觉执行其他动作的运动模式启发,本文将 VLA 动作分为深思熟虑型和直觉型,将前者分配给 VLA 模型,将后者分配给轻量级生成器,从而通过协同模型调度实现频率自适应执行。为了解决空间冗余问题,进一步开发一种基于空间语义双重-觉察的 token 剪枝方法。将 token 分为空间和语义两个类型,并根据其双重-觉察重要性进行剪枝,以加速 VLA 推理。这两种机制协同作用,引导 VLA 聚焦关键动作和突出的视觉信息,在保持高精度的同时实现有效加速。实验结果表明,该方法实现高达 1.5 倍的加速,而精度下降不超过 3%,在多个任务中均优于现有方法。
SP-VLA框架如图所示。在处理环境反馈之前,会分析历史动作序列,以确定当前步骤需要的是深思熟虑的动作还是直觉动作。直觉动作由轻量级生成器生成,而深思熟虑的动作则由 VLA 处理。此外,在进入 LLM 主干网络之前,会根据输入 token 的空间上下文和语义重要性对其进行剪枝,从而进一步降低计算开销。
动作类型-觉察模型调度
人类的运动行为仅对诸如抓握或旋转等复杂动作依赖深思熟虑的思考,而其他简单动作则依靠直觉执行 [22, 23, 24]。这种混合策略在不牺牲有效性的情况下实现了高效率和低能耗。然而,现有的 VLA 模型将所有动作视为同等重要,依赖于大模型(例如参数 >7B)通过复杂的推理生成每个动作。实际上,连贯的动作序列不仅涉及高级逻辑推理,还涉及低级物理动力学,包括点-对-点运动过程中的惯性和线性加速或减速,这对 VLA 建模构成了重大挑战。忽略动作类型之间的区别会导致大量冗余计算,并最终影响运动平滑度。因此,利用此特性来减轻 VLA 模型的计算负担是一项亟待解决的挑战。
动作类型指示器。为了识别 VLA 生成轨迹中的直觉动作,分析 VLA 模型的行为模式,并发现了抓取任务中一致的模式。机械臂通常先缓慢对准目标,然后高速接近目标位置,最后以中等速度执行抓取动作。在放置阶段观察到了类似的运动模式,观察到的行为如图 a 所示。
如图所示,VLA 模型不仅学习了逻辑推理能力,还能捕捉加速和减速等动态模式。因此,对于诸如旋转和抓取之类的精确操作,需要谨慎的动作,而直觉动作更适合于任务阶段之间的高速过渡。本文将 VLA 模型的动作输出视为每时间步长的位移,即速度。令 a_t_d = {a_x, a_y, a_z} 表示末端执行器在时间步 t 的平移速度分量。如果动作 a_in ∈ a ∈ { |a_i| > v_min, ∀i ∈ {x, y, z} 的所有分量都超过预定义阈值 v_min,则该动作被归类为直观动作;否则,该动作被归类为慎重动作。
模型调度。基于以上结论,根据运动速度和动作缓存来决定是否使用轻量级模型,如图所示。低速度通常表示精细操作,而高速度则会增加依赖轻量级模型时出现重大错误的风险。如果 a_t−1 ∈ a ∈ {v_min < |a_i| < v_max, ∀i ∈ {x, y, z}},则可以调用轻量级模型,v_min 和 v_max 表示速度阈值。另一方面,监控动作缓冲区 S_A 中 VLA 生成的动作 N_G 数量,并允许在 N_G/N_A > τ 时使用轻量级模型,其中 N_A 是 S_A 的总动作数量,τ 是预定义阈值。
总体而言,轻量级模型的触发条件如下:
通过执行小步长、高频率的模型切换,可以在保持动作方向准确性的同时实现更快的推理速度。
轻量级动作生成器。为了支持快速可靠的动作近似,其开发一个轻量级生成器,该生成器使用岭回归和动作缓冲区来高效地估计即将发生的动作。尽管机械臂的末端执行器轨迹很复杂,但假设直观动作的短片段可以近似为线性的。因此,通过在动作缓冲区中对时间和速度的关系进行建模,可以预测当前的动作。具体而言,动作缓冲区 S_A = {a_t−n, a_t−n+1, · · · , a_t−1} 用于存储最近 n 步生成的动作,t 是当前时间步,a_t = {a_1, a_2, · · · , a_l} 是 t 时刻的 l 维动作向量。T=[0,1,···,n−1]T 是时间步长向量。岭回归模型的公式为 Y = Xβ + ε,其中 X = [T,1] 为输入,β 表示待拟合的参数矩阵,ε 为误差项,Y 为动作缓冲区。为了生成每个新动作,模型都会从头开始重新拟合,损失函数如下:
该方程的解析解为:
一旦获得当前段 β∗ 的最优参数,即可计算当前时间步的动作,如下所示:
值得注意的是,由于本文末端执行器状态表示为二元变量,因此不采用上述拟合策略。相反,直接复用前一时间步 t − 1 的值,并将末端执行器的状态转换委托给 VLA 模型。最后,预测的动作在通过有效性检查后直接执行。
空间语义双重-觉察的token剪枝
为了进一步减少计算量,以数据为中心的视角,在 VLA 调用期间动态剪枝不太重要的 tokens,使模型能够专注于与任务相关的内容。由于 LLM 占据了 VLA 模型的大部分计算开销,因此在将 tokens 输入 LLM 之前执行 token 剪枝,以确保与各种 VLA 架构的兼容性。值得注意的是,VLA 模型对输入 tokens 和物体轮廓相关 tokens 的相对位置高度敏感,如上上图 b 中的实验结果所示。
如图所示,随机丢弃 tokens 会降低准确率,但不会妨碍任务完成,这表明许多 tokens 是冗余的。值得注意的是,即使不进行剪枝,仅根据语义重要性对 tokens 进行重新排序也会导致任务失败,这凸显了 token 相对位置对于 VLA 模型中空间理解的重要性。此外,即使不改变 tokens 的相对位置,仅基于语义重要性进行剪枝也会删除关键的背景信息,同样会导致任务失败。最后,重新引入位置 tokens 可以恢复模型性能,强调 tokens 相对顺序和与目标轮廓相关的 tokens 在支持精确空间定位方面的关键作用。
语义-觉察 token 重要性。给定输入图像 X,视觉编码器将其转换为 token 序列。用编码器的最后一层作为 token 选择的基础。Q、K 和 V 可以按如下方式计算:
tokens 的累积重要性记分为:
基于此,首先通过选择累积注意得分超过阈值 t_k_s 的 tokens 来识别语义相关的token T_se,即 T_se = {x_i | AccuAttn_i > t_k_s }。
空间-觉察 token 重要性。假设空间信息主要编码在物体轮廓中。因此,使用 Canny 边缘检测器提取包含空间信息的 tokens。X_s = Canny(X) 表示仅保留从 X 提取的轮廓信息的纯边缘图像。然后,用 T_sp = f_E(X_s) 获得基于边缘 token 的有序序列,其中 f_E (·) 表示 token 提取函数。
最后,通过计算两者的保序并集 T_select = U(T_se,T_sp) 来获得选定的 token 集,其中 U(·) 表示保留原始 token 顺序的并集运算。
为了与模型协作策略保持一致,在低速条件下禁用 token 修剪,以避免干扰精确操作。此外,基于更高的运动速度通常对应更直观的操作,将修剪率定义为与当前速度正相关。因此,保留 token 的比例定义为: