EmbodiedOneVision——类似π0.5集成了离散自回归解码与连续流匹配去噪：单个模型中完成具身推理、动作生成-EW帮帮网

前言

之前本博客内解读过OneTwoVLA

一开始我给它起的副标题是：基于π0实现类π0.5
但细究后发现，在训练方式上，OneTwoVLA并没有像π0.5这样：离散化token自回归训练，推理时则用连续动作表示，故后来我把其标题改为了如下
可语音流畅交互的OneTwoVLA——推理数据微调π0：一个模型中完成原来双系统下的慢思考、快执行，且能自适应推理和自我纠错

那有没有类似π0.5这样的开源工作呢，一者架构上：一个模型统一慢思考、快执行，二者训练方式上：离散化token训练、连续动作推理

还真有，比如本文要解读的EmbodiedOneVision

顺带说一句，解读EmbodiedOneVision不但让我对OneTwoVLA本身定位的理解更精准，且更准确的认知π0.5——包括对其解读的标题也重新拟定了下，即《推理加强的π0.5——同一个模型中：先高层预训练离散化token自回归预测子任务、后低层执行子任务(实时去噪生成连续动作)》

不得不说，多读论文真心有用，特别是对于广大搞科研的同志，多多益善：多读多写

至于我，因为如此文开头所说，我司目前3分科研、7分落地，故会持续不断的研究复现改进前言，故论文是会不可避免的长久读下去
从而使得本博客也会一直不断的解读海内外最新论文，如此，也算是造福广大具身同仁，期待长久的未来中，与大伙多合作/交流

第一部分 EO-Robotics：通用机器人控制的交错视觉-文本-动作预训练

1.1 引言、相关工作、问题表述

1.1.1 引言

如EO-Robotics原论文所述

早期的通用型机器人策略（Kim 等，2024；Black 等，2024；Pertsch 等，2025）主要通过将视觉-语言模型（VLMs）扩展为视觉-语言-动作（VLA）模型，并结合特定领域的机器人数据实现
这一过程通常通过自回归解码离散动作token，或引入额外的连续流匹配模块来完成
然而，由于这些 VLA 模型仅在机器人数据集上进行训练，因此它们只能应用于狭窄的任务领域和特定环境。因此，这些模型继承自 VLMs 的通用语义知识受到削弱，且在指令遵循能力方面表现有限

近期，多项研究（Black 等，2025；Driess 等，2025；Lin 等，2025）探索了使用网页数据与机器人数据联合训练 VLA（视觉-语言-动作）模型，在与新物体和未知环境交互时展现出良好的泛化能力

然而，现有方法主要在 VLA 输出序列末端生成机器人动作，忽略了开放世界具身交互中视觉、语言与动作模态之间丰富的时序动态与因果依赖关系

相比之下，人类能够在多模态具身推理与物理动作之间灵活交错协同，实现高度泛化且灵巧的开放世界操作——即推理指导动作，动作结果又反过来影响后续推理。这引发了一个根本性研究问题：我们如何设计一种有效的训练范式，使通用型机器人策略能够支持灵活且互为信息基础的推理-行动一体化？

受先进的多模态理解与生成系统（Deng 等，2025；Ma 等，2025b；Xie 等，2025；NextStep-1，2025）取得的卓越成果启发，这些系统在交错多模态预训练方面展现出优越性

来自EO-Robotics团队-上海人工智能实验室、复旦大学、AgiBot、西北工业大学的研究者提出了一个统一的具身模型EmbodiedOneVision

其paper地址为：EmbodiedOneVision: Interleaved Vision-Text-Action Pretraining for General Robot Control
其对应的作者为：Delin Qu∗ , Haoming Song∗ , Qizhi Chen∗ , Zhaoqing Chen∗ , Xianqiang Gao∗ , Modi Shi, Guanghui Ren Maoqing Yao, Bin Zhao, Dong Wang
其项目地址为：eo-robotics.ai/eo-1
其GitHub地址为：github.com/EO-Robotics/EO

其通过交错的具身预训练，实现灵活且强大的多模态具身推理与动作生成

要实现这一目标

不仅需要一种在混合模态生成方面表现卓越且统一的架构
还需要精心构建的多模态具身数据，将文本、图像、视频与机器人动作有机整合

为了实现这一愿景，作者首先建立了一套可扩展的数据整理、筛选和高质量多模态交错具身数据构建的新协议

在数据来源方面

将网络视觉-语言数据与真实机器人操作片段相结合，后者天然具备动作级、时序性和物理连续性
随后，利用VLMs和人工对真实机器人操作片段进行多样化的具身时空问答对标注，涵盖物理常识理解、任务规划、物体定位、可供性指示以及多视角对应等内容。这些标注使模型能够学习物理世界中细粒度的几何与时空表示
最后，通过按时间顺序将这些多模态问答与机器人控制动作串联，构建出交错的视觉-文本-动作数据。值得注意的是，虽然机器人动作在每个时间步是固定的，作者设计了三种灵活的交错格式以关联随机的具身推理问答对
因此，交错的具身数据能够捕捉丰富的世界知识和细致的跨模态交互，为模型提供动作预测、场景理解和复杂多模态推理等通用机器人策略的基础能力

在模型架构层面

采用了一个统一的、仅含解码器的 Transformer，其集成了离散自回归解码与连续流匹配去噪
该统一模型基于预训练的视觉-语言模型（VLM）构建，因此继承了广泛的视觉与语言知识，并通过模态特定的目标进一步优化其共享参数：文本采用下一个 token 预测，机器人动作采用流匹配
模型在整个交错的视觉-文本-动作序列上应用因果注意力，以捕捉推理与动作之间的时序依赖关系
此外，还增加了两个MLP，用于对连续的机器人动作进行编码和解码，从而补充了原有的文本和视觉分词器。与以往引入额外动作特定模块以学习动作生成的 VLA 模型（Black 等, 2024, 2025; Driess等, 2025）不同，作者的设计通过避免从零训练新的动作特定参数，使视觉/语言与动作模态之间的对齐更加容易，从而在通用机器人策略中实现更有效的跨模态知识迁移

具体如下图所示

EO-1模型是一种视觉-语言-动作（VLA）模型，采用单一统一的解码器专用Transformer，配备离散语言建模头以实现多模态具身推理，以及用于机器人动作生成的连续流匹配头
语言指令、图像观测、机器人状态和带噪声的动作被编码为交错的Token序列，由共享的Transformer主干进行处理，其权重初始化自Qwen2.5-VL。该模型在交错的视觉-文本-动作数据上进行训练，结合流匹配目标和下一个Token预测目标，能够实现无缝的具身推理与执行

1.1.2 相关工作

1.1.3 问题表述

作者将通用机器人策略πθ 表述为一个统一模型EO-1，该模型通过协同的自回归与去噪范式整合了多模态具身推理与机器人控制

EO-1 架构能够灵活地解码连续动作片段和分词化文本输出，实现了在同一模型中无缝衔接的基于文本的推理与物理机器人控制

该模型所表示的分布可写为

$\pi_{\theta}\left(\hat{\mathbf{a}}_{t: t+h}, \hat{\ell}_{t} \mid \mathbf{o}_{t}, \ell_{t}, \mathbf{a}_{t-h: t}\right)$

其中

$\mathbf{o}_{t}=\left[\mathbf{I}_{t}^{1}, \ldots, \mathbf{I}_{t}^{n}, \mathbf{q}_{t}\right]$ 由多视角图像观测和机器人状态组成
语言上下文 $\ell$ 为与当前观测相关的具身推理问答文本数据
（例如，”Q: 基于当前图像观测，机器人清理桌面时下一步应做什么。A: 捡起黄色盒子并将其放入垃圾箱”）或整体任务提示（例如，” 清理桌面”）
动作序列 $\mathbf{a}_{t: t+h}$ 为一个动作片段

该统一模型在交错的多模态数据集 $\mathcal{D}$ 上进行训练，用于交替生成文本 $\hat{\ell}$ 和机器人动作 $\hat{\mathbf{a}}_{t: t+h}$ ，以实现无缝的具身推理与动作，需要注意的是，统一模型不会在视觉token 和机器人状态token 上生成输出

有没有发现，上面这个分布其实和π0.5的分布大差不差的，如此文所述

“ 总之，π0.5架构可以灵活地表示动作块分布和tokenized文本输出，其中后者既用于协同训练任务(例如问答)，也可用于分层推理过程中输出高层次子任务预测

模型捕获的分布可以表示为

$\pi_{\theta}\left(\mathbf{a}_{t: t+H}, \hat{\ell} \mid \mathbf{o}_{t}, \ell\right)$

其中 $\mathbf{o}_{t}=\left[\mathbf{I}_{t}^{1}, \ldots, \mathbf{I}_{t}^{n}, \mathbf{q}_{t}\right]$ 由所有摄像头的图像以及机器人的配置(节角度、夹持器姿态、躯干升降姿态和底盘速度)组成

$\ell$ 为整体任务提示（例如，” 收拾餐具”）

$\hat{\ell}$ 表示模型的(分词后的)文本输出，可以是预测的高层次子任务(例如，将餐具放入水槽”任务的子任务——拿起盘子)，也可以是网页数据中视觉-语言提示的答案

而 $\mathbf{a}_{t: t+H}$ 为预测的动作块

接下来，他们将分布分解为

$\pi_{\theta}\left(\mathbf{a}_{t: t+H}, \hat{\ell} \mid \mathbf{o}_{t}, \ell\right)=\pi_{\theta}\left(\mathbf{a}_{t: t+H} \mid \mathbf{o}_{t}, \hat{\ell}\right) \pi_{\theta}\left(\hat{\ell} \mid \mathbf{o}_{t}, \ell\right)$

.. ”

通用机器人策略πθ 由一个transformer 实现，该transformer 以交错的多模态token 序列 $x_{1: N}$ 作为输入，并以自回归的方式生成多模态输出序列 $\hat{x}_{1: N}$ ，即， $p\left(\hat{x}_{1: N}\right)=\prod_{i=1}^{N} p\left(\hat{x}_{i} \mid x_{<i}\right)$

对于输入，每个token 可以是离散的文本token $x_{i}^{w}$ ，连续的图像patch token $x_{i}^{I}$ ，连续的机器人状态token $x_{i}^{q}$ ，或部分去噪的机器人动作token $x_{i}^{a}$
对于输出，离散的文本token 通过语言建模头进行采样，而连续的动作token 通过流匹配头进行采样

语言建模头通过在统一transformer 后附加经典的logits 头实现，用于解码文本token 输出 $\hat{x}_{i}^{w}$ 。对于流匹配头，采用了rectified flow（Lipman 等，2022），即根据前向欧拉积分规则生成连续的动作信号 $\hat{\mathbf{a}}_{t}$ ：
$\hat{\mathbf{a}}_{t}^{\tau+\delta}=\hat{\mathbf{a}}_{t}^{\tau}+\delta V_{\pi_{\theta}}\left(\hat{\mathbf{a}}_{t}^{\tau}, \mid \mathbf{o}_{t}, \ell_{t}, \mathbf{a}_{t-h: t}\right)$
其中， $V_{\pi_{\theta}}$ 表示πθ 的参数，用于预测用于机器人动作生成的矢量场

动作通过将预测的矢量场从 $\tau=0$ 积分到 $\tau=1$ 生成，起始于随机噪声 $z_{t}^{0} \sim \mathcal{N}(\mathbf{0}, \mathbf{I})$ ，其中 $\delta$ 为积分步长

总之，统一transformer 中的共享参数实现了从视觉-语言理解到动作生成的语义知识无缝迁移，从而在具身场景中带来更通用的推理能力和控制能力（Deng 等, 2025；Black 等, 2025；Driess 等, 2025）

1.2 模型与训练

1.2.1 模型架构

首先，对于模型架构而言

本文所提出的统一模型架构通过共享的transformer 主干处理交错的多模态输入（即文本、图像、视频和动作），能够生成离散的token 序列和连续的动作token

该模型采用文本分词器和视觉编码器将文本和图像patch 转换为输入token，而机器人状态 $\mathbf{q}_{t}$ 通过线性投影到相同的transformer 嵌入空间，即 $x_{i}^{w}, x_{i}^{I}, x_{i}^{q} \in \mathbb{R}^{d}$
需要注意的是，文本分词器和视觉编码器继承自预训练的VLM，状态投影器则为随机初始化
对于流匹配动作去噪，输入的” 噪声动作” $\mathbf{a}_{t}^{\tau}$ 通过 $\mathbf{a}_{t}^{\tau}=\tau \mathbf{a}_{t}+(1-\tau) z_{\tau}$ 获得，其中 $z_{\tau} \sim \mathcal{N}(0, I)$ 为随机噪声

随后，另一个噪声动作线性投影器被用来将噪声动作和流匹配时间步 $\tau$ 嵌入为噪声动作token $x_{i}^{a} \in \mathbb{R}^{d}$

而本模型中的统一transformer 主干，初始化自Qwen 2.5 VL(Bai 等2025)，用共享参数处理这一交错的多模态输入序列，并通过两个独立的头部生成输出序列：一个用于文本token 解码的语言头，另一个用于连续动作去噪的流头「a language head for text token decoding and a flow head for continuous action denoising」

需要注意的是，作者并未像以往的 VLA 模型那样引入额外的动作特定参数来单独建模动作去噪，这使得离散多模态具身推理与连续机器人控制能够无缝集成

其次，对于训练

第一，统一提示与注意力

EO-1 的训练涉及三类数据：

多模态理解数据
多模态理解数据的格式为“[BOI]{图像块}[EOI] [BOS]{文本}[EOS]”
机器人动作生成数据
机器人控制数据的格式为“[BOI]{图像块}[EOI] [BOS]{文本}[EOS] [BOR]{机器人状态}[EOR] [BOA]{噪声动作}[EOA]”
混合模态生成数据
混合模态生成数据被格式化为交错的视觉-文本-动作序列，即
“[BOI]{图像块}[EOI]
[BOS]{文本}[EOS]
[BOR]{机器人状态}[EOR]
[BOA]{噪声动作}[EOA]

[BOI]{图像块}[EOI]
[BOS]{文本}[EOS]
[BOR]⋯”

其中 [BOS]、[EOS]、[BOI]、[EOI]、[BOR]、[EOR]、[BOA] 和 [EOA] 分别表示文本、图像、机器人状态和动作的开始与结束

在训练过程中，作者采用全向注意力掩码机制，结合因果注意力掩码处理这三类数据，并缓存生成的多模态上下文的键值（KV）对，以加速推理阶段的混合模态生成

需要指出的是，先前的 VLA 模型要么仅用单独的机器人控制数据训练，要么与多模态理解及机器人控制数据联合训练，缺乏交错的视觉-文本-动作数据

第二，交错修正采样

当在用于混合模态生成的交错视觉-文本-动作数据上进行训练时，交错数据中动作生成的去噪过程可能会破坏多模态标记序列中的因果关系，因为后续的文本、图像或动作token应关注于干净的动作标记和前面的文本/图像token，而不是噪声动作token

为了解决这一挑战，作者提出了一种用于混合模态生成训练的修正采样策略，如下图图2 所示「从机器人动作生成片段中采样可变长度的子序列，在保留因果关系的同时，实现了高效的多模态生成训练」

从包含N 个动作生成片段的交错序列中，通过针对连续的动作生成片段对序列进行拆分，采样出N + 1（例如，N = 2）个训练子序列
对于以第一个动作生成片段结尾的子序列，不进行额外操作
对于以交错动作生成片段结尾的子序列，即在序列中间包含另一个动作生成片段的情况，用干净的动作token替换中间动作生成片段中的噪声动作token

通过这种交错修正采样，每个动作生成片段都在噪声动作token上进行流匹配去噪训练，并在后续交错生成的清晰动作标记上进行间接梯度反向传播

第三，对于训练目标

为了通过一个统一的模型同时学习自回归解码和流匹配去噪，作者采用了两个学习目标：

下一个token预测
对于多模态理解和具身推理任务，输出token $\hat{x}_{i}$ 仅包含文本token $\hat{x}_{i}^{w}$ ，并通过原始语言解码头获得
language head 和transformer 骨干网络在解码后的文本token 上进行训练，采用真实文本token 与预测logits 之间的交叉熵损失 $\mathcal{L}_{a r}\left(x_{g t}^{w}, \hat{x}_{i}^{w}\right)$ ，其中 $\hat{x}_{i}^{w}=\pi_{\theta}\left(\hat{x} \mid x_{<i}\right)$ 是以所有先前多模态token 为条件
去噪向量场预测
对于机器人动作生成，输出动作 $\hat{\mathbf{a}}_{t}$ 通过将最后一层transformer 的中间隐藏特征映射到去噪向量场 $z_{0}-\mathbf{a}_{t}$ 来生成，该过程通过一个独立的flow head 实现
flow head 和transformer 骨干网络在动作token 上进行训练，通过最小化以下损失：
$\mathcal{L}_{f m}(\theta)=\mathbb{E}_{\tau}\left[\left\|V_{\theta}\left(\mathbf{a}_{t}^{\tau}, \tau \mid x_{<a}\right)-\left(z_{0}-\mathbf{a}_{t}\right)\right\|^{2}\right]$
其中， $\mathbf{a}_{t}^{\tau}=\tau \mathbf{a}_{t}+(1-\tau) z_{0}$ 是输入的加噪动作。 $x_{<a}$ 表示所有先前的多模态token

与（Black 等人，2024）类似，作者从一个更强调较低（更有噪声）时间步的beta 分布中采样流匹配时间步 $\tau$