今天小编分享的科学经验:空间具身通用操作模型!百万真实数据训练,预训练代码全开源,欢迎阅读。
与 3D 物理环境互動、适应不同机器人形态并执行复杂任务的通用操作策略,一直是机器人领網域的长期追求。
现有的通用操作模型局限于 2D 输入,缺乏鲁棒的 3D 感知能力,在面对单视角视差、光照变化和环境不一致等视觉外观变化时表现较差,限制了其在现实世界中的通用性。
而人类具有通用且结构化的空间认知能力,能够在不同的场景中精细准确的操作物体。因此,当前领網域的一个关键问题是如何有效地为 VLA 模型赋予通用的 3D 物理世界空间理解能力?
来自上海 AI Lab、TeleAI、上科大等机构的研究员提 SpatialVLA ——
百万真机数据预训练的空间具身通用操作模型,全面探究了空间表征在具身通用操作模型中的潜力,在 zero-shot 泛化控制、场景高效微调、空间理解等多项评估中取得了最先进的性能。
通用操作策略面临的挑战
近期视觉 - 语言 - 动作模型的进展为构建此类通用策略提供了有前景的范式,特别是通过在多样化机器人数据上训练视觉 - 语言模型。相关的最新研究包括 OpenVLA、RDT、π 0 等。然而现有的 VLA 模型大多局限于 2D 输入,缺乏稳健的 3D 感知能力,且在面对单视角视差差距、光照变化和环境不一致等视觉外观变化时表现较差,限制了其在现实世界中的可靠性。人类本能地形成结构化的空间认知模型,轻松地在直观且个性化的工作空间中组织物体进行操作。
因此,当前领網域的一个关键问题是如何有效地为 VLA 模型赋予通用的 3D 物理世界空间理解能力?
然而,开发具有 3D 空间智能的通用机器人策略面临两个关键挑战:
首先,由于相机传感器和安装位置(例如腕部安装与第三方视角)不同,机器人在各个形态下的观察数据缺乏 3D 对齐,造成了 3D 观察空间未同一校准的。
其次,机器人表现出多样的动作特性,源自自由度、运动控制器、工作空间配置和任务复杂性的差异,使得学习通用空间动作变得复杂。
空间具身通用操作模型
为应对以上挑战,本文提出了一个通用机器人策略 SpatialVLA,通过探索对齐的空间表示,将 VLA 模型赋予 3D 空间智能。给定影像观察和任务指令,模型利用 Ego3D 位置编码处理影像,并自回归地预测空间动作 token,随后解码为连续动作 At 进行机器人控制 :
Ego3D Position Encoding: SpatialVLA 通过 Ego3D 位置编码感知 3D 世界,将 3D 空间上下文与语义特征融合,消除了对特定机器人相机校准的需求,具有广泛的适用性。
Adaptive Spatial Action Grids:对于机器人动作,SpatialVLA 采用自适应动作网格统一动作空间,将连续动作离散化为基于机器人任务数据的自适应网格,使得不同机器人之间的动作与物理世界的 3D 结构对齐。
Spatial Embedding Adaption: 在后训练中,空间动作网格通过自适应网格重新离散化,展现了在新机器人环境中适应的卓越能力,提供了一种灵活且有效的机器人特定后期训练方法。
具体来说,对于给定一个影像观察 和任务指令 L,模型通过 Ego3D 位置编码处理影像,并自回归地预测空间动作 token,随后将这些 token 解码为连续动作 At 用于机器人控制。
该模型包含三个关键组件:(1)SigLIP 视觉编码器提取 2D 语义特征,随后通过 Ego3D 位置编码将其与 3D 空间上下文相融合;(2)连续的 7D 动作 Δ T, Δ R, G 通过查询自适应动作网格转化为 3 个空间动作 token,并自回归地预测并解码以用于机器人控制;(3)在后期训练中,动作网格和空间嵌入根据新的高斯分布进行调整,以便有效地迁移到全新的机器人平台。
团队发现,所提出的 SpatialVLA 模型以通用且与机器人无关的方式桥接了观察输入和动作输出,探索强大的 3D 空间感知表示,从而增强了 VLA 模型的鲁棒性与通用性。
实验验证
团队在 7 种不同的机器人学习场景中评估 SpatialVLA 的能力,包括 24 个真实机器人任务和 3 个仿真环境 Simpler Env Google Robot、Simpler Env WidowX、LIBERO。
重点考察模型的三个关键能力:zero-shot 泛化控制、新场景高效微调和空间理解能力。同时,团队还进行了详细的消融研究,验证了设计决策。模型在多项评估中取得了最先进的性能。
1. zero-shot 泛化控制
SimplerEnv Benchmark SOTA 性能:包含 WidowX 和 Google 机器人配置,提供多样的操作场景,并涵盖不同的光照、颜色、纹理和机器人摄像头位姿。团队将模型与最新的通用操作策略进行比较,包括 RT-1、RT-1-X、RT-2-X、Octo、OpenVLA、HPT、TraceVLA 和 RoboVLM 等。
SpatialVLA 在 zero-shot 和微调 setting 中均表展示了更强的泛化能力和鲁棒性,尤其在具有外观多样的机器人操作任务和环境条件下。
对于 WidowX 配置,SpatialVLA 超越了 RoboVLM,取得了 34.4% 和 42.7% 的整体成功率。在 BridgeV2 数据集上微调后,在 " 将茄子放入黄色篮子 " 任务中达到了 100% 的成功率,显示了模型出色的零样本泛化操作能力。
△Figure 1. SimplerEnv evaluation across different policies on Google Robot tasks.
△Figure 2. SimplerEnv evaluation across different policies on WidowX Robot tasks.
WidowX 机器人平台开箱即用:团队还在真实的 WidowX 机器人平台上进行实验,涵盖语言绑定、语义理解和运动干扰等任务。总体而言,SpatiaVLA 在未见过的场景、物体、语言绑定和动态动作中表现出了较高的平均成功率,能够根据提示中的颜色描述准确地执行任务,超越了 OpenVLA 和其他通用策略展示了强大的泛化能力操作和指令跟随能力。
△Figure 3. Zero-shot Robot Control Evaluation on WidowX Robot.
2. 新场景高效微调
Franka 高效微调,LIBERO Benchmark SOTA 性能:团队在 13 个 Franka 机械臂平台上 从 1)拾取、放置、推拉和关闭基本任务;2)指令跟随;3)混合多任务三个角度来验证模型的操作性能,与主流策略(包括 Diffusion Policy、Octo 和 OpenVLA)进行比较。
评估结果展示了其作为通用机器人控制策略的多功能性,在多种任务中表现出色,并可有效作为新机器人微调的初始化。同时 SpatialVLA 能够有效适应 LIBERO 环境中的任务,取得了 78.1% 的最高平均成功率,并在所有无 state 输入的策略中排名第一。
△Figure 4. Adapting to New Robot Setups on Franka Robot.
△Figure 5. LIBERO Simulation Benchmark Results.
3. 空间理解能力评估
团队从三类机器人設定评估的空间理解能力:Franka 机器人微调, WidowX 机器人零样本泛化,以及 Libero-Spatial 微调。任务展示了不同的空间复杂性,任务涉及提示理解,深度变化感知,物体布局变化。与现有策略相比,SpatialVLA 展现了优越的空间理解能力,在 Franka 任务 #1 中取得了 73% 的准确率,显著提升了在 WidowX 零 -shot 任务(任务 #2-4)中的操作能力,尤其是在复杂的位置变化上。在 LIBERO-Spatial 任务中,SpatiaVLA 取得了 88.2% 的成功率。像 Octo、Diffusion Policy 和 OpenVLA 等策略,由于缺乏深度信息的集成,在适应空间布局变化时面临较大挑战,其成功率始终低于 50%。因此,团队建议将 3D 信息,如深度或点云,集成到 VLA 框架中,以提高模型在空间布局变化中的适应性和鲁棒性。
△Figure 6. Spatial Understanding Capability Evaluation.
Huggingface: https://huggingface.co/collections/IPEC-COMMUNITY
训练代码: https://github.com/SpatialVLA/SpatialVLA
项目主页: https://spatialvla.github.io
论文地址: https://arxiv.org/abs/2501.15830
— 完 —
学术投稿请于工作日发邮件到:
标题注明【投稿】,告诉我们:
你是谁,从哪来,投稿内容
附上论文 / 项目主页链接,以及联系方式哦
我们会(尽量)及时回复你
一键关注 点亮星标
科技前沿进展每日见
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!