空間具身通用操作模型！百萬真實數據訓練，預訓練代碼全開源

今天小編分享的科學經驗：空間具身通用操作模型！百萬真實數據訓練，預訓練代碼全開源，歡迎閱讀。

與 3D 物理環境互動、适應不同機器人形态并執行復雜任務的通用操作策略，一直是機器人領網域的長期追求。

現有的通用操作模型局限于 2D 輸入，缺乏魯棒的 3D 感知能力，在面對單視角視差、光照變化和環境不一致等視覺外觀變化時表現較差，限制了其在現實世界中的通用性。

而人類具有通用且結構化的空間認知能力，能夠在不同的場景中精細準确的操作物體。因此，當前領網域的一個關鍵問題是如何有效地為 VLA 模型賦予通用的 3D 物理世界空間理解能力？

來自上海 AI Lab、TeleAI、上科大等機構的研究員提 SpatialVLA ——

百萬真機數據預訓練的空間具身通用操作模型，全面探究了空間表征在具身通用操作模型中的潛力，在 zero-shot 泛化控制、場景高效微調、空間理解等多項評估中取得了最先進的性能。

通用操作策略面臨的挑戰

近期視覺 - 語言 - 動作模型的進展為構建此類通用策略提供了有前景的範式，特别是通過在多樣化機器人數據上訓練視覺 - 語言模型。相關的最新研究包括 OpenVLA、RDT、π 0 等。然而現有的 VLA 模型大多局限于 2D 輸入，缺乏穩健的 3D 感知能力，且在面對單視角視差差距、光照變化和環境不一致等視覺外觀變化時表現較差，限制了其在現實世界中的可靠性。人類本能地形成結構化的空間認知模型，輕松地在直觀且個性化的工作空間中組織物體進行操作。

因此，當前領網域的一個關鍵問題是如何有效地為 VLA 模型賦予通用的 3D 物理世界空間理解能力？

然而，開發具有 3D 空間智能的通用機器人策略面臨兩個關鍵挑戰：

首先，由于相機傳感器和安裝位置（例如腕部安裝與第三方視角）不同，機器人在各個形态下的觀察數據缺乏 3D 對齊，造成了 3D 觀察空間未同一校準的。

其次，機器人表現出多樣的動作特性，源自自由度、運動控制器、工作空間配置和任務復雜性的差異，使得學習通用空間動作變得復雜。

空間具身通用操作模型

為應對以上挑戰，本文提出了一個通用機器人策略 SpatialVLA，通過探索對齊的空間表示，将 VLA 模型賦予 3D 空間智能。給定影像觀察和任務指令，模型利用 Ego3D 位置編碼處理影像，并自回歸地預測空間動作 token，随後解碼為連續動作 At 進行機器人控制 :

Ego3D Position Encoding: SpatialVLA 通過 Ego3D 位置編碼感知 3D 世界，将 3D 空間上下文與語義特征融合，消除了對特定機器人相機校準的需求，具有廣泛的适用性。

Adaptive Spatial Action Grids：對于機器人動作，SpatialVLA 采用自适應動作網格統一動作空間，将連續動作離散化為基于機器人任務數據的自适應網格，使得不同機器人之間的動作與物理世界的 3D 結構對齊。

Spatial Embedding Adaption: 在後訓練中，空間動作網格通過自适應網格重新離散化，展現了在新機器人環境中适應的卓越能力，提供了一種靈活且有效的機器人特定後期訓練方法。

具體來說，對于給定一個影像觀察和任務指令 L，模型通過 Ego3D 位置編碼處理影像，并自回歸地預測空間動作 token，随後将這些 token 解碼為連續動作 At 用于機器人控制。

該模型包含三個關鍵組件：（1）SigLIP 視覺編碼器提取 2D 語義特征，随後通過 Ego3D 位置編碼将其與 3D 空間上下文相融合；（2）連續的 7D 動作 Δ T, Δ R, G 通過查詢自适應動作網格轉化為 3 個空間動作 token，并自回歸地預測并解碼以用于機器人控制；（3）在後期訓練中，動作網格和空間嵌入根據新的高斯分布進行調整，以便有效地遷移到全新的機器人平台。

團隊發現，所提出的 SpatialVLA 模型以通用且與機器人無關的方式橋接了觀察輸入和動作輸出，探索強大的 3D 空間感知表示，從而增強了 VLA 模型的魯棒性與通用性。

實驗驗證

團隊在 7 種不同的機器人學習場景中評估 SpatialVLA 的能力，包括 24 個真實機器人任務和 3 個仿真環境 Simpler Env Google Robot、Simpler Env WidowX、LIBERO。

重點考察模型的三個關鍵能力：zero-shot 泛化控制、新場景高效微調和空間理解能力。同時，團隊還進行了詳細的消融研究，驗證了設計決策。模型在多項評估中取得了最先進的性能。

1. zero-shot 泛化控制

SimplerEnv Benchmark SOTA 性能：包含 WidowX 和 Google 機器人配置，提供多樣的操作場景，并涵蓋不同的光照、顏色、紋理和機器人攝像頭位姿。團隊将模型與最新的通用操作策略進行比較，包括 RT-1、RT-1-X、RT-2-X、Octo、OpenVLA、HPT、TraceVLA 和 RoboVLM 等。

SpatialVLA 在 zero-shot 和微調 setting 中均表展示了更強的泛化能力和魯棒性，尤其在具有外觀多樣的機器人操作任務和環境條件下。

對于 WidowX 配置，SpatialVLA 超越了 RoboVLM，取得了 34.4% 和 42.7% 的整體成功率。在 BridgeV2 數據集上微調後，在 " 将茄子放入黃色籃子 " 任務中達到了 100% 的成功率，顯示了模型出色的零樣本泛化操作能力。

△Figure 1. SimplerEnv evaluation across different policies on Google Robot tasks.

△Figure 2. SimplerEnv evaluation across different policies on WidowX Robot tasks.

WidowX 機器人平台開箱即用：團隊還在真實的 WidowX 機器人平台上進行實驗，涵蓋語言綁定、語義理解和運動幹擾等任務。總體而言，SpatiaVLA 在未見過的場景、物體、語言綁定和動态動作中表現出了較高的平均成功率，能夠根據提示中的顏色描述準确地執行任務，超越了 OpenVLA 和其他通用策略展示了強大的泛化能力操作和指令跟随能力。

△Figure 3. Zero-shot Robot Control Evaluation on WidowX Robot.

2. 新場景高效微調

Franka 高效微調，LIBERO Benchmark SOTA 性能：團隊在 13 個 Franka 機械臂平台上從 1）拾取、放置、推拉和關閉基本任務；2）指令跟随；3）混合多任務三個角度來驗證模型的操作性能，與主流策略（包括 Diffusion Policy、Octo 和 OpenVLA）進行比較。

評估結果展示了其作為通用機器人控制策略的多功能性，在多種任務中表現出色，并可有效作為新機器人微調的初始化。同時 SpatialVLA 能夠有效适應 LIBERO 環境中的任務，取得了 78.1% 的最高平均成功率，并在所有無 state 輸入的策略中排名第一。

△Figure 4. Adapting to New Robot Setups on Franka Robot.

△Figure 5. LIBERO Simulation Benchmark Results.

3. 空間理解能力評估

團隊從三類機器人設定評估的空間理解能力：Franka 機器人微調， WidowX 機器人零樣本泛化，以及 Libero-Spatial 微調。任務展示了不同的空間復雜性，任務涉及提示理解，深度變化感知，物體布局變化。與現有策略相比，SpatialVLA 展現了優越的空間理解能力，在 Franka 任務 #1 中取得了 73% 的準确率，顯著提升了在 WidowX 零 -shot 任務（任務 #2-4）中的操作能力，尤其是在復雜的位置變化上。在 LIBERO-Spatial 任務中，SpatiaVLA 取得了 88.2% 的成功率。像 Octo、Diffusion Policy 和 OpenVLA 等策略，由于缺乏深度信息的集成，在适應空間布局變化時面臨較大挑戰，其成功率始終低于 50%。因此，團隊建議将 3D 信息，如深度或點雲，集成到 VLA 框架中，以提高模型在空間布局變化中的适應性和魯棒性。