今天小編分享的科學經驗:空間具身通用操作模型!百萬真實數據訓練,預訓練代碼全開源,歡迎閱讀。
與 3D 物理環境互動、适應不同機器人形态并執行復雜任務的通用操作策略,一直是機器人領網域的長期追求。
現有的通用操作模型局限于 2D 輸入,缺乏魯棒的 3D 感知能力,在面對單視角視差、光照變化和環境不一致等視覺外觀變化時表現較差,限制了其在現實世界中的通用性。
而人類具有通用且結構化的空間認知能力,能夠在不同的場景中精細準确的操作物體。因此,當前領網域的一個關鍵問題是如何有效地為 VLA 模型賦予通用的 3D 物理世界空間理解能力?
來自上海 AI Lab、TeleAI、上科大等機構的研究員提 SpatialVLA ——
百萬真機數據預訓練的空間具身通用操作模型,全面探究了空間表征在具身通用操作模型中的潛力,在 zero-shot 泛化控制、場景高效微調、空間理解等多項評估中取得了最先進的性能。
通用操作策略面臨的挑戰
近期視覺 - 語言 - 動作模型的進展為構建此類通用策略提供了有前景的範式,特别是通過在多樣化機器人數據上訓練視覺 - 語言模型。相關的最新研究包括 OpenVLA、RDT、π 0 等。然而現有的 VLA 模型大多局限于 2D 輸入,缺乏穩健的 3D 感知能力,且在面對單視角視差差距、光照變化和環境不一致等視覺外觀變化時表現較差,限制了其在現實世界中的可靠性。人類本能地形成結構化的空間認知模型,輕松地在直觀且個性化的工作空間中組織物體進行操作。
因此,當前領網域的一個關鍵問題是如何有效地為 VLA 模型賦予通用的 3D 物理世界空間理解能力?
然而,開發具有 3D 空間智能的通用機器人策略面臨兩個關鍵挑戰:
首先,由于相機傳感器和安裝位置(例如腕部安裝與第三方視角)不同,機器人在各個形态下的觀察數據缺乏 3D 對齊,造成了 3D 觀察空間未同一校準的。
其次,機器人表現出多樣的動作特性,源自自由度、運動控制器、工作空間配置和任務復雜性的差異,使得學習通用空間動作變得復雜。
空間具身通用操作模型
為應對以上挑戰,本文提出了一個通用機器人策略 SpatialVLA,通過探索對齊的空間表示,将 VLA 模型賦予 3D 空間智能。給定影像觀察和任務指令,模型利用 Ego3D 位置編碼處理影像,并自回歸地預測空間動作 token,随後解碼為連續動作 At 進行機器人控制 :
Ego3D Position Encoding: SpatialVLA 通過 Ego3D 位置編碼感知 3D 世界,将 3D 空間上下文與語義特征融合,消除了對特定機器人相機校準的需求,具有廣泛的适用性。
Adaptive Spatial Action Grids:對于機器人動作,SpatialVLA 采用自适應動作網格統一動作空間,将連續動作離散化為基于機器人任務數據的自适應網格,使得不同機器人之間的動作與物理世界的 3D 結構對齊。
Spatial Embedding Adaption: 在後訓練中,空間動作網格通過自适應網格重新離散化,展現了在新機器人環境中适應的卓越能力,提供了一種靈活且有效的機器人特定後期訓練方法。
具體來說,對于給定一個影像觀察 和任務指令 L,模型通過 Ego3D 位置編碼處理影像,并自回歸地預測空間動作 token,随後将這些 token 解碼為連續動作 At 用于機器人控制。
該模型包含三個關鍵組件:(1)SigLIP 視覺編碼器提取 2D 語義特征,随後通過 Ego3D 位置編碼将其與 3D 空間上下文相融合;(2)連續的 7D 動作 Δ T, Δ R, G 通過查詢自适應動作網格轉化為 3 個空間動作 token,并自回歸地預測并解碼以用于機器人控制;(3)在後期訓練中,動作網格和空間嵌入根據新的高斯分布進行調整,以便有效地遷移到全新的機器人平台。
團隊發現,所提出的 SpatialVLA 模型以通用且與機器人無關的方式橋接了觀察輸入和動作輸出,探索強大的 3D 空間感知表示,從而增強了 VLA 模型的魯棒性與通用性。
實驗驗證
團隊在 7 種不同的機器人學習場景中評估 SpatialVLA 的能力,包括 24 個真實機器人任務和 3 個仿真環境 Simpler Env Google Robot、Simpler Env WidowX、LIBERO。
重點考察模型的三個關鍵能力:zero-shot 泛化控制、新場景高效微調和空間理解能力。同時,團隊還進行了詳細的消融研究,驗證了設計決策。模型在多項評估中取得了最先進的性能。
1. zero-shot 泛化控制
SimplerEnv Benchmark SOTA 性能:包含 WidowX 和 Google 機器人配置,提供多樣的操作場景,并涵蓋不同的光照、顏色、紋理和機器人攝像頭位姿。團隊将模型與最新的通用操作策略進行比較,包括 RT-1、RT-1-X、RT-2-X、Octo、OpenVLA、HPT、TraceVLA 和 RoboVLM 等。
SpatialVLA 在 zero-shot 和微調 setting 中均表展示了更強的泛化能力和魯棒性,尤其在具有外觀多樣的機器人操作任務和環境條件下。
對于 WidowX 配置,SpatialVLA 超越了 RoboVLM,取得了 34.4% 和 42.7% 的整體成功率。在 BridgeV2 數據集上微調後,在 " 将茄子放入黃色籃子 " 任務中達到了 100% 的成功率,顯示了模型出色的零樣本泛化操作能力。
△Figure 1. SimplerEnv evaluation across different policies on Google Robot tasks.
△Figure 2. SimplerEnv evaluation across different policies on WidowX Robot tasks.
WidowX 機器人平台開箱即用:團隊還在真實的 WidowX 機器人平台上進行實驗,涵蓋語言綁定、語義理解和運動幹擾等任務。總體而言,SpatiaVLA 在未見過的場景、物體、語言綁定和動态動作中表現出了較高的平均成功率,能夠根據提示中的顏色描述準确地執行任務,超越了 OpenVLA 和其他通用策略展示了強大的泛化能力操作和指令跟随能力。
△Figure 3. Zero-shot Robot Control Evaluation on WidowX Robot.
2. 新場景高效微調
Franka 高效微調,LIBERO Benchmark SOTA 性能:團隊在 13 個 Franka 機械臂平台上 從 1)拾取、放置、推拉和關閉基本任務;2)指令跟随;3)混合多任務三個角度來驗證模型的操作性能,與主流策略(包括 Diffusion Policy、Octo 和 OpenVLA)進行比較。
評估結果展示了其作為通用機器人控制策略的多功能性,在多種任務中表現出色,并可有效作為新機器人微調的初始化。同時 SpatialVLA 能夠有效适應 LIBERO 環境中的任務,取得了 78.1% 的最高平均成功率,并在所有無 state 輸入的策略中排名第一。
△Figure 4. Adapting to New Robot Setups on Franka Robot.
△Figure 5. LIBERO Simulation Benchmark Results.
3. 空間理解能力評估
團隊從三類機器人設定評估的空間理解能力:Franka 機器人微調, WidowX 機器人零樣本泛化,以及 Libero-Spatial 微調。任務展示了不同的空間復雜性,任務涉及提示理解,深度變化感知,物體布局變化。與現有策略相比,SpatialVLA 展現了優越的空間理解能力,在 Franka 任務 #1 中取得了 73% 的準确率,顯著提升了在 WidowX 零 -shot 任務(任務 #2-4)中的操作能力,尤其是在復雜的位置變化上。在 LIBERO-Spatial 任務中,SpatiaVLA 取得了 88.2% 的成功率。像 Octo、Diffusion Policy 和 OpenVLA 等策略,由于缺乏深度信息的集成,在适應空間布局變化時面臨較大挑戰,其成功率始終低于 50%。因此,團隊建議将 3D 信息,如深度或點雲,集成到 VLA 框架中,以提高模型在空間布局變化中的适應性和魯棒性。
△Figure 6. Spatial Understanding Capability Evaluation.
Huggingface: https://huggingface.co/collections/IPEC-COMMUNITY
訓練代碼: https://github.com/SpatialVLA/SpatialVLA
項目主頁: https://spatialvla.github.io
論文地址: https://arxiv.org/abs/2501.15830
— 完 —
學術投稿請于工作日發郵件到:
标題注明【投稿】,告訴我們:
你是誰,從哪來,投稿内容
附上論文 / 項目主頁鏈接,以及聯系方式哦
我們會(盡量)及時回復你
一鍵關注 點亮星标
科技前沿進展每日見
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!