大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

空間具身通用操作模型!百萬真實數據訓練,預訓練代碼全開源

2025-03-05 简体 HK SG TW

今天小編分享的科學經驗:空間具身通用操作模型!百萬真實數據訓練,預訓練代碼全開源,歡迎閱讀。

與 3D 物理環境互動、适應不同機器人形态并執行復雜任務的通用操作策略,一直是機器人領網域的長期追求。

現有的通用操作模型局限于 2D 輸入,缺乏魯棒的 3D 感知能力,在面對單視角視差、光照變化和環境不一致等視覺外觀變化時表現較差,限制了其在現實世界中的通用性。

而人類具有通用且結構化的空間認知能力,能夠在不同的場景中精細準确的操作物體。因此,當前領網域的一個關鍵問題是如何有效地為 VLA 模型賦予通用的 3D 物理世界空間理解能力?

來自上海 AI Lab、TeleAI、上科大等機構的研究員提 SpatialVLA ——

百萬真機數據預訓練的空間具身通用操作模型,全面探究了空間表征在具身通用操作模型中的潛力,在 zero-shot 泛化控制、場景高效微調、空間理解等多項評估中取得了最先進的性能。

通用操作策略面臨的挑戰

近期視覺 - 語言 - 動作模型的進展為構建此類通用策略提供了有前景的範式,特别是通過在多樣化機器人數據上訓練視覺 - 語言模型。相關的最新研究包括 OpenVLA、RDT、π 0 等。然而現有的 VLA 模型大多局限于 2D 輸入,缺乏穩健的 3D 感知能力,且在面對單視角視差差距、光照變化和環境不一致等視覺外觀變化時表現較差,限制了其在現實世界中的可靠性。人類本能地形成結構化的空間認知模型,輕松地在直觀且個性化的工作空間中組織物體進行操作。

因此,當前領網域的一個關鍵問題是如何有效地為 VLA 模型賦予通用的 3D 物理世界空間理解能力?

然而,開發具有 3D 空間智能的通用機器人策略面臨兩個關鍵挑戰:

首先,由于相機傳感器和安裝位置(例如腕部安裝與第三方視角)不同,機器人在各個形态下的觀察數據缺乏 3D 對齊,造成了 3D 觀察空間未同一校準的。

其次,機器人表現出多樣的動作特性,源自自由度、運動控制器、工作空間配置和任務復雜性的差異,使得學習通用空間動作變得復雜。

空間具身通用操作模型

為應對以上挑戰,本文提出了一個通用機器人策略 SpatialVLA,通過探索對齊的空間表示,将 VLA 模型賦予 3D 空間智能。給定影像觀察和任務指令,模型利用 Ego3D 位置編碼處理影像,并自回歸地預測空間動作 token,随後解碼為連續動作 At 進行機器人控制 :

Ego3D Position Encoding: SpatialVLA 通過 Ego3D 位置編碼感知 3D 世界,将 3D 空間上下文與語義特征融合,消除了對特定機器人相機校準的需求,具有廣泛的适用性。

Adaptive Spatial Action Grids:對于機器人動作,SpatialVLA 采用自适應動作網格統一動作空間,将連續動作離散化為基于機器人任務數據的自适應網格,使得不同機器人之間的動作與物理世界的 3D 結構對齊。

Spatial Embedding Adaption: 在後訓練中,空間動作網格通過自适應網格重新離散化,展現了在新機器人環境中适應的卓越能力,提供了一種靈活且有效的機器人特定後期訓練方法。

具體來說,對于給定一個影像觀察 和任務指令 L,模型通過 Ego3D 位置編碼處理影像,并自回歸地預測空間動作 token,随後将這些 token 解碼為連續動作 At 用于機器人控制。

該模型包含三個關鍵組件:(1)SigLIP 視覺編碼器提取 2D 語義特征,随後通過 Ego3D 位置編碼将其與 3D 空間上下文相融合;(2)連續的 7D 動作 Δ T, Δ R, G 通過查詢自适應動作網格轉化為 3 個空間動作 token,并自回歸地預測并解碼以用于機器人控制;(3)在後期訓練中,動作網格和空間嵌入根據新的高斯分布進行調整,以便有效地遷移到全新的機器人平台。

團隊發現,所提出的 SpatialVLA 模型以通用且與機器人無關的方式橋接了觀察輸入和動作輸出,探索強大的 3D 空間感知表示,從而增強了 VLA 模型的魯棒性與通用性。

實驗驗證

團隊在 7 種不同的機器人學習場景中評估 SpatialVLA 的能力,包括 24 個真實機器人任務和 3 個仿真環境 Simpler Env Google Robot、Simpler Env WidowX、LIBERO。

重點考察模型的三個關鍵能力:zero-shot 泛化控制、新場景高效微調和空間理解能力。同時,團隊還進行了詳細的消融研究,驗證了設計決策。模型在多項評估中取得了最先進的性能。

1. zero-shot 泛化控制

SimplerEnv Benchmark SOTA 性能:包含 WidowX 和 Google 機器人配置,提供多樣的操作場景,并涵蓋不同的光照、顏色、紋理和機器人攝像頭位姿。團隊将模型與最新的通用操作策略進行比較,包括 RT-1、RT-1-X、RT-2-X、Octo、OpenVLA、HPT、TraceVLA 和 RoboVLM 等。

SpatialVLA 在 zero-shot 和微調 setting 中均表展示了更強的泛化能力和魯棒性,尤其在具有外觀多樣的機器人操作任務和環境條件下。

對于 WidowX 配置,SpatialVLA 超越了 RoboVLM,取得了 34.4% 和 42.7% 的整體成功率。在 BridgeV2 數據集上微調後,在 " 将茄子放入黃色籃子 " 任務中達到了 100% 的成功率,顯示了模型出色的零樣本泛化操作能力。

△Figure 1. SimplerEnv evaluation across different policies on Google Robot tasks.

△Figure 2. SimplerEnv evaluation across different policies on WidowX Robot tasks.

WidowX 機器人平台開箱即用:團隊還在真實的 WidowX 機器人平台上進行實驗,涵蓋語言綁定、語義理解和運動幹擾等任務。總體而言,SpatiaVLA 在未見過的場景、物體、語言綁定和動态動作中表現出了較高的平均成功率,能夠根據提示中的顏色描述準确地執行任務,超越了 OpenVLA 和其他通用策略展示了強大的泛化能力操作和指令跟随能力。

△Figure 3. Zero-shot Robot Control Evaluation on WidowX Robot.

2. 新場景高效微調

Franka 高效微調,LIBERO Benchmark SOTA 性能:團隊在 13 個 Franka 機械臂平台上 從 1)拾取、放置、推拉和關閉基本任務;2)指令跟随;3)混合多任務三個角度來驗證模型的操作性能,與主流策略(包括 Diffusion Policy、Octo 和 OpenVLA)進行比較。

評估結果展示了其作為通用機器人控制策略的多功能性,在多種任務中表現出色,并可有效作為新機器人微調的初始化。同時 SpatialVLA 能夠有效适應 LIBERO 環境中的任務,取得了 78.1% 的最高平均成功率,并在所有無 state 輸入的策略中排名第一。

△Figure 4. Adapting to New Robot Setups on Franka Robot.

△Figure 5. LIBERO Simulation Benchmark Results.

3. 空間理解能力評估

團隊從三類機器人設定評估的空間理解能力:Franka 機器人微調, WidowX 機器人零樣本泛化,以及 Libero-Spatial 微調。任務展示了不同的空間復雜性,任務涉及提示理解,深度變化感知,物體布局變化。與現有策略相比,SpatialVLA 展現了優越的空間理解能力,在 Franka 任務 #1 中取得了 73% 的準确率,顯著提升了在 WidowX 零 -shot 任務(任務 #2-4)中的操作能力,尤其是在復雜的位置變化上。在 LIBERO-Spatial 任務中,SpatiaVLA 取得了 88.2% 的成功率。像 Octo、Diffusion Policy 和 OpenVLA 等策略,由于缺乏深度信息的集成,在适應空間布局變化時面臨較大挑戰,其成功率始終低于 50%。因此,團隊建議将 3D 信息,如深度或點雲,集成到 VLA 框架中,以提高模型在空間布局變化中的适應性和魯棒性。

△Figure 6. Spatial Understanding Capability Evaluation.

Huggingface:  https://huggingface.co/collections/IPEC-COMMUNITY

訓練代碼:  https://github.com/SpatialVLA/SpatialVLA

項目主頁:  https://spatialvla.github.io

論文地址:  https://arxiv.org/abs/2501.15830

—  完  —

學術投稿請于工作日發郵件到:

[email protected]

标題注明【投稿】,告訴我們:

你是誰,從哪來,投稿内容‍

附上論文 / 項目主頁鏈接,以及聯系方式哦

我們會(盡量)及時回復你

一鍵關注 點亮星标

科技前沿進展每日見

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法!

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?矽碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?矽碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們