大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 互聯網

稚晖君預告的“好東西”來了!智元機器人發布首個通用具身基座大模型GO-1

2025-03-10 简体 HK SG TW

今天小編分享的互聯網經驗:稚晖君預告的“好東西”來了!智元機器人發布首個通用具身基座大模型GO-1,歡迎閱讀。

來源:獵雲網

又一家具身智能公司,殺入 " 具身大腦 "。

3 月 7 日,智元機器人(AgiBot)聯合創始人稚晖君(彭志輝)在微博上預告," 下周智元機器人有好東西發布 "。

在 2024 年底,智元推出了 AgiBot World,包含超過 100 萬條軌迹、涵蓋 217 個任務、涉及五大場景的大規模高質量真機數據集。基于 AgiBot World,今日,智元正式發布首個通用具身基座模型——智元啟元大模型(Genie Operator-1,GO-1)。

據介紹,智元啟元大模型開創性地提出了 Vision-Language-Latent-Action(ViLLA)架構,該架構由 VLM(多模态大模型) + MoE(混合專家)組成,其中 VLM 借助海量互聯網圖文數據獲得通用場景感知和語言理解能力,MoE 中的 Latent Planner(隐式規劃器)借助大量跨本體和人類操作視頻數據獲得通用的動作理解能力,MoE 中的 Action Expert(動作專家)借助百萬真機數據獲得精細的動作執行能力,三者環環相扣,實現了可以利用人類視頻學習,完成小樣本快速泛化,降低了具身智能門檻,并成功部署到智元多款機器人本體,持續進化,将具身智能推上了一個新台階。

GO-1:VLA 進化到 ViLLA

為了有效利用高質量的 AgiBot World 數據集以及互聯網大規模異構視頻數據,增強策略的泛化能力,智元提出了 Vision-Language-Latent-Action (ViLLA)這一創新性架構。GO-1 作為首個通用具身基座大模型,基于 ViLLA 構建。與 Vision-Language-Action(VLA)架構相比,ViLLA 通過預測 Latent Action Tokens(隐式動作标記),彌合影像 - 文本輸入與機器人執行動作之間的鴻溝。在真實世界的靈巧操作和長時任務方面表現卓越,遠遠超過了已有的開源 SOTA 模型。

ViLLA 架構是由 VLM(多模态大模型)+MoE(混合專家)組成,其中 VLM 借助海量互聯網圖文數據獲得通用場景感知和語言理解能力,MoE 中的 Latent Planner(隐式規劃器)借助大量跨本體和人類操作數據獲得通用的動作理解能力,MoE 中的 Action Expert(動作專家)借助百萬真機數據獲得精細的動作執行能力。在推理時,VLM、Latent Planner 和 Action Expert 三者協同工作:

VLM 采用 InternVL-2B,接收多視角視覺圖片、力覺信号、語言輸入等多模态信息,進行通用的場景感知和指令理解;

Latent Planner 是 MoE 中的一組專家,基于 VLM 的中間層輸出預測 Latent Action Tokens 作為 CoP(Chain of Planning,規劃鏈),進行通用的動作理解和規劃;

Action Expert 是 MoE 中的另外一組專家,基于 VLM 的中間層輸出以及 Latent Action Tokens,生成最終的精細動作序列;

下面展開介紹下 MoE 裡 2 個關鍵的組成 Latent Planner 和 Action Expert:

混合專家一:Latent Planner(隐式規劃器)

盡管 AgiBot World 數據集已經是全球最大的機器人真機示教數據集,但這樣高質量帶動作标籤的真機數據量仍然有限,遠少于互聯網規模的數據集。為此,我們采用 Latent Actions(隐式動作)來建模當前幀和歷史幀之間的隐式變化,然後通過 Latent Planner 預測這些 Latent Actions,從而将異構數據源中真實世界的動作知識轉移到通用操作任務中。

Latent Action Model(LAM,隐式動作模型)主要用于獲取當前幀和歷史幀之間 Latent Actions 的 Groundtruth(真值),它由編碼器和解碼器組成。其中:

編碼器采用 Spatial-temporal Transformer,并使用 Causal Temporal Masks(時序因果掩碼)。

解碼器采用 Spatial Transformer,以初始幀和離散化的 Latent Action Tokens 作為輸入。

Latent Action Tokens 通過 VQ-VAE 的方式進行量化處理。

Latent Planner 負責預測這些離散的 Latent Action Tokens,它與 VLM 主幹網絡共享相同的 Transformer 結構,但使用了兩套獨立的 FFN(前饋神經網絡)和 Q/K/V/O(查詢、鍵、值、輸出)投影矩陣。Latent Planner 這組專家會逐層結合 VLM 輸出的中間信息,通過 Cross Entropy Loss(交叉熵損失)進行監督訓練。

混合專家二:Action Expert(動作專家)

為了實現 High-frequency(高頻率)且 Dexterous(靈活)的操控,我們引入 Action Expert,其采用 Diffusion Model 作為目标函數來建模低層級動作的連續分布。

Action Expert 結構設計上與 Latent Planner 類似,也是與 VLM 主幹網絡共享相同的 Transformer 結構,但使用兩套獨立的 FFN 和 Q/K/V/O 投影矩陣,它通過 Denoising Process(去噪過程)逐步回歸動作序列。

Action Expert 與 VLM、Latent Planner 分層結合,确保信息流的一致性與協同優化。

實驗效果

通過 Vision-Language-Latent-Action (ViLLA)創新性架構,我們在五種不同復雜度任務上測試 GO-1,相比已有的最優模型,GO-1 成功率大幅領先,平均成功率提高了 32%(46%->78%)。其中 "Pour Water"(倒水)、"Table Bussing"(清理桌面) 和 "Restock Beverage"(補充飲料) 任務表現尤為突出。此外我們還單獨驗證了 ViLLA 架構中 Latent Planner 的作用,可以看到增加 Latent Planner 可以提升 12% 的成功率(66%->78%)。

GO-1:具身智能的全面創新

GO-1 大模型借助人類和多種機器人數據,讓機器人獲得了革命性的學習能力,可泛化應用到各類的環境和物品中,快速适應新任務、學習新技能。同時,它還支持部署到不同的機器人本體,高效地完成落地,并在實際的使用中持續不斷地快速進化。

這一系列的特點可以歸納為 4 個方面:

人類視頻學習:GO-1 大模型可以結合互聯網視頻和真實人類示範進行學習,增強模型對人類行為的理解,更好地為人類服務。

小樣本快速泛化:GO-1 大模型具有強大的泛化能力,能夠在極少數據甚至零樣本下泛化到新場景、新任務,降低了具身模型的使用門檻,使得後訓練成本非常低。

一腦多形:GO-1 大模型是通用機器人策略模型,能夠在不同機器人形态之間遷移,快速适配到不同本體,群體升智。

持續進化:GO-1 大模型搭配智元一整套數據回流系統,可以從實際執行遇到的問題數據中持續進化學習,越用越聰明。

智元通用具身基座大模型 GO-1 的推出,标志着具身智能向通用化、開放化、智能化方向快速邁進:

從單一任務到多種任務:機器人能夠在不同場景中執行多種任務,而不需要針對每個新任務重新訓練。

從封閉環境到開放世界:機器人不再局限于實驗室,而是可以适應多變的真實世界環境。

從預設程式到指令泛化:機器人能夠理解自然語言指令,并根據語義進行組合推理,而不再局限于預設程式。

GO-1 大模型将加速具身智能的普及,機器人将從依賴特定任務的工具,向着具備通用智能的自主體發展,在商業、工業、家庭等多領網域發揮更大的作用,通向更加通用全能的智能未來。

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?矽碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?矽碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們