今天小編分享的互聯網經驗:稚晖君預告的“好東西”來了!智元機器人發布首個通用具身基座大模型GO-1,歡迎閲讀。
來源:獵雲網
又一家具身智能公司,殺入 " 具身大腦 "。
3 月 7 日,智元機器人(AgiBot)聯合創始人稚晖君(彭志輝)在微博上預告," 下周智元機器人有好東西發布 "。
在 2024 年底,智元推出了 AgiBot World,包含超過 100 萬條軌迹、涵蓋 217 個任務、涉及五大場景的大規模高質量真機數據集。基于 AgiBot World,今日,智元正式發布首個通用具身基座模型——智元啓元大模型(Genie Operator-1,GO-1)。
據介紹,智元啓元大模型開創性地提出了 Vision-Language-Latent-Action(ViLLA)架構,該架構由 VLM(多模态大模型) + MoE(混合專家)組成,其中 VLM 借助海量互聯網圖文數據獲得通用場景感知和語言理解能力,MoE 中的 Latent Planner(隐式規劃器)借助大量跨本體和人類操作視頻數據獲得通用的動作理解能力,MoE 中的 Action Expert(動作專家)借助百萬真機數據獲得精細的動作執行能力,三者環環相扣,實現了可以利用人類視頻學習,完成小樣本快速泛化,降低了具身智能門檻,并成功部署到智元多款機器人本體,持續進化,将具身智能推上了一個新台階。
GO-1:VLA 進化到 ViLLA
為了有效利用高質量的 AgiBot World 數據集以及互聯網大規模異構視頻數據,增強策略的泛化能力,智元提出了 Vision-Language-Latent-Action (ViLLA)這一創新性架構。GO-1 作為首個通用具身基座大模型,基于 ViLLA 構建。與 Vision-Language-Action(VLA)架構相比,ViLLA 通過預測 Latent Action Tokens(隐式動作标記),彌合影像 - 文本輸入與機器人執行動作之間的鴻溝。在真實世界的靈巧操作和長時任務方面表現卓越,遠遠超過了已有的開源 SOTA 模型。
ViLLA 架構是由 VLM(多模态大模型)+MoE(混合專家)組成,其中 VLM 借助海量互聯網圖文數據獲得通用場景感知和語言理解能力,MoE 中的 Latent Planner(隐式規劃器)借助大量跨本體和人類操作數據獲得通用的動作理解能力,MoE 中的 Action Expert(動作專家)借助百萬真機數據獲得精細的動作執行能力。在推理時,VLM、Latent Planner 和 Action Expert 三者協同工作:
VLM 采用 InternVL-2B,接收多視角視覺圖片、力覺信号、語言輸入等多模态信息,進行通用的場景感知和指令理解;
Latent Planner 是 MoE 中的一組專家,基于 VLM 的中間層輸出預測 Latent Action Tokens 作為 CoP(Chain of Planning,規劃鏈),進行通用的動作理解和規劃;
Action Expert 是 MoE 中的另外一組專家,基于 VLM 的中間層輸出以及 Latent Action Tokens,生成最終的精細動作序列;
下面展開介紹下 MoE 裏 2 個關鍵的組成 Latent Planner 和 Action Expert:
混合專家一:Latent Planner(隐式規劃器)
盡管 AgiBot World 數據集已經是全球最大的機器人真機示教數據集,但這樣高質量帶動作标籤的真機數據量仍然有限,遠少于互聯網規模的數據集。為此,我們采用 Latent Actions(隐式動作)來建模當前幀和歷史幀之間的隐式變化,然後通過 Latent Planner 預測這些 Latent Actions,從而将異構數據源中真實世界的動作知識轉移到通用操作任務中。
Latent Action Model(LAM,隐式動作模型)主要用于獲取當前幀和歷史幀之間 Latent Actions 的 Groundtruth(真值),它由編碼器和解碼器組成。其中:
編碼器采用 Spatial-temporal Transformer,并使用 Causal Temporal Masks(時序因果掩碼)。
解碼器采用 Spatial Transformer,以初始幀和離散化的 Latent Action Tokens 作為輸入。
Latent Action Tokens 通過 VQ-VAE 的方式進行量化處理。
Latent Planner 負責預測這些離散的 Latent Action Tokens,它與 VLM 主幹網絡共享相同的 Transformer 結構,但使用了兩套獨立的 FFN(前饋神經網絡)和 Q/K/V/O(查詢、鍵、值、輸出)投影矩陣。Latent Planner 這組專家會逐層結合 VLM 輸出的中間信息,通過 Cross Entropy Loss(交叉熵損失)進行監督訓練。
混合專家二:Action Expert(動作專家)
為了實現 High-frequency(高頻率)且 Dexterous(靈活)的操控,我們引入 Action Expert,其采用 Diffusion Model 作為目标函數來建模低層級動作的連續分布。
Action Expert 結構設計上與 Latent Planner 類似,也是與 VLM 主幹網絡共享相同的 Transformer 結構,但使用兩套獨立的 FFN 和 Q/K/V/O 投影矩陣,它通過 Denoising Process(去噪過程)逐步回歸動作序列。
Action Expert 與 VLM、Latent Planner 分層結合,确保信息流的一致性與協同優化。
實驗效果
通過 Vision-Language-Latent-Action (ViLLA)創新性架構,我們在五種不同復雜度任務上測試 GO-1,相比已有的最優模型,GO-1 成功率大幅領先,平均成功率提高了 32%(46%->78%)。其中 "Pour Water"(倒水)、"Table Bussing"(清理桌面) 和 "Restock Beverage"(補充飲料) 任務表現尤為突出。此外我們還單獨驗證了 ViLLA 架構中 Latent Planner 的作用,可以看到增加 Latent Planner 可以提升 12% 的成功率(66%->78%)。
GO-1:具身智能的全面創新
GO-1 大模型借助人類和多種機器人數據,讓機器人獲得了革命性的學習能力,可泛化應用到各類的環境和物品中,快速适應新任務、學習新技能。同時,它還支持部署到不同的機器人本體,高效地完成落地,并在實際的使用中持續不斷地快速進化。
這一系列的特點可以歸納為 4 個方面:
人類視頻學習:GO-1 大模型可以結合互聯網視頻和真實人類示範進行學習,增強模型對人類行為的理解,更好地為人類服務。
小樣本快速泛化:GO-1 大模型具有強大的泛化能力,能夠在極少數據甚至零樣本下泛化到新場景、新任務,降低了具身模型的使用門檻,使得後訓練成本非常低。
一腦多形:GO-1 大模型是通用機器人策略模型,能夠在不同機器人形态之間遷移,快速适配到不同本體,群體升智。
持續進化:GO-1 大模型搭配智元一整套數據回流系統,可以從實際執行遇到的問題數據中持續進化學習,越用越聰明。
智元通用具身基座大模型 GO-1 的推出,标志着具身智能向通用化、開放化、智能化方向快速邁進:
從單一任務到多種任務:機器人能夠在不同場景中執行多種任務,而不需要針對每個新任務重新訓練。
從封閉環境到開放世界:機器人不再局限于實驗室,而是可以适應多變的真實世界環境。
從預設程式到指令泛化:機器人能夠理解自然語言指令,并根據語義進行組合推理,而不再局限于預設程式。
GO-1 大模型将加速具身智能的普及,機器人将從依賴特定任務的工具,向着具備通用智能的自主體發展,在商業、工業、家庭等多領網域發揮更大的作用,通向更加通用全能的智能未來。