今天小編分享的科技經驗:智元曝光「機器人大模型」,但真正的核心,并不是機器人!,歡迎閲讀。
3 月 7 日晚,智元機器人聯合創始人「稚晖君」(彭志輝)在微博上扔下了一顆「預告炸彈」——「下周有好東西發布」。短短一句話,迅速引爆全網,閲讀量飙升至 10 萬 +。
結果,3 月 10 日上午,智元機器人就揭曉了謎底—— Genie Operator-1(GO-1),智元首個通用具身基座大模型亮相。視頻中,機器人可以烤吐司、煮咖啡、送早餐到你的手上,完全不成問題。官方宣稱,GO-1 不僅具備強大的泛化能力,還能在極少數據甚至零樣本的情況下,迅速适應新場景和新任務。
早在 2024 年底,智元就推出了 AgiBot World,一個包含超過 100 萬條軌迹、涵蓋 217 個任務、涉及五大場景的大規模高質量數據集。正是基于這一龐大的「數據金礦」,GO-1 才能在短時間内實現高效訓練和廣泛泛化。可以説,AgiBot World 是 GO-1 背後的「隐形英雄」。
那麼,GO-1 這個機器人基座大模型的實際表現究竟如何?它對機器人行業又意味什麼?
機器人大模型,來了!
按照官方説法,GO-1 除了拓展機器人的運動能力,更重要的是加強了其 AI 能力,從而大大增加了機器人的實用價值。
通過學習人類視頻,GO-1 具備了強大的物體跟蹤能力 | 圖片來源:智元機器人官網截圖
在智元發布的演示視頻中,GO-1 展現了很強的學習能力:通過觀看人類操作視頻,它就能快速掌握新技能,并高效應用到實際任務中。比如,視頻中展示了 GO-1 強大的物體跟蹤能力:即使水杯被随意移動,它依然能精準完成倒水動作。
其次,GO-1 展現了非常強的泛化能力。與傳統模型需要海量數據訓練不同,GO-1 僅需百條級數據,就能實現快速泛化。例如,在演示中,GO-1 在完成倒水任務後,無需額外訓練,便能無縫切換到烤面包并抹果醬的新任務。這種能力不僅展現了 GO-1 對多樣化任務的适應性,更體現了其極簡學習的核心優勢。
GO-1 可以支持不同形态機器人能力遷移,既可以接待嘉賓,也可以制作咖啡 | 圖片來源:智元機器人官網截圖
同時,GO-1 的跨本體能力,為多機器人協作提供了強大的技術支持。在智元發布的視頻中,展示了兩個機器人協同完成復雜任務的場景:一個機器人在前台接待嘉賓,另一個機器人專注于制作咖啡。這種協作體現了 GO-1 的高效性和适應性。
傳統具身模型通常針對單一機器人本體(Hardware Embodiment)進行設計,導致兩大問題:數據利用率低和部署受限。但GO-1可以賦能多種本體,在不同機器人形态之間快速遷移,顯著提升了數據的利用效率,降低了部署成本。
值得一提的是,GO-1 大模型還可以搭配智元一整套數據回流系統,可以從實際執行遇到的問題數據中持續進化學習。這套系統能夠從實際執行過程中捕捉問題數據,尤其是執行失誤或異常情況,并通過人工審核和模型優化,持續提升 GO-1 的性能。例如,在演示場景中,機器人在放置咖啡杯時出現失誤,系統會立即将相關數據回流,并針對性地優化模型,确保下一次操作更加精準。
同時,GO-1 大模型還為機器人增加了新的語音互動方式,這極大便利了用户在現實場景中自由表達需求。
大模型不重要,數據集才重要
GO-1 神乎其神的背後,來自其不同的模型架構。
GO-1 采用了 Vision-Language-Latent-Action(ViLLA)架構,這一架構結合了多模态大模型(VLM)和混合專家系統(MoE),分為三個協同工作的模塊:
VLM(多模态大模型):基于 InternVL-2B,處理多視角視覺、力覺信号和語言輸入,實現場景感知和指令理解。
Latent Planner(隐式規劃器):通過預測 Latent Action Tokens(隐式動作标記),将互聯網異構數據中的動作知識遷移到機器人任務中,解決高質量真機數據不足的問題。
Action Expert(動作專家):基于 Diffusion Model 生成高頻率、靈活的動作序列,确保精細執行。
業内人士認為,其實 GO-1 的這個模型架構很簡單,創新之處并不多,主要是對已有工作、數據和訓練方式做了大幅整合。
相比之前的模型,唯一新增的是一層 Latent Planner(隐式規劃器),但它也就幾層 Transformer,并不復雜。
相比基座大模型,更重要的是數據集 | 圖片來源:智元機器人官網截圖
地瓜機器人技術副總裁隋偉表示,智元的工作直指行業痛點——數據問題,對具身智能行業有非常好的促進作用。不過,相比大模型,這裏面最有價值的是數據集。
據介紹,GO-1 的底層支撐則是一個名為 AgiBot World 的超大規模機器人數據集。據了解,AgiBot World 數據集包含超過 100 萬條軌迹,由 100 個真實機器人收集,涵蓋 100 多個真實世界場景和 217 個具體任務。
該數據集基于 AgiBot G1 硬體平台構建,由 100 多台同構機器人共同收集,提供高質量的開源機器人操作數據,支持解決多種現實生活場景中的挑戰性任務。最新版本的 AgiBot World 數據集,包含 100 萬條軌迹,總時長達 2976.4 小時,覆蓋 87 項技能和 106 個場景。
同時,AgiBot World 超越了實驗室環境中的基本桌面任務(如抓取和放置),專注于涉及雙臂操作、靈巧手和協作任務的現實場景。
與行業内現有的數據集(Open X-Embodiment)相比,智元的數據在數量上更為龐大,且數據質量、規範性和一致性更好。 Open X-Embodiment 數據集包含很多不同形态的本體,數據的形态差異性較大,會給模型的訓練帶來極大地幹擾。
不過,雖然智元的數據集已經有一定規模,仍只是一小步的起點,并未帶動機器人能力的顯著提升。
測試結果顯示,GO-1 的表現比之前模型已經提高了很多,但在倒水(Pour Water)、清理桌面(Table Bussing)和補充飲料(Restock Beverage)的成功率最高仍不到 80%。
隋偉表示,目前階段,模型并不是機器人行業的核心瓶頸。真正的挑戰在于兩個方面:首先是硬體的收斂問題,例如夾爪、靈巧手、觸覺傳感器等仿生設計尚未形成标準化;其次是因為本體無法大規模推廣,導致數據量始終存在不足。
目前,在數據采集方面,機器人業内主要依賴遙操作技術,包括虛拟現實(VR)設備、同構背帶式設備以及運動捕捉設備等。然而,機器人行業的數據采集成本較高,且缺乏明确的商業價值支撐,這導致數據閉環的飛輪難以快速運轉。
相比之下,自動駕駛行業的數據采集成本幾乎可以忽略不計,其通過車載感知系統能夠源源不斷地回傳數據,形成了高效的數據閉環。
在 GO-1 發布視頻的最後,大家發現了一個彩蛋——智元機器人預告了下一個具身智能機器人產品,盡管具體時間尚未公布。然而,緊接着稚晖君在微博上發文稱,「明天還有驚喜」,這一消息瞬間讓業界再次充滿了期待感。
大模型的興起,讓 AI 行業獲得了爆發式進化。大模型對于機器人和具身智能行業,到底能有這樣的促進作用,也讓人們格外好奇。智元和創始人稚晖君的 GO-1,看起來是個很好的起點,顯然具身 AI 很難由一家公司獨立完成,只有開源合作,才有可能真正實現機器人行業的快速進化。