今天小編分享的互聯網經驗:星動紀元端到端原生機器人大模型ERA-42正式亮相,引領具身大模型進入靈巧操作時代,歡迎閱讀。
近期,星動紀元端到端原生機器人大模型 ERA-42 正式亮相,即 " 紀元原生機器人大模型 ", 寓意着不斷探索宇宙萬物的終極答案,展示了其與自研五指靈巧手星動 XHAND1 結合後的靈巧操作能力,已學會了使用不同工具完成 100 多種復雜靈巧的操作任務,并且持續在同一個模型下學習新的技能。例如,拿起桌上螺釘鑽鑽緊螺釘、用錘子敲打釘子、将水杯扶正後再往水杯中倒水等任務。
基于 ERA-42,星動 XHAND1 能用不同工具完成多種靈巧操作新任務
這是業界首次僅通過同一個具身大模型就實現了五指靈巧手像人手一樣使用多種工具完成上百種靈巧復雜操作任務,展現了 ERA-42 行業領先的通用、靈巧操作能力。模型不需要任何預編程技能,完全基于其強大的泛化和自适應力,能在不到 2 小時内通過收集少量數據就學會執行新的任務。同時,ERA-42 還在快速不斷學習更多新技能中。
基于 ERA-42,星動 XHAND1 可完成 100 多種精細化、智能化的五指靈巧手操作任務
ERA-42 也是世界範圍内首個真正的五指靈巧手具身大模型,開啟了具身大模型的通用靈巧操作時代。
1. " 真正 " 的具身大模型才是開啟通用具身智能體的密鑰,需要具備以下三個要素:
一是統一一個模型泛化多種任務和環境:通過構建一個統一的原生模型,融合視覺、語言、觸覺和身體姿态等全模态信息,實現對不同任務和環境的泛化能力。
二是端到端:從接收全模态數據,到生成最終輸出(如決策、動作等),通過一個簡潔的神經網絡鏈路完成。該過程無需人為設計特征、預編程或幹預處理步驟,使得具身智能體能夠實時适應不同任務和環境,顯著提升靈活性與開發效率。
三是 Scaling up(規模化):真正的統一的端到端算法才允許模型通過持續的數據積累實現自我完善,使得具身大模型在數據量指數級增長的同時,不僅提升性能,還能在未知任務中展現卓越的自适應和泛化能力。
例如,被行業廣泛熟知的 Physical Intelligence ( 簡稱 PI ) 發布的 π 0 模型就具備上述要素,是典型的真正意義上的端到端具身大模型。
2. 星動紀元 ERA-42 是國内首個真正意義上的端到端原生機器人大模型,比肩世界領先水平
早期,星動紀元和 PI 幾乎同期采用了端到端算法來提升其原生機器人大模型性能,PI 推出的 π 0 模型,通過結合互聯網規模的視覺 - 語言預訓練與機器人操作數據集後訓練,使得機器人能夠在人類環境中自主執行多種復雜任務,這是機器人從特定任務的 " 專家 " 向多任務的 " 通才 " 發展歷程上的重要一步,也是具身大模型領網域的一個裡程碑。
星動紀元早期發布的研究成果和 Physical Intelligence ( PI ) 幾乎不謀而合,星動論文 HiRT: Enhancing Robotic Control with Hierarchical Robot Transformers 發表在 CoRL2024
而後,星動紀元又探索了另一條訓練道路,采用大規模視頻數據學習策略,涵蓋無标注的視頻數據、公開各類形态機器人的數據、人類活動數據以及遙操作數據等。并且,在上述數據的使用上,星動紀元不是直接模仿視頻裡的人怎麼去做,而是學習行動之後會產生什麼樣的結果。這種方式使得學習效果不受限于數據質量,能大大降低數據收集成本,解決了數據消耗量巨大、需要大量高質量數據的行業難題。
此外,星動紀元的技術團隊已将世界模型融入原生機器人大模型中,使得模型不僅具備行動能力,還具備了對物理世界的理解能力,能夠對未來行動軌迹進行預測,
後期,星動紀元探索了融合世界模型的原生機器人大模型,星動論文 Prediction with Action: Visual Policy Learning via Joint Denoising Process 發表在 NeurIPS 2024
還能迅速響應外部幹擾,并在任務執行過程中持續自适應優化行為,直至任務完成。提升了機器人執行任務的高效性和準确性。
星動紀元打造的端到端原生機器人大模型 ERA-42 憑借其預測能力,模型具備強大的泛化、自适應和規模化能力。結合星動紀元為 AI 打造的全新硬體平台,可快速實現具身智能體軟硬體協同進化和商業化落地。
3. 星動紀元端到端原生機器人大模型 ERA-42 引領具身大模型進入通用靈巧操作時代
1)相比夾爪,星動 XHAND1 已經可以完成 100 多種精細化、智能化的復雜靈巧操作任務
相比夾爪,基于 ERA-42 能力 , 五指靈巧手能夠真正像人手一樣使用更多種多樣的工具,完成更通用、靈巧性更強、復雜度更高的百種以上操作任務。
基于 ERA-42, 五指靈巧手星動 XHAND1 相比夾爪能使用更多不同工具執行更靈巧操作
2)星動紀元原生機器人大模型 ERA-42 能理解物理世界和預測未來
融合世界模型後,ERA-42 具備對物理世界的理解以及對未來的預測的能力,從而大幅提升了泛化能力和任務成功率。
例如,下圖中上方的圖片展示了真實物理世界中打開冰箱的逐幀操作,下方的圖片則為 ERA-42 生成的環境建模與對打開冰箱任務的逐幀預測。可以看到兩張圖片非常接近,說明模型預測非常準确。這與其他機器人大模型直接學習行動、而忽視對世界本身理解的方式,或者僅将世界模型用于生成仿真數據的方式,存在本質的區别。
真實世界執行任務和 ERA-42 預測執行任務對比圖
3)星動紀元原生機器人大模型 ERA-42 具備更強泛化能力
基于大規模視頻數據的預訓練,只需采集少部分數據,基于 ERA-42 的泛化能力,短時間内通過單一的策略靈巧手就能學會執行新的操作任務。此前,星動紀元技術團隊就通過這種訓練方式采集簡單的紅黃藍方塊抓取數據,成功實現了從未見過的多樣化物體(如胡蘿卜、茄子等)的抓取泛化,并相對其他模型算法在泛化任務上顯著提升了成功率。
通過簡單彩色方塊的抓取數據實現多樣化物體的泛化抓取操作
4)星動紀元原生機器人大模型 ERA-42 具備更強自适應性
由于融合了世界模型,ERA-42 不管在單任務上,還是長序列任務上都展現出了業内領先的強大抗幹擾能力。
5)星動紀元原生機器人大模型 ERA-42 初步體現 "Scaling 效應 "
并且研究結果表明,随着模型規模的擴大,任務成功率也明顯提升,初步體現了和大語言模型訓練中類似的 "Scaling 效應 ",即模型規模與性能之間的正相關性。
"Scaling 效應 " 顯示模型與機器人性能呈現正相關性
4. 星動紀元端到端原生機器人大模型 ERA-42 和為 AI 打造的全新硬體平台協同進化,共建原生具身智能體構建通用具身智能體需要軟硬體協同迭代,就像人類的腦和身體是從小到大同步協同成長的一樣。
因此,星動紀元打造了為 AI 定義的全新硬體平台。以星動自研推出的五指靈巧手星動 XHAND1 為例,共有 12 個主動自由度,并采用純電驅方式,且每個自由度都有對應的驅動源,實現全自主五指關節驅動,能執行高精度任務。星動 XHAND1 每個手指配備一個高分辨率 ( >100 點 ) 觸覺陣列傳感器,提供精确的三維力觸覺和溫度信息。單手最大握力能達 80N,負載可達 25kg。
星動 XHAND1 —— 全自驅 真自由
星動 XHAND1 在作業能力上展現出的高性能在協同 ERA-42 後,為實現復雜靈巧操作任務奠定了基礎。
依托 ERA-42,星動紀元通用人形機器人執行任務的通用性和泛化性将大幅提升,結合此前發布的在復雜多樣的地形上穩定行走和奔跑的運動性能,配合上下肢協同作業能力,潛在應用場景也将更加多元化,真正實現原生的通用具身智能體的產業化落地。