星動紀元端到端原生機器人大模型ERA-42正式亮相，引領具身大模型進入靈巧操作時代

今天小編分享的科學經驗：星動紀元端到端原生機器人大模型ERA-42正式亮相，引領具身大模型進入靈巧操作時代，歡迎閲讀。

以下文章來源于北京星動紀元科技有限公司，作者星動紀元

導語：近期，星動紀元端到端原生機器人大模型 ERA-42 正式亮相，即 " 紀元原生機器人大模型 ", 寓意着不斷探索宇宙萬物的終極答案，并展示了其與自研五指靈巧手星動 XHAND1 結合後的靈巧操作能力，已學會了使用不同工具完成 100 多種復雜靈巧的操作任務，并且持續在同一個模型下學習新的技能。例如，拿起桌上随機擺放的螺釘鑽并鑽緊螺釘、用錘子敲打釘子、将倒放的水杯扶正再往水杯中倒水等任務。

基于 ERA-42，星動 XHAND1 能用不同工具完成多種靈巧操作新任務

這是業界首次僅通過同一個具身大模型就實現了五指靈巧手像人手一樣靈活自如地使用多種多樣、形态各異的工具完成上百種靈巧復雜操作任務，展現了 ERA-42 行業領先的通用、靈巧操作能力。模型不需要任何預編程技能，完全基于其強大的泛化和自适應力，能在不到 2 小時内通過收集少量數據就學會執行新的任務。同時，ERA-42 還在快速不斷學習更多新技能中。

基于 ERA-42，星動 XHAND1 可完成 100 多種精細化、智能化的五指靈巧手操作任務

ERA-42 也是世界範圍内首個真正的五指靈巧手具身大模型，由此開啓了具身大模型的通用靈巧操作時代。

在通用具身智能行業中，具身大模型被廣泛認為是未來發展的趨勢，主要源于其強大的跨模态能力、自适應性和泛化能力以及高效、靈活的任務執行能力。

1." 真正 " 的具身大模型才是開啓通用具身智能體的密鑰，需要具備以下三個要素：

一是統一一個模型泛化多種任務和環境：通過構建一個統一的原生模型，融合視覺、語言、觸覺和身體姿态等全模态信息，實現對不同任務和環境的泛化能力。此外，通過不同任務之間的數據共享和遷移，能夠進一步提升模型的泛化能力。

二是端到端：從接收全模态數據，到生成最終輸出（如決策、動作等）的整個過程，通過一個簡潔的神經網絡鏈路完成。該過程無需人為設計特征、預編程或幹預處理步驟，使得具身智能體能夠實時适應不同任務和環境，顯著提升靈活性與開發效率。

三是 Scaling up（規模化）：真正的統一的端到端算法才允許模型通過持續的數據積累實現自我完善，使得具身大模型在數據量指數級增長的同時，不僅提升性能，還能在未知任務中展現卓越的自适應和泛化能力。

例如，被行業廣泛熟知的 Physical Intelligence ( 簡稱 PI ) 發布的 π 0 模型就具備上述要素，是典型的真正意義上的端到端具身大模型。

2. 星動紀元ERA-42是國内首個真正意義上的端到端原生機器人大模型，比肩世界領先水平

早期，星動紀元和 PI 幾乎同期不謀而合采用了端到端的算法來提升其原生機器人大模型性能，PI 推出的 π 0 模型，通過結合互聯網規模的視覺 - 語言預訓練與機器人操作數據集後訓練，使得機器人能夠在人類環境中自主執行多種復雜任務，展示了在物理世界中實現通用人工智能的潛力。這是機器人從特定任務的 " 專家 " 向多任務的 " 通才 " 發展歷程上的重要一步，也是具身大模型領網域的一個裏程碑。

星動紀元早期發布的研究成果和 Physical Intelligence ( PI ) 幾乎不謀而合

星動論文 HiRT: Enhancing Robotic Control with Hierarchical Robot Transformers 發表在 CoRL2024

而後，星動紀元又探索了另一條原生機器人模型訓練道路，采用大規模視頻數據學習策略，涵蓋無标注的視頻數據、公開各類形态機器人的數據、人類活動數據以及遙操作數據等。并且，在上述數據的使用上，星動紀元不是直接模仿視頻裏的人怎麼去做，而是學習行動之後會產生什麼樣的結果。這樣學習因果關系的好處是可以達到完全泛化，因為物理規律是統一的，只要發生在現實物理世界中，數據内含的因果關系一定是确定且統一的。這種方式使得學習效果不受限于數據質量，能夠大大降低數據收集成本，解決了世界範圍内在構建通用操作模型過程中數據消耗量巨大、需要大量高質量數據的問題。

此外，星動紀元的技術團隊已将世界模型融入原生機器人大模型中，使其模型不僅具備行動能力，還具備了對物理世界的理解能力，能夠對未來行動軌迹進行預測，有效提升了機器人執行任務的高效性和準确性。

後期，星動紀元探索了融合世界模型的原生機器人大模型

星動論文 Prediction with Action: Visual Policy Learning via Joint Denoising Process 發表在 NeurIPS 2024

通過融合世界模型的方法，星動紀元的機器人還能迅速響應外部幹擾，并在任務執行過程中持續自适應優化行為，直至任務完成。該方法開辟了訓練通用原生機器人大模型的新道路。

星動紀元打造的端到端原生機器人大模型 ERA-42 是業内獨創的 AI 原生學習新範式。憑借其預測能力，ERA-42 具備強大的泛化、自适應和規模化能力。結合星動紀元為 AI 打造的全新硬體平台，可快速實現具身智能體軟硬體協同進化和商業化落地。

3. 星動紀元端到端原生機器人大模型 ERA-42 引領具身大模型進入通用靈巧操作時代

1）相比夾爪，星動 XHAND1 已經可以完成 100 多種精細化、智能化的復雜靈巧操作任務

相比夾爪，基于 ERA-42 的能力 , 五指靈巧手星動 XHAND1 已經能夠真正像人手一樣可使用包括不限于螺釘鑽、錘子、取液槍等更多種多樣的工具，完成更通用、靈巧性更強、復雜度更高的百種以上操作任務。

基于 ERA-42, 五指靈巧手星動 XHAND1 相比夾爪能使用更多不同工具執行更靈巧的操作

2）星動紀元原生機器人大模型 ERA-42 能理解物理世界與預測未來

融合世界模型後，ERA-42 具備對物理世界的理解以及對未來的預測的能力，從而大幅提升了泛化能力和任務成功率。例如，下圖中上方的圖片展示了真實物理世界中打開冰箱的逐幀操作，下方的圖片則為 ERA-42 生成的環境建模與對打開冰箱任務的逐幀預測。可以看到兩張圖片非常接近，説明模型預測非常準确，并且很符合物體遮擋關系、動作時序等物理規律，模型甚至能夠更進一步預測打開冰箱門之後，冰箱裏可能會放置的物品。這與其他機器人大模型直接學習行動、而忽視對世界本身理解的方式，或者僅将世界模型用于生成仿真數據的方式，存在本質的區别。

真實世界執行任務和 ERA-42 預測執行任務對比圖

3）星動紀元原生機器人大模型 ERA-42 具備更強泛化能力

以靈巧手的操作泛化能力為例，通過基于大規模視頻數據的預訓練，只需采集少部分數據，基于 ERA-42 的泛化能力，短時間内通過單一的策略就能學會執行新的操作任務。每一種操作都是通過一句自然語言文本或語音，以及攝像頭的感知姿态作為輸入，直接端到端輸出執行操作，能夠泛化到新的、未見過的環境或任務，即便面對未曾接觸過的物體，靈巧手也能順利完成操作任務。此前，星動紀元技術團隊就通過這種訓練方式采集簡單的紅黃藍方塊抓取數據，成功實現了從未見過的多樣化物體（如胡蘿卜、茄子等）的抓取泛化，并相對其他模型算法在泛化任務上顯著提升了成功率。

通過簡單彩色方塊的抓取數據實現多樣化物體的泛化抓取操作

4）星動紀元原生機器人大模型 ERA-42 具備更強自适應性

由于融合了世界模型，ERA-42 能夠迅速響應外部幹擾，自适應調整完成任務。從下述視頻可以看到，面對長序列的任務，它可以快速響應幹擾，中間沒有任何停頓，靈巧手星動 XHAND1 馬上就可以識别出來東西被挪開了，能自主優化調整操作，直至完成操作任務。可見，ERA-42 不管在單任務上，還是長序列任務上都展現出了業内領先的強大抗幹擾能力。

面對長序列任務機器人展示出端到端快速響應幹擾并進行自主優化能力

5）星動紀元原生機器人大模型 ERA-42 初步體現 "Scaling 效應 "

并且研究結果表明，随着模型規模的擴大，任務成功率也明顯提升，初步體現了和大語言模型訓練中類似的 "Scaling 效應 "，即模型規模與性能之間的正相關性。

"Scaling 效應 " 顯示模型與機器人性能呈現正相關性

4. 星動紀元端到端原生機器人大模型ERA-42和為 AI打造的全新硬體平台協同進化，共建原生具身智能體

構建通用具身智能體需要軟硬體協同迭代，這是與大語言模型的本質區别。大語言模型從本質上只需要數據和算法的迭代，而具身智能則需要把本體也一起囊括進來，即需要本體、算法和數據一起聯合迭代、優化和進化。就像人類的腦和身體是從小到大同步協同成長的一樣。

構建原生通用具身智能體 = 原生機器人大模型 + 為 AI 定義的硬體平台協同進化

因此，星動紀元打造了為 AI 定義的全新硬體平台。以人形機器人的核心執行末端靈巧手為例，星動自研推出的五指靈巧手星動 XHAND1 共有 12 個主動自由度，其中拇指和食指各有 3 個自由度，其他三指各有 2 個自由度，食指可側擺，拇指具有大範圍活動能力，能夠實現多手指間靈活協同動作，如拇指能與小指對指、擰瓶蓋等動作。此外，星動 XHAND1 采用的是純電驅方式，且每個自由度都有對應的驅動源，能夠獨立控制所有手指的每個自由度，實現全自主五指關節驅動，具備高度的靈活性和精确性，能夠執行高精度任務。

星動 XHAND1 每個手指配備一個高分辨率 ( >100 點 ) 觸覺陣列傳感器，提供精确的三維力觸覺和温度信息。單手最大握力能達 80N，可舉起 25kg 以上的啞鈴。

星動 XHAND1 — 全自驅真自由‍‍‍‍

星動 XHAND1 在作業能力上展現出更強的操作靈活性、精準度、負載能力和可靠性，在協同 ERA-42 後，為實現多樣化、精細化、智能化的復雜靈巧操作任務奠定了堅實基礎，引領行業開啓具身智能體通用靈巧操作時代。

依托 ERA-42，星動紀元通用人形機器人執行任務的通用性和泛化性将大幅提升，結合此前發布的在復雜多樣的地形上穩定行走和奔跑的運動性能，配合上下肢協同作業能力，潛在應用場景也将更加多元化，真正實現原生的通用具身智能體的產業化落地。基于端到端原生機器人大模型和為 AI 定義的硬體平台，星動正在推動原生通用具身智能體的廣泛應用，加速實現機器人服務千行百業，走進千家萬户的願景。