今天小編分享的科學經驗:提出機器人自主學習新範式,深大團隊最新頂會論文,刷新6大復雜任務SOTA,歡迎閱讀。
讓機器人輕松學習復雜技能有新框架了!
深圳大學大數據系統計算技術國家工程實驗室李堅強教授團隊聯合鵬城國家實驗室、北京理工莫斯科大學,提出了獎勵函數與策略協同進化框架ROSKA。
在多個高維度機器人任務上,在僅使用 89% 訓練樣本的情況下,比現有 SOTA 方法平均性能提升 95.3%。
眾所周知,随着機器人技術的快速發展,其應用已滲透至日常生活和工業生產場景。
然而在多自由度機器人控制領網域,傳統強化學習方法高度依賴人工設計的獎勵函數。這類獎勵函數需在任意狀态轉移過程中提供有效反饋,否則可能導致學習策略性能不足,這對開放環境下的機器人自主學習構成了關鍵挑戰。
而 ROSKA 框架創新融合大語言模型的推理與代碼生成能力,使機器人在學習過程中能夠根據實時任務目标和策略表現動态調整獎勵函數,實現了獎勵函數與強化學習策略的協同進化,并在一系復雜機器人技能學習任務上取得突破性進展。
實驗結果顯示,ROSKA 框架在六類復雜多自由度機器人任務中均刷新了 SOTA 性能,相較于 NVIDIA 2023 年度十大進展之一的 Eureka 方法,ROSKA 方法在人類歸一化得分指标上平均性能提升高達 95%。
目前該成果被人工智能頂級會議 AAAI 2025 收錄,深圳大學助理教授黃暢昕作為第一作者,并在大會上做口頭報告(Oral)。
ROSKA 框架:獎勵 - 策略協同進化
在高維機器人控制任務中,獎勵函數的設計不僅需要考慮任務目标,還需要考慮機器人各個關節之間的復雜關系以及環境的動态變化。
傳統方法依賴專家經驗,設計周期長、成本高,難以推廣到復雜任務中。
盡管大語言模型(LLM)為自動生成獎勵函數提供了新思路,但現有方法(如 Eureka)仍需從頭訓練策略,導致訓練效率低下和計算資源浪費。
而 ROSKA 框架通過獎勵 - 策略協同進化機制,解決了上述問題。
ROSKA 框架的核心思想是将獎勵函數的設計與策略的優化過程緊密結合,形成一個動态進化的閉環,從而在減少數據使用量的同時,顯著提升策略的性能。
實驗結果表明,ROSKA 框架在多個高維機器人控制任務中表現優異。
獎勵函數 - 策略協同進化機制
ROSKA 框架通過将獎勵函數和策略的進化過程結合起來,使得兩者能夠相互促進、共同優化。
獎勵函數的進化過程可以根據策略的表現動态調整獎勵函數的設計,而策略的進化過程則可以利用歷史最優策略的知識來加速新獎勵函數下的策略優化,這種協同進化的方式不僅能夠提高訓練效率,還能夠提升策略的适應性和可塑性,使得機器人能夠在復雜環境中更快地學習和執行任務。
高效策略融合方法
在策略進化部分,ROSKA 框架通過融合歷史最優策略和随機策略來生成新的策略候選。
策略的進化過程通過結合歷史最優策略的知識和随機策略的探索能力,确保策略既能夠繼承已有經驗,又具備足夠的可塑性以适應新的獎勵函數。
為了高效找到最優的策略融合比例,ROSKA 采用了貝葉斯優化方法,通過評估不同融合比例下的策略表現,快速确定最優的融合方案。
實驗結果
實驗在 Isaac Gym 仿真環境中進行,選擇了六個具有代表性的機器人任務進行評估,包括 Ant、Humanoid、ShadowHand、AllegroHand、FrankaCabinet 和 ShadowHandUpsideDown。
實驗結果展示了 ROSKA 框架在多個高維機器人控制任務中的顯著性能提升,這些任務涵蓋了從簡單的運動控制到復雜的物體操作,能夠全面測試 ROSKA 框架在不同場景下的表現。
各方法在機器人任務中的 MTS 柱狀圖如下:
為了更直觀地比較不同方法的性能,團隊采用了人類歸一化得分 ( Human Normalized Score ) 作為評價指标。HNS 通過将算法的表現與人類設計的獎勵函數表現進行對比,提供了更直觀的性能評估。
如上圖所示,ROSKA 在所有任務中的 HNS 均超過了人類專家基線(紅色線條),表明其性能優于人類設計的獎勵函數。
特别是在 ShadowHand 和 FrankaCabinet 任務中,ROSKA 方法遠超其他基線方法。
與 SOTA 方法 Eureka 相比,ROSKA 在 HNS 指标上的平均改進率達到95.3%,進一步驗證了其在高維機器人控制任務中的優越性。其中在 ShadowHand 任務中,ROSKA 方法相比 Eureka 提升了 154.6%。在 ShadowHandUpsideDown 任務中,ROSKA 方法相比 Eureka 提升了 184.07%。
這些結果表明,ROSKA 通過獎勵 - 策略協同進化機制,能夠顯著提升策略的性能,尤其是在復雜任務中表現尤為突出。
整體而言,ROSKA 框架借助大規模合成數據與智能進化機制訓練而成,采用獎勵函數 - 策略協同進化機制,通過動态獎勵種群生成與短路徑貝葉斯優化策略實現雙向優化。
實驗驗證框架在多項高維度機器人控制任務中實現顯著突破。相比現有 SOTA 方法 Eureka,在僅使用 89% 訓練樣本的情況下,在多個高維度機器人任務上實現了平均 95.3% 的标準化性能提升,驗證了該框架在機器人技能學習任務中的強大适應能力。
更多方法和實驗細節,請參考論文。
項目地址:
https://github.com/NextMyLove/ROSKA
論文:
https://arxiv.org/abs/2412.13492
— 完 —
學術投稿請于工作日發郵件到:
标題注明【投稿】,告訴我們:
你是誰,從哪來,投稿内容
附上論文 / 項目主頁鏈接,以及聯系方式哦
我們會(盡量)及時回復你
一鍵關注 點亮星标
科技前沿進展每日見
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!