今天小編分享的科學經驗:李飛飛團隊具身智能新作:500美元,一切家務機器人幫你幹,歡迎閱讀。
現如今機器人又是跑步又是後空翻,但到底什麼時候能做上家務給人類養養老?
現在,為了挑戰這個難題,李飛飛團隊帶來了具身智能研究最新成果—— ( ) ,一個解決機器人在家庭任務中全身操作問題的綜合框架。
并且,其核心組件的實現成本還不到 500 美元。
機器人學習領網域中的一個" 聖杯 " 級挑戰是執行通用的日常家庭移動操作任務。借助一款新型雙臂移動機器人,我們的最新成果—— BRS 正在嘗試攻克這一極為困難且尚未解決的難題!
擰開門把手,早上出去丢個垃圾:
等大人上班後,再幫忙整理下雜貨架:
順帶收拾下客廳,将髒碗放到洗碗機裡:
然後任勞任怨,再裡裡外外刷幹淨馬桶:
吭哧吭哧一頓收拾下來,一個機器人就把所有家務活包圓了。
而且研究團隊還發現,即使幹活時出了岔子,機器人也能自我糾正。
(一開始手臂範圍無法夠着馬桶蓋,然後有一個向前傾斜身體的動作)
網友們紛紛表示,離實現可通用的家庭機器人又更進一步了。
那麼,李飛飛團隊究竟是如何做到的?
核心瞄準三項全身控制能力
根據論文介紹,通過細致分析 BEHAVIOR-1K(包含 1000 項日常家庭活動的機器人測試基準),團隊首先确定了機器人成功完成各種家務活動所必需的三項全身控制能力:
兩只機械手臂之間的協同配合能力;
穩定精确的導航;
機械手臂末端執行器擁有廣泛的可操作範圍和觸及能力;
尤其是最後一項,大多數人可能忽視了末端執行器控制這一關鍵能力。
因為在家庭環境中,日常物品通常位于不同高度和位置,因此機器人也必須相應地調整其伸展範圍。
基于上述考慮,團隊認為給家務機器人配備雙臂、移動底座和靈活軀幹,是實現全身操作的關鍵。
具體而言,他們選擇了 Galaxea R1 機器人(國内星海圖出品)作為硬體,其具備兩個 6 自由度手臂(每個手臂都配備了一個平行鉗口夾持器)、4 自由度軀幹和全向移動底座,能滿足家庭任務所需的關鍵能力。
不過,這類復雜設計給策略學習方法帶來了重大挑戰,尤其是在數據規模化采集和全身協作方面。
對此,BRS 通過兩項關鍵創新來解決軟硬體協同問題:
推出 JoyLo,一種通用的低成本全身遙操作接口;
提出新的學習算法 WB-VIMA;
展開來說,JoyLo(Joy-Con on Low-Cost Kinematic-Twin Arms)通過基于操縱木偶的方法,利用運動學孿生臂和任天堂 Joy-Con 控制器,實現高效的全身控制。
同時提供豐富的用戶反饋,優化了策略學習數據質量。
在總成本不超過 500 美元的情況下,團隊在 R1 機器人上實現了 JoyLo 的設計目标:
高效的全身協調控制系統,實現復雜動作的流暢銜接;
豐富的用戶反饋機制,帶來直觀的遠程操作體驗;
确保高質量的示範動作,提升策略學習效果;
低成本實現方案,大幅提高系統可及性;
實時、便捷的控制器設計,确保操作無縫順暢。
而另一項 WB-VIMA(Whole-Body VisuoMotor Attention)學習算法,核心目标是利用機器人的固有運動學層次結構來建模全身動作。
基于 Transformer,通過自回歸全身動作去噪和多模态觀察注意力機制,WB-VIMA 能幫助機器人有效學習協調的全身動作。
同時在訓練和部署時,使用特定的優化器和噪聲調度器,并在工作站上進行推理以實現低延遲控制。
值得一提的是,WB-VIMA 還解決了一個關鍵問題:
尤其在人形機器人中,在移動基座或軀幹動作中出現的微小錯誤會在末端執行器處顯著放大。
對此,WB-VIMA 在預測下遊組件動作時,不是孤立地進行,而是先分析上遊組件當前的動作狀态、位置等信息,将這些信息作為條件和依據,去推算下遊組件應該做出怎樣的動作,從而實現整體的協調運動。
BRS 适用于各種家庭任務
研究團隊在五個具有代表性的家庭任務上評估 BRS,包括清潔房屋、清潔廁所、倒垃圾、放置物品到架子上和晾曬衣服。
結果表明,BRS 能完成多種家庭任務。
同時,實驗環節還進一步驗證了兩個創新方法的有效性。
整體而言,JoyLo 在數據收集效率、策略學習适用性和用戶體驗方面表現出色,WB-VIMA 在性能上優于基線方法。
對于 JoyLo,團隊對10 名參與者進行了全面的用戶研究,以評估 JoyLo 的效果及其收集數據對策略學習的适用性。
下圖為 JoyLo 與 VR 控制器和 Apple Vision Pro 進行比較的示意:
從結果來看,JoyLo 在所有接口中表現出色,任務成功率最高、完成時間最短,其完成任務平均成功率是 VR 控制器的 5 倍,而使用 Apple Vision Pro 無人能完成全部任務。
且在用戶研究中,所有參與者都認為 JoyLo 是最友好的界面。
另外,WB-VIMA 在所有任務中全面超越基準方法。
其端到端任務成功率比 DP3 高 13 倍,比 RGB-DP 高 21 倍;平均子任務表現分别優于 DP3(1.6 倍)和 RGB-DP(3.4 倍)。
而且 WB-VIMA 在任務中出錯的幾率更小。它與環境物體的碰撞極少,且幾乎不會因施加過度力量而導致電機失去動力。
最後,關于 BRS 框架的所有工作已全部開源,感興趣可以進一步了解。
項目主頁:
https://behavior-robot-suite.github.io/
論文:
https://arxiv.org/abs/2503.05652
算法代碼:
https://github.com/behavior-robot-suite/brs-algo
機器人代碼:
https://github.com/behavior-robot-suite/brs-ctrl
訓練數據:
https://huggingface.co/datasets/behavior-robot-suite/data
參考鏈接:
https://x.com/drfeifei/status/1899127976979226835