今天小編分享的科技經驗:3倍提速!現在你跑不過機器狗了,限制波士頓動力機器狗的竟然是電池功率?,歡迎閲讀。
當 Scaling Law 在觸頂邊界徘徊之時,強化學習為構建更強大的大模型開辟出了一條新範式。
在機器人領網域,強化學習也帶來了意外之喜。
這只上過好幾次全網熱搜的機器狗 Spot,想必大家都不陌生。
在原來的文章中,無論 Spot 做了什麼高難度動作,哪怕是邊噴火邊跳踢踏舞,後台總有留言,「為什麼波士頓動力不把機器人的腳做成輪式的?」
這是因為 Spot 總是優雅地、小心翼翼地踏着小碎步,沒辦法大步行走,相較于腳踩風火輪的輪式機器狗,不僅速度跟不上,也更容易受到地形限制。
士别三日,當刮目相看。幾個月不見,Spot 的「小步舞曲」已經成為過往,看看現在 Spot 大步流星的樣子,迅速敏捷,你和它賽跑都追不上了:
Spot 出廠時最快速度只有 1.6 米 / 秒。幾周前與波士頓動力官宣合作的 RAI 研究所帶來了最新突破,Spot 的跑步速度提升了近 3 倍,達到了時速 18.7 千米。
一只小型犬的平均奔跑速度大概是 20 千米 / 時,這兩個數字已經很接近了。
在傳統觀念中,大家可能認為機器人的速度主要受限于馬達性能。但當研究團隊用強化學習對機器狗的電機和動力裝置建模之後,發現了一個出人意料的事實。
在模拟環境中,可以并行訓練幾台 Spot 機器人(甚至幾百台),以實現強大的現實世界性能。
「真正限制 Spot 速度的,竟然是電池供電能力!」RAI 研究所的機器人專家 Farbod Farshidian 説道,「這個發現讓我們都很驚訝,因為之前都以為機器人的運動速度提不上去是在馬達的功率或扭矩之類的問題。」
Spot 的電力系統相當復雜,仍有進一步優化的空間。Farshidian 指出,阻止他們将 Spot 的最高速度推過 5.2 米 / 秒的唯一原因是他們無法訪問電池電壓,無法将這些實際數據納入他們的 RL 模型。
這意味着,如果能設計出更強勁的電池,Spot 的還能跑得更快。
有趣的是,當 Spot 以這個速度奔跑時,它的動作看起來和真實的狗完全不同。Farshidian 解釋説:「這個奔跑姿态确實不像生物,但這很正常 —— Spot 的驅動器和關節結構都和真狗不一樣,為什麼要用生物的方式來跑呢?」
Spot 的執行器不同于肌肉,運動學特性也不同,适合狗快速奔跑的步态不一定适合機器狗。
Spot 提速的關鍵在于,研究人員在小跑步态的基礎上,增加了一個四只腳同時離地的飛行階段。小步和飛行銜接起來,從技術上就變成了奔跑。
四腳離地的「飛行」階段
Farshidian 説:「這個飛行階段是必要的,因為機器人需要這段時間快速向前移動腳步來維持速度。」研究人員給機器人了「自主發現的空間」,因為這時,編程程式所要求的不是「奔跑」,而是去找到最高效的快速移動方式。
傳統的機器人控制使用模型預測控制(MPC)方法,就像給機器人一本詳細的「動作指南」。這種方法很可靠,但也很保守。
這由于要求計算機要在事件發生後立即響應,一旦沒有在短時間内完成復雜的運動規劃和控制,反映到機器人這裏就是動作遲緩或出錯了。
而強化學習則完全不同。它就像讓機器人在「虛拟道場」中不斷練習,找到最優的動作方案。一旦學會了,這些技能就能直接應用到現實中。
強化學習不僅能最大化機器人的性能,還能使其表現更加可靠。RAI 研究所一直在實驗一款全新的機器人 —— 一輛名為 UMV 的自行車。它采用了與 Spot 高速奔跑時基本相同的強化學習 RL 流程,用于平衡和駕駛訓練,并成功學會了跑酷動作。
更值得注意的是,UMV 沒有配備任何平衡陀螺儀,而是完全依靠 AI 來保持平衡的。
「強化學習的關鍵在于發現新的行為,并在那些難以建模的復雜條件下使其變得穩健和可靠。這正是強化學習真正大放異彩的地方。」RAI 研究所蘇黎世辦公室主任 Marco Hutter 表示,「一方面,強化學習幫助 UMV 在各種情況下保持穩定的駕駛能力;另一方面,它讓我們理解機器人的動态,更好地實現一些新動作,比如跳上比它本身還高的桌子。」
雖然 UMV 已經能很熟練地做各種特技動作了,但對于它來説,完成一些看似簡單的動作甚至更難,比如倒車。
不太會倒車
「UMV 倒車時很不穩定」,Hutter 解釋説,「使用經典的模型預測控制(MPC)控制器很難做到這個動作,尤其是地形崎岖或有幹擾的情況下。」
目前,RAI 研究所還在努力讓 UMV 走出實驗室,在復雜地形上來一場真正的自行車跑酷表演。
在「虛拟道場」中訓練 UMV 如何下樓梯
RAI 研究所表示,重點不在于這個某個特定的硬體能做什麼,而在于任何機器人通過 RL 和其他基于學習的方法能做什麼。機器人的硬體在理論上可以實現比用經典控制算法更多的功能。關鍵的問題是如何理解這些硬體系統中的隐藏限制,不斷突破控制的邊界。