今天小編分享的科學經驗:鵝廠機器狗搶起真狗「飯碗」!會撒歡兒做遊戲,遛人也賊6,歡迎閱讀。
讓機器狗學完真狗子的運動數據,真有二哈那感覺了!
它輕松跨個欄,後面 " 主人 " 差點沒跟上:
鑽個 " 狗洞 " 倒是輕車熟路:
還能兩只狗一起撒歡兒,它追、它逃……
這就是鵝廠機器狗的最新進展。
利用預訓練模型喂給機器狗真狗子的運動數據、并通過強化學習,機器狗 Max 不僅在行為上更靈動,而且還能根據已經掌握的技能 " 舉一反三 ",去适應更加復雜的環境。
總結來說,就是裡裡外外都 " 更狗 " 了一些。
有策略地追逐撒歡兒
這次機器狗學習的新技能裡,最強的一項還是玩遊戲。
機器狗不僅能遵守規則,還能自己想出策略赢比賽,可能比真狗子還要聰明些。
具體來看,這是一個障礙追逐比賽,受到 "World Chase Tag" 啟發,規則如下:
研究人員設定了不同遊戲難度,最簡單的就是空曠場地:
玩遊戲過程裡,機器狗很明顯是有策略的。
比如,一般等到躲避者離棋旗子較遠時,追擊者才會發起猛攻,把它逼到死角,遊戲結束。
如果追擊者發現躲避者離旗子很近,自己根本沒機會追上它時,它會先放棄追逐,等待下一個旗子出現:
有障礙物幹擾也沒關系,倆狗子一樣玩得很 6:
而能夠有如此表現,并不是機器狗從一開始就拿這個遊戲訓練。
它其實是基于自己已經學到的一些動作、知識和技能,來應對這個遊戲場景。
具體怎麼實現?往下看。
學了真 · 狗的數據
研究一共分為三個階段。
學習動物運動姿态
将運動姿态和外界感知聯系起來
附加網絡獲取和復雜任務有關信息
第一階段,是通過遊戲中常用的動作捕捉系統,通過收集真狗的姿态數據,包括走、跑、跳、站立等動作,在仿真器中構建一個模仿學習任務。
然後将這些數據中的信息抽象并壓縮到深度神經網絡模型中,使其在涵蓋運動姿态信息的同時,還具有一定可解釋性。
騰訊 RoboticsX 機器人實驗室和騰訊遊戲合作,用遊戲技術提高了仿真引擎的準确性和高效性,同時遊戲制作和研發過程中積累了多元的動捕素材。
這些技術以及數據對基于物理仿真的智能體訓練以及真實世界機器人策略部署也起到了一定的輔助作用。
在模仿學習的過程中,神經網絡僅接受機器狗的本體感知信息作為輸入,例如機器人身上電機的狀态等。
再下一步,模型引入周邊環境的感知數據,例如通過其他傳感器 " 看到 " 的腳下的障礙物。
第二階段,通過額外的網絡參數,将第一階段掌握的動物姿态和外界感知聯系在一起。
這樣機器狗就能通過已經學會的動作,來應對外界環境。
當機器人能夠适應多種復雜的環境後,這些将動物姿态與外界感知聯系在一起的知識也會被固化下來,存在神經網絡結構中。
然後機器狗就能自如上樓梯了。
或者在不連續、不平整地面上奔跑:
然後就到了最後一階段,讓機器狗根據上面學會的技能,去解決實際問題
也就是上面提到的做遊戲環節。
據介紹,遊戲中機器狗的所有控制策略都是神經網絡策略。
在仿真中進行學習并通過zero-shot transfer ( 零調整遷移),讓神經網絡模拟人類的推理方式,來識别從未見過的新事物,并把這些知識部署到真實機器人上。
比如在預訓練模型中學會了躲避障礙物的知識,那麼在遊戲裡設定障礙,機器狗也能輕松應對。
本次研究新進展由騰訊 Robotics X 機器人實驗室帶來。
該實驗成立于 2018 年,目前推出的機器人項目包括機器狗 Max 一代 / 二代、機器狗 Jamoca、輪式機器人 Ollie、自平衡自動駕駛摩托車等。
One More Thing
值得一提的是,之前 UC 伯克利的學者也将一種 " 真狗子 " 的訓練方法,用在了機器狗上。
吳恩達開山大弟子 Pieter Abbeel 等,讓機器狗自己在地上打滾一個小時,學會了走路。
而去年騰訊發布機器狗 Max 二代時,一段小花絮裡,這狗會 " 撲腳 "、" 撒歡跑 ",确實有家裡毛孩子那味兒。
(當然,如果想讓它成為一只聽主人話的狗, 通過指令即可對其發号施令。)
咱就是說,現在機器狗的發展方向,不朝着翻跟頭卷,反倒是要和真狗子 " 搶飯碗 " 了嗎?
參考鏈接:
https://tencent-roboticsx.github.io/lifelike-agility-and-play/