今天小編分享的科技經驗:重磅!DeepMind“機器貓”自學成才,能操作多個機器人、不依賴人類監督,歡迎閱讀。
智東西(公眾号:zhidxcom)
作者 | 雲鵬
編輯 | 心緣
智東西 6 月 21 日消息,剛剛,谷歌 DeepMind 推出了一種可以自我改進、自我提升(self-improving)的用于機器人的 AI 智能體,名為 RoboCat。
DeepMind 稱它是全球第一個可以解決和适應多種任務的機器人 AI 智能體,并且它可以在各類真實的機器人產品上完成這些任務。
▲ RoboCat 操控機械臂完成各種各樣的任務,來源:Google DeepMind
整體來看,RoboCat 最主要的突破在三個方面:
1、DeepMind 讓一個神經網絡能在多個不同的機器人上工作,可以快速操作新的機械臂,解決新的復雜任務。
2、RoboCat 學習的新任務越多,就越擅長學習和解決額外的新任務。
3、RoboCat 是通用機器人領網域的重要研究進展,能夠減少對人類監督訓練的需求。
▲ RoboCat 解決更多類型的任務,來源:Google DeepMind
AI 智能體可以自己操控機械臂,學習玩套圈、搭積木、抓水果了!效率極高,還不需要多少人力。
只需要通過 100 次左右的演示,RoboCat 就可以學會操控機械臂來完成各式各樣的任務,并且它還能通過自生成的數據來進行迭代改進。
最重要的是,不論是它操控的機械臂還是它要完成的任務,RoboCat 之前都從來沒見過。
▲ RoboCat 可以解決的各類任務,來源:Google DeepMind
這種" 通用性學習能力 "是 RoboCat 的強項,此外,RoboCat 最主要的特點就是" 學得快 ", 這種能力對于加快機器人領網域的研究有重要意義,因為有了這種能力,人類監督訓練的需求就會極大減少,這是創造通用機器人非常重要的一環。
在 DeepMind 演示視頻中,RoboCat 可以通過自主學習完成 " 套圈 "、" 搭積木 "、" 拿放水果 " 等任務。目前RoboCat 完成一項新任務的成功率已經從初期的 36% 提升至 74%。
▲ RoboCat 前後版本完成任務成功率對比,來源:Google DeepMind
并且根據 DeepMind 論文,RoboCat 完成現實世界訓練任務的成功率要遠高于傳統基于視覺的模型方案,領先幅度還是比較明顯的,這也是 DeepMind 研究的重要價值所在。
▲ RoboCat 與基于視覺的模型在完成現實世界訓練任務成功率方面的對比,來源:Google DeepMind
值得一提的是,RoboCat 用到的關鍵技術之一,是一種多模态模型(multimodal model)Gato,而 Gato 在西班牙語裡意為 " 貓 ",也就是 "cat",這也是 "RoboCat" 這一命名的由來之一。
此前研究人員已經在機器人大規模學習多種任務方面進行了探索,并将對語言模型的理解與現實世界的機器人能力相結合。而 RoboCat 的進步性在于,它是第一個可以解決和适應多種任務的機器人 AI 智能體。
DeepMind 認為,RoboCat 獨立學習技能、快速自我提升的能力,以及對于不同硬體設備的快速适應能力,将對新一代通用機器人 AI 智能體的發展起到重要推動作用。
論文地址:
https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/robocat-a-self-improving-robotic-agent/robocat-a-self-improving-foundation-agent-for-robotic-manipulation.pdf
一、套圈、搭積木樣樣精通,将水果從碗裡拿出來總共分幾步?
首先,我們來看看這個 RoboCat 到底能做什麼。
從 DeepMind 的演示視頻中我們可以看到,研究人員在機器人的攝像頭下面将物體擺好,機器人就會将擺好的物體狀态設定為 " 目标影像 ",在設定好目标影像後,研究人員會将物體的擺放位置還原,然後讓機器人操作還原剛才的物體擺放狀态。
▲ RoboCat 完成 " 套圈 " 任務,來源:Google DeepMind
在 " 套圈 " 這個任務中,RoboCat 可以很好的操控機械臂還原橘紅色圓圈的位置。
在同一類 " 套圈 " 任務中,RoboCat 還可以解決更復雜的情況,比如區分大圈和小圈并準确套在對應的金屬柱上。
▲ RoboCat 完成更復雜的 " 套圈 " 任務,來源:Google DeepMind
DeepMind 還演示了一個任務,就是抓水果。這個任務 RoboCat 已經在此前的訓練中看到過,但值得注意的是,此前的訓練數據中從來沒有過 " 人手 " 出現,這次研究人員給 RoboCat 設定的目标影像中卻包含了人手,最終,RoboCat 仍然可以順利完成任務。
▲ RoboCat 在目标影像有 " 人手 " 幹擾的情況下完成抓水果任務,來源:Google DeepMind
這還沒完,後續研究人員進一步提高難度,讓 RoboCat 操控了一個它之前從未見過的機械臂,這個機械臂跟之前抓水果用的有所不同,但最終 RoboCat 依然可以操控這一新的機械臂來成任務。
▲ RoboCat 操控從未見過的機械臂完成此前學過的任務,來源:Google DeepMind
在另一個 " 搭積木 " 的測試中,研究人員展示了 RoboCat 的另一項技能,當目标影像設定好後,不論初始積木位置是怎樣的,RoboCat 都可以很好的還原目标影像中的積木狀态。
▲當目标影像設定好後,不論初始積木位置是怎樣的,RoboCat 都可以很好的還原目标影像中的積木狀态,來源:Google DeepMind
除了搭積木,RoboCat 還可以完成将水果從碗裡拿進拿出這樣的任務。
二、基于超大數據集,還會自我迭代更新,五步就能掌握新本領
具體來看 RoboCat 背後的硬核技術,DeepMind 提到,RoboCat 用到了一種多模态模型 Gato,Gato 模型可以在模拟環境和物理環境中處理語言、影像和動作,研究人員将 Gato 的架構與一個大型訓練數據集進行了結合,這個數據集包含了各種機械臂解決數百個不同任務的影像序列和動作。
在第一輪訓練之後,研究人員讓 RoboCat 進入一個 " 自我提升(self-improvement)" 的訓練周期,在這個訓練周期中,RoboCat 會學習解決很多以前從未見過的任務。
每項新任務的學習分為五個步驟:
1、收集 100-1000 個由研究人員控制的機械臂完成的新任務演示。
2、在新任務所使用的機械臂上微調(Fine-tune)RoboCat,創建一個專用的衍生代理。
3、衍生代理在機械臂上練習 10000 次,以生成更多的訓練數據。
4、将演示數據和自生成數據合并到 RoboCat 的現有訓練數據集中。
5、在新的訓練數據集上訓練 RoboCat 的新版本。
▲ RoboCat 的訓練周期示意圖,它能夠自生成額外的訓練數據,來源:Google DeepMind
上述所有這些訓練的結合,意味着 RoboCat 的數據集将包含數百萬次的訓練軌迹數據,這些數據來自真實機械臂以及模拟機械臂,包括了 RoboCat 自生成的數據。
▲ RoboCat 從各種訓練數據類型和任務中學習,來源:Google DeepMind
研究人員總共使用了四種不同類型的機器人和各類機械臂來收集基于視覺的數據。
▲ RoboCat 使用現實和虛拟機械臂積累訓練數據,來源:Google DeepMind
三、RoboCat:一個 " 自我提升的通才 "
在上述這種多樣化的訓練方式下,RoboCat 可以在幾個小時内學會操作不同的機械臂,包括一些更加復雜的從未見過的機械臂。
RoboCat 可以操作這些機械臂完成之前見過的任務,比如套圈、拿取水果,甚至是在對應形狀的格子中放上對應形狀的物品,這些任務會考驗 RoboCat 操作的精準度、理解力以及對于形狀匹配難題的解決能力。
▲ RoboCat 用新機械臂完成此前學過的任務,來源:Google DeepMind
用 DeepMind 的話來說,RoboCat 是一個 " 自我提升的通才 ",因為它是基于一個良性的訓練循環來學習新任務。簡單來說,它學習的新任務越多,它就能更好地學習和解決額外的新任務。
最初版本的 RoboCat,在每個新任務進行 500 次演示後,只有 36% 的概率能成功的完成之前從未見過的任務,但是最新版本的 RoboCat 已經将這一成功率提升至 74%。
這些提升歸功于 RoboCat 不斷增長的經驗廣度,就像人類在特定領網域不斷深化學習,從而發展出更加多樣化的能力一樣。
今天,機器人在我們的生活中已經廣泛應用,但大部分機器人只能完成特定的任務,這些機器人基本上都是被提前編程設定好的。
在制造可以完成更多種類任務的 " 通用機器人 " 方面,研究進展一直很緩慢,因為收集現實世界中的訓練數據是非常費時費力的。
RoboCat 這種獨立學習技能、快速自我提升的能力,以及對于不同硬體設備的快速适應能力,将對新一代通用機器人 AI 智能體的發展起到重要推動作用。
結語:多模态 AI 模型引入,通用機器人研究再進一步
在全球 AI 研究熱點湧向大模型的當下,谷歌 DeepMind 似乎對大模型競賽并不熱衷,仍專注于解決 AI 如何與物理世界互動的問題,并将研究重心鎖定在優化機器人技術的基礎模型上。
而最新發布的 RoboCat,絕對是個了不起的 AI 模型。它通過視覺目标調節解決了不同平台的各種拾取和放置任務,只需 100 次演示就能學會在不同的機器人上執行各種任務,從自生成訓練數據提高技能的方法令人眼前一亮。
多模态 AI 模型的引入,為邁向通用機器人的歷程貢獻了又一個激動人心的進展!
來源:Google DeepMind