今天小編分享的科學經驗:MIT推出拾物機器人「最強輔助」,少量訓練樣本即可實現自然語言控制,歡迎閱讀。
MIT 的這項新成果,讓取物機器人變得更聰明了!
不僅能理解自然語言指令,還可以拾取沒見過的物體。
麻麻再也不用擔心我找不到東西了!
研究人員将 2D 特征嵌入了三維空間,構建出了用于控制機器人的特征場(F3RM)。
這樣一來,在 2D 影像中構建的影像特征和語義數據,就能被三維的機器人理解并使用了。
不僅操作簡單,訓練過程中需要的樣本量也很小。
低訓練樣本實現輕松取物
我們可以看到,在 F3RM 的幫助下,機器人可以娴熟地拾取目标物體。
哪怕要找出機器人沒遇見過的物體,同樣不是問題。
比如……大白(玩偶)。
對于場景中的同種物品,可以根據顏色等信息進行區别。
比如分别拾取同一場景中藍色和紅色兩種不同的螺絲刀。
不僅如此,還可以要求機器人抓取物體的特定位置。
比如這個杯子,我們可以指定機器人抓住杯身或者杯把。
除了拾取問題,還可以讓機器人把拾到的東西放到指定位置。
比如把杯子分别放到木制和透明的支架上。
團隊提供了完整的,沒有經過篩選的實驗結果。他們在實驗室周邊随機選取了 out-of-distribution (訓練集外)測試樣本。
其中使用 CLIP ResNet 特征的 特征場 在三成以上的測試樣本中 (78%)成功抓取和放置。在基于開放性人工語言指令的任務上,成功率在 60%。該結果沒有經過人工選擇 (cherry-picking),因此對特征場在零微調情境下的表現有客觀的描述。
那麼,如何利用 F3RM 幫助機器人工作呢?
将 2D 特征投射到三維空間
下面這張圖大致描述了利用 F3RM 幫助機器人拾取物品工作流程。
F3RM 是一個特征場,要想讓它發揮作用,首先要得到有關數據。
下圖中的前兩個環節就是在獲取 F3RM 信息。
首先,機器人通過攝像頭對場景進行掃描。
掃描過程會得到多個角度的 RGB 影像,同時得到影像特征。
利用 NeRF 技術,對這些影像做 2D 密度信息提取,并投射到三維空間。
影像和密度特征的提取使用了如下的算法:
這樣就得到了這一場景的 3D 特征場,可供機器人使用。
得到特征場之後,機器人還需要知道對不同的物體需要如何操作才能拾取。
這一過程當中,機器人會學習相對應的六個自由度的手臂動作信息。
如果遇到陌生場景,則會計算與已知數據的相似度。
然後通過對動作進行優化,使相似度達到最大化,以實現未知環境的操作。
自然語言控制的過程與上一步驟十分相似。
首先會根據指令從 CLIP 數據集中找到特征信息,并在機器的知識庫檢索相似度最高的 DEMO。
然後同樣是對預測的姿勢進行優化,以達到最高的相似度。
優化完畢之後,執行相應的動作就可以把物體拾起來了。
經過這樣的過程,就得到了低樣本量的語言控制取物機器人。
團隊簡介
研究團隊成員全部來自 MIT 的 CSAIL 實驗室(計算機科學與人工智能實驗室)。
該實驗室是 MIT 最大的實驗室,2003 年由 CS 和 AI 兩個實驗室合并而成。
共同一作是華裔博士生 William Shen,和華人博後楊歌,由 Phillip Isola 和 Leslie Kaelbling 監督指導。他們來自于 MIT CSAIL(計算機和人工智能實驗室)和 IAIFI(人工智能和基礎相互作用研究院 )。 其中楊歌是 2023 年 CSAIL 具身智能研讨會 ( Embodied Intelligence Seminar ) 的共同籌辦人 .
左:William Shen,右:楊歌
論文地址:
https://arxiv.org/abs/2308.07931
項目主頁:
https://f3rm.github.io
MIT 具身智能 團隊
https://ei.csail.mit.edu/people.html
具身智能研讨會
https://www.youtube.com/channel/UCnXGbvgu9071i3koFooncAw