大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

機器人輕松模仿人類,還能泛化到不同任務和智能體!微軟新研究,學習人類和機器人統一動作表示

2024-10-24 简体 HK SG TW

今天小編分享的科學經驗:機器人輕松模仿人類,還能泛化到不同任務和智能體!微軟新研究,學習人類和機器人統一動作表示,歡迎閱讀。

讓機械臂模仿人類動作的新方法來了,不怕缺高質量機器人數據的那種。

微軟提出影像目标表示(IGOR,Image-GOal Representation)," 投喂 " 模型人類與現實世界的互動數據。

IGOR 能直接為人類和機器人學習一個統一的動作表示空間,實現跨任務和智能體的知識遷移以及下遊任務效果的提升。

要知道,在訓練具身智能領網域的基礎模型時,高質量帶有标籤的機器人數據是保證模型質量的關鍵,而直接采集機器人數據成本較高。

考慮到互聯網視頻數據中也展示了豐富的人類活動,包括人類是如何與現實世界中的各種物體進行互動的,由此來自微軟的研究團隊提出了 IGOR。

究竟怎樣才能學到人類和機器人統一的動作表示呢?

IGOR 框架如下所示,包含三個基礎模型:

Latent Action Model、Policy Model 和 World Model。

具體來說,IGOR 先是提出了潛在動作模型 LAM(Latent Action Model),将初始狀态和目标狀态之間的視覺變化壓縮為低維向量,并通過最小化初始狀态和動作向量對目标狀态的重建損失來進行訓練。

這樣一來,具有相似視覺變化的影像狀态将具有相似的動作向量,代表了他們在語義空間而非像素空間上的變化。

通過 LAM,可以将互聯網規模的視頻數據轉化為帶有潛在動作标注的數據,大大擴展了具身智能基礎模型能夠使用的數據量。

這個統一的潛在動作空間使團隊能夠在幾乎任意由機器人和人類執行的任務上訓練 Policy Model 和 World Model。

通過結合 LAM 和 World Model,IGOR 成功地将一個視頻中的物體運動 " 遷移 " 到其他視頻中。并且,這些動作實現了跨任務和跨智能體的遷移。

也就是說,用人的行為給機器人做演示,機器人也能做出正确的動作。如下圖所示,LAM 得到的潛在動作表示可以同時實現跨任務(用手移動不同物體)和跨智能體(用手的移動指導機械臂的移動)的遷移。

△Latent Action 實現跨任務和智能體的遷移

以下是模型架構的具體細節。

Latent Action Model

LAM 的目标是以無監督的方式從互聯網規模的視頻數據中學習和标注潛在動作,即給定視頻幀序列,對于每一對相鄰幀提取潛在動作表示。

為此,LAM 模型由一個 Inverse Dynamic Model(IDM)和 Forward Dynamic Model(FDM)組成。

IDM 的從視頻幀序列中提取潛在動作表示,而FDM 負責用學到的表示和當前視頻幀來重建接下來的視頻幀。

由于将潛在動作表示限定在較低的維度,因此 LAM 模型會将兩幀之間語義上的區别學習到之中。

值得注意的是,這種方式天然保證了學到的潛在動作是具有泛化性的。

如下圖所示, 在未見數據集上,LAM 學到的相似潛在動作反映了相似的語義,包括打開夾子、機械臂向左移動和關閉夾子,這些潛在動作在不同任務間共享,進而提升下遊模型的泛化性。

△Latent Action Model 在未見數據集上的表現 Foundation World Model

World Model 的作用是根據歷史視頻幀和未來多幀的潛在動作表示,生成在歷史幀的基礎上執行各個潛在動作之後的未來視頻幀。

為此,研究人員選擇從預訓練的視頻生成模型上進行微調,将條件從文本換成了潛在動作表示和 FDM 的重建輸出。

在具身智能的相關數據集上進行微調之後,研究人員觀察到 World Model 可以成功地在給定相同歷史幀時,針對不同的潛在動作表示生成相對應的未來視頻幀。

如下圖所示,此方法可以通過潛在動作和 World Model 控制不同物體的獨立移動。

△World Model 對于給定的不同潛在動作表示時的生成結果 Foundation Policy Model

Policy Model 的目标是在具體的下遊任務上,根據視頻幀和文本指令來預測智能體每一步要采取的動作。

在 IGOR 中,它的訓練分為了兩個階段。

在第一階段,Policy Model 将根據輸入的視頻幀和文本指令來預測 LAM 提取出的相應的潛在運動表示,從而建立從視頻幀到通用潛在運動表示的映射。

在第二階段,該模型則會根據文本指令、視頻幀以及第一階段模型預測出來的潛在動作表示共同預測下遊任務上具體的運動标籤。

和現有模型相比,第一階段預測出的潛在動作表示蘊含了完成該任務需要達成的短期目标,豐富了模型的輸入信息,因此提升了最終策略的任務成功率,如下圖所示。

△Policy Model 在下遊機器人任務上的表現

在相同的場景下給定不同的文本指令,研究人員也驗證了 Policy Model 的有效性,即模型可以根據不同的指令生成相應的潛在動作表示,進而通過 World Model 模拟執行相應的指令。

△Policy Model 和 World Model 對于不同文本指令的生成結果

總的來說,IGOR 提出了通過大量人類和機器人視頻預訓練學習動作表示并泛化到不同任務和智能體的新方法。通過從大量視頻中學到的動作表示,IGOR 可以實現機器人輕松模仿人類動作,進而實現更通用的智能體。

項目主頁:https://aka.ms/project-igor

論文:https://aka.ms/project-igor-paper

—  完  —

投稿請發郵件到:

[email protected]

标題注明【投稿】,告訴我們:

你是誰,從哪來,投稿内容‍

附上論文 / 項目主頁鏈接,以及聯系方式哦

我們會(盡量)及時回復你

點這裡關注我,記得标星哦~

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~  

>
熱門排行
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們