斯坦福炒蝦機器人爆火全網，華人團隊成本22萬元，能做滿漢全席還會洗碗 - 大酷樂

今天小編分享的科技經驗：斯坦福炒蝦機器人爆火全網，華人團隊成本22萬元，能做滿漢全席還會洗碗，歡迎閲讀。

今天，大家都被斯坦福華人團隊的這個炒菜機器人刷屏了。僅用 50 個演示，就能讓機器人完成各種復雜任務。最重要的是，打造成本 22 萬，項目全部開源。

今天，會做一大桌子菜的斯坦福機器人 Mobile ALOHA 刷屏全網。

滑蛋蝦仁、幹貝燒雞、蚝油生菜，色香味俱全，看着很誘人。

就拿滑蛋蝦仁這道菜來説，Mobile ALOHA 在燒水的過程中先打上 3 顆雞蛋，然後把蝦仁放到水中焯熟，平底鍋倒入雞蛋液再加入蝦仁，攪拌幾下，一道菜完成了。

再看幹貝燒雞的制作過程。

首先，将去骨雞腿肉煎至兩面金黃，再加入幹貝等調料之後，悶個 20 分鍾即可。

最後擺盤時，再撒上一小撮葱花，完美。

至于蚝油生菜，機器人「大廚」的基操也是非常娴熟。

甚至，還能切蒜末。

網友看後紛紛表示，我們簡直生活在未來！用不了多久快餐店做漢堡的工作要全面被機器人取代！

就連 Pytorch 之父稱贊道，很酷的新家機器人平台，很高興看到更多的工作在這個方向上！

這個由斯坦福三人團隊研發的全新移動機器人 Mobile ALOHA，可以通過模仿學習，執行各種復雜的任務。

它不僅可以自主操作，還可以支持全身遠程操控。

值得一提的是，機器人的成本僅為 32000 美元（約 22 萬），甚至軟體和硬體全部開源。

論文地址：https://mobile-aloha.github.io/resources/mobile-aloha.pdf

研究人員每個任務只用了 50 個演示，便讓 Mobile ALOHA 機器人始終如一地做一件事，比如連續 9 次擦拭灑在桌子上的葡萄酒，連續 5 次乘坐電梯。

它還可以在受幹擾的情況下，把鍋放入碗櫃。即便是訓練數據中看不到的椅子，也能夠擺正。

50 個演示如何就讓機器人擁有如此強大的學習能力？

作者解釋關鍵在于，利用靜态 ALOHA 數據共同訓練模仿學習算法。這能持續提高性能，尤其是在需要精确操作的任務中。

再來看一波 Mobile ALOHA 炫酷的演示吧！

清洗平底鍋：

和人擊掌：

炒蝦仁：

此外，還可以遙控 Mobile ALOHA 完成一些更加精細的工作。

比如把紙抽出來擦玻璃。

以及用笤帚掃地等等。

機器人元年強勢開局

2024 年還沒到來之前，許多大佬都在預測機器人便是今年除了大模型，另一件重要的研究領網域。

沒錯，2024 年将會是機器人元年。

一般來説，開發通用機器人一個非常有前途的方法是，從人類提供的演示中進行模仿學習。

這種「行為克隆」可以讓機器人學習各種原始的技能，從簡單的拾放操作，到更精細的操作等等。

然而，現實生活中許多任務，都需要全身協調的機動性，以及靈巧操作，而非單獨的移動或操作行為。

這篇論文中，作者研究了将「模仿學習」擴展到需要雙臂移動機器人全身控制的任務可行性。

當前，有兩個主要因素阻礙了「模仿學習」在雙臂機器人移動操作中的廣泛應用。

一是，缺乏即插即用的「全身遠程操控硬體」。

如果購買現成的，雙臂移動操作器成本會很高，比如 PR2 和 TIAGo 這樣的機器人價格超過 20 萬美元。為了在這些平台上實現遠程操控，額外的硬體和校準也是必要的

二是，之前的機器人學習研究中，尚未證明對于復雜任務的高性能雙臂移動操作。

在本文中，研究人員試圖解決将「模仿學習」應用于雙臂移動操作的挑戰。

在硬體方面，作者引入了機器人 Mobile ALOHA，一個低成本的全身遙作業系統，用于收集雙臂移動操作數據。

通過将其安裝在輪式底座上，Mobile ALOHA 擴展了原始 ALOHA 的能力，即低成本和靈巧的雙人木偶操縱設定。

然後，用户将身體栓在系統上，反向驅動輪子，以便底座移動。

當用户雙手控制 ALOHA 時，底座可以獨立移動。研究人員同時記錄底座速度數據和手臂操縱數據，形成一個全身遠程操控系統。

成本只需 3 萬刀

值得一提的是，斯坦福團隊在打造 Mobile ALOHA 的所有成本僅用了 3 萬美元。

在具體的機器人設計中，它們綜合考慮了四個關鍵的因素：

- 移動：系統的移動速度可與人類行走的速度相媲美，大約每秒 1.42 米。

- 穩定性：當操作重型家用物品，如鍋和櫥櫃時，能夠保持穩定。

- 全身遠程操控：所有自由度都可以同時遙操作，包括手臂和移動底座。

- 不受束縛：機載電源和計算

如下圖所示，可以清楚地看到 Mobile ALOHA 的技術規格。

Mobile ALOHA 有 2 個腕部攝像頭，和 1 個頂部攝像頭，并配有機載電源和計算。

另外，遠程操作裝置可以拆除，Mobile ALOHA 自主執行時只使用 2 個 ViperX 300。兩只手臂的最低 / 最高高度分别為 65 厘米 /200 厘米，并從底座伸出 100 厘米。

研究人員選擇 AgileX Tracer AGV（Tracer）作為了移動底座，這是一個專為倉庫物流設計的。

其移動速度可以達到 1.6m/s，接近人類的平均步行速度。它的最大有效載荷為 100 千克，高度為 17 毫米。

值得一提的是，Tracer 在美的售價為 7000 美元，比同等速度和有效載荷的 Clearpath 的 AGV 便宜 5 倍多。

然後，研究人員試圖在 Tracer 移動底座和 ALOHA 機械臂的基礎上設計一個全身遠程操控系統，即一個可以同時控制底座和兩個機械臂的遠程操控系統。

而将操作員的腰部拴在移動底座上的設計是最簡單直接的解決方案，這樣可以反向驅動車輪，而車輪在扭矩關閉時摩擦力非常小。

為了改善人體工程學和擴大工作空間，團隊還安裝了 4 個 ALOHA 手臂都面向前，不同于原始面向内的 ALOHA 手臂。

此外，為了讓 Mobile ALOHA 不受束縛，作者在底部配置了 1.26 千瓦時重 14 公斤的電池。同時還可以起到平衡作用，避免翻到。

在數據收集和推理過程中的所有計算都在一台消費級筆記型電腦上進行，該筆記型電腦配有 Nvidia 3070ti GPU （8gb VRAM）和 Intel i7-12800H。

以上便是 Mobile ALOHA 設計的重要組件。

一些開發細節

材料價格一覽

有興趣的小夥伴可以查看他們的官方文檔：https://docs.google.com/document/d/1_3yhWjodSNNYlpxkRCPIlvIAaQ76Nqk2wsqhnEVM6Dc/edit

協同學習，提升「模仿學習」性能

硬體得到了，接下來便是使用數據進行協同訓練。

論文中，研究人員使用一個協同訓練管道，利用現有的靜态 ALOHA 數據集，以改善模仿學習在移動操作，特别是雙手臂操作的性能。

靜态 ALOHA 數據集總共有 825 個演示任務，包括密封袋子、拿起叉子、包裝糖果、撕紙巾、打開帶蓋塑料杯、玩乒乓球、使用咖啡機、翻轉鉛筆、固定魔術貼電纜、裝上電池和操作螺絲刀。

然後，研究人員選擇了 7 個任務，讓 Mobile ALOHA 去完成。

對于機器人需要清理灑在桌子上紅酒的任務，需要機動性和雙手靈活性。

具體來説，機器人需要首先導航到水龍頭，拿起毛巾，然後導航回到桌子。

然後一只手臂舉起酒杯，另一只手臂需要用毛巾擦拭桌子和杯底。這個任務在靜态 ALOHA 中是不可能完成的，單臂移動機器人需要更多的時間來完成。

對于炒蝦仁來説，機器人需要将一個生蝦兩面煎熟，然後把它放進碗裏。

機動性和雙手靈活性也是這項任務的必要條件：機器人需要從灶台移動到廚房台，用鏟子翻動蝦仁，而另一只手臂還需傾斜平底鍋。

這項任務要求比擦酒精度更高，因為翻轉半熟的蝦需要更高的精度。

同樣，對于清洗平底鍋、收納鍋、乘坐電梯、推椅子、擊掌的任務，Mobile ALOHA 也能熟練地完成。

下圖是機器人在執行任務時的導航移動軌迹。

50 個演示，80%+ 成功率

實驗評估中，研究人員主要為了回答兩個核心問題：

（1）通過協同訓練和少量移動操作數據，Mobile ALOHA 能否掌握復雜的移動操作技能？

（2）Mobile ALOHA 能否使用不同類型的模仿學習方法，包括 ACT、擴散策略和基于檢索的 VINN？

研究發現，協同訓練可以提高 ACT 性能。在 7 項具有挑戰性的移動操作任務中，與靜态 ALOHA 數據集進行協同訓練可持續提高 ACT 的成功率。

這對于乘電梯時需要按鍵、清洗鍋時需要打開水龍頭，等子任務尤為重要，因為在這些任務中，精确操作是瓶頸所在。

另外，Mobile ALOHA 與「模仿學習」方法兼容。

帶分塊的 VINN、擴散策略和 ACT 在 Mobile ALOHA 上都取得了良好的性能，并且受益于與靜态 ALOHA 的協同訓練。

協同訓練針對不同數據組合，其表現也是非常穩健。如下是使用 ACT 進行擦拭酒的任務訓練後的成功率。

協同訓練和預訓練效果對比如下。協同訓練在擦拭酒的任務中的表現，成功率 95%，大大優于預訓練的成功率 40%。

另外，用户使用 Mobile ALOHA 遠程操控未見過的任務時，可以迅速接近專家級速度。

總而言之，僅用 32000 美元的預算，通過靜态 ALOHA 數據協同訓練的模仿學習，Mobile ALOHA 只需要 20-50 個演示就能學會各種復雜的任務。

斯坦福 Mobile ALOHA 向所有人展示了機器人在各種應用場景的潛力，甚至機器人開源實現了人人可復刻。

網友表示，機器人學是一門既需要硬體又需要算法的系統研究。我猜在 2024 年，我們将在現實世界中看到越來越多的機器人。

作者介紹Zipeng Fu（項目共同負責人）

Zipeng Fu 是斯坦福大學 AI 實驗室的計算機科學博士生，導師是 Chelsea Finn。同時也在 Google DeepMind 擔任學生研究員，與 Jie Tan 合作。

此前，他在卡内基梅隆大學（CMU）攻讀機器學習領網域的碩士學位，并在機器人學院（Robotics Institute）擔任學生研究員，導師是 Deepak Pathak 和 Jitendra Malik。

他在加州大學洛杉矶分校（UCLA）獲得了計算機科學與應用數學的學士學位，導師是 Song-Chun Zhu。

他的研究興趣集中在機器人學、機器學習和計算機視覺的交匯處。并致力于研究在復雜多變的開放世界中實現穩定性能和可實際部署的機器人系統。

他的研究得到斯坦福研究生獎學金的支持，并且還是 Pierre 和 Christine Lamond 獎學金的得主。

Tony Z. Zhao（項目共同負責人）

Tony Z. Zhao 是斯坦福大學的計算機科學博士生，導師是 Chelsea Finn。同時也在 Google DeepMind 擔任兼職研究助理。

在此之前，他于 2021 年在加州大學伯克利分校（UCB）獲得了電子與計算機科學（EECS）學士學位，導師是 Sergey Levine 和 Dan Klein。并曾在特斯拉 Autopilot 和谷歌 X Intrinsic 實習。

他的目标是使機器人能夠完成復雜而精細的操控任務。

Chelsea Finn

Chelsea Finn 是斯坦福大學計算機科學與電氣工程的助理教授。研究興趣是機器人及其他智能體能夠通過學習和互動來展現出的智能行為。

她的實驗室 IRIS 致力于通過大規模的機器人互動研究智能，并且是 SAIL 和 ML Group 的合作實驗室。同時，她也在 Google Brain 團隊擔任研究工作。

此前，她在加州大學伯克利分校（UCB）獲得了計算機科學博士學位，并在麻省理工學院（MIT）取得了電氣工程與計算機科學的學士學位。