大翻車！斯坦福超火機器人自曝内幕，研究者救場還受傷了，網友：放心了 - 大酷樂

今天小編分享的科技經驗：大翻車！斯坦福超火機器人自曝内幕，研究者救場還受傷了，網友：放心了，歡迎閲讀。

爆火的斯坦福全能家務機器人Mobile ALOHA，大！翻！！車！！！

你以為它擦個紅酒輕而易舉，但實際上卻是這樣的：

全給你弄撒喽，順帶碎個杯子

……

你以為它能化身大廚娴熟烹炒，結果給你上演一個炒鍋底：

Mobile ALOHA 的翻車大合集還不止這些。

例如剛才炒完蝦的鍋，哎呦喂，一不小心沒拿住：

即使小哥一個箭步衝上去也沒阻止 " 悲劇 " 的發生（好像還燙到手了）。

這畫面，真是像極了莊嫂摔碗……

昨天還在 " 神壇 " 上的 Mobile ALOHA，一夜之間便被曝出了這麼多 " 笨手笨腳 " 的樣子，也是引來不少網友的圍觀。

然而，這次即使面對翻車鐵證，網友們的畫風卻是一反常态：

它并不完美，不過很可愛。

總會有犯錯的餘地。

最重要的是：

放心了。（手動狗頭）

這到底是怎麼回事？

斯坦福團隊自曝 " 醜聞 "

原來，這段機器人大翻車的視頻，就是由斯坦福 Mobile ALOHA 的作者 Tony Z. Zhao 發布的。

并且他還直言不諱地説道：

機器人還沒有做好準備接管這個世界。

而這段翻車視頻，正是機器人完全在自主模式下所犯的。

用作者的話來形容，就是" 最愚蠢的錯誤 "。

畢竟除了剛才我們展示的幾個例子之外，Mobile ALOHA 甚至連鍋都放不進櫥櫃裏：

炒完的蝦粘鍋倒不出來不説，連碗的位置也找不到：

拿支筆也沒法找對位置下手：

面對失敗合集，作者卻是打趣道：

這是我目前為止最喜歡的視頻了，（不過）當機器人在你面前犯錯的時候，你就不會覺得那麼有趣了。

确實，畢竟手都被燙了……

不過作者今天自曝這段視頻其實應該還有另外一個原因。

因為前兩天 Mobile ALOHA 神級現場的視頻确實引來了不小的關注度，不過很多人誤以為這是它在自主模式下完成的。

但其實，Mobile ALOHA 采用的是混合模式，并非完全自主，作者也呼籲網友們在吃瓜的同時認真看下論文和代碼。

值得一提的是，作者還引用了 2015 年波士頓動力 Atlas 人形機器人 " 翻車合集 " 并向它致敬。

或許這也正如英偉達科學家 Jim Fan 説的那樣：

一步一個腳印。

學習 50 次，成功率能到 90%

就在這兩天，Mobile ALOHA 團隊連續放出三個爆火視頻，展示了該機器人敏捷靈巧的家務能力，看呆網友。

包括做滿漢全席（磕雞蛋、給雞肉翻面這種細活都信手拈來）：

套枕套鋪床單：

澆花、拖地板、開瓶蓋，甚至逗貓貓：

那叫一個人模人樣，上得廳堂下得廚房。

不過，大部分都是真人操控的，比如上面這些。

更直觀的可以看下面這個抽紙擦玻璃的動圖，背後直接站了個人類 1:1 示範：

不過，對于一些相對簡單的任務，例如這個單炒蝦仁：

還有刷鍋、将餐椅歸位、呼叫并乘坐電梯、擦桌子等等，只需真人少量示教，它就可以學會，然後脱離人類進行自主操作。

具體而言，作者介紹，上面這些簡單動作目前只需要學習 50 次就可以做到 90% 的成功率——

經測試，Mobile ALOHA 可以連續 9 次擦幹倒灑了的酒、連續呼叫 5 次電梯都不會出錯，能夠保持一定的穩定性。

除此之外，它還能抗幹擾，在完成歸置鍋具到櫃子之中時，實驗人員不停向它面前投擲雜物，都完全沒有影響它發揮：

在訓練期間根本看不見的椅子？它也能準确識别并完成歸位任務。

那麼，作者是如何僅通過 50 個演示就讓 Mobile ALOHA 實現自主任務的呢？

最關鍵的是通過 ACT 或擴散策略進行模仿學習，然後和靜态操作數據一起對機器人系統進行聯合訓練。

有了這一聯合訓練方式，機器人的性能可以顯著提高，尤其是那種需要精确操作的任務。

最後，也再次為介紹一遍斯坦福大學的這個機器人成果：

它于今年 3 月底正式發布，歷經了 8 個月的迭代和 2 個月的測試。

一共三位作者，其中兩位為斯坦福計

算機科學專業的華人博士生（最後一位是導師）：

當時的這位機器人，就已經能夠利用工具完成各種精密細活了，只不過只能在固定的位置：

當然，背後也是真人遙控的。

而正如其名 ALOHA 全稱是 " ow-cost pen-source rdware System"，這款機器人主打的就是開源和低成本：

全部軟硬體設計包括代碼和數據都一并發布，而搭建這一個系統 " 只 " 需 3.2 萬美元（約合 22.7 萬人民币），具體需要哪些硬體，作者還列了個清單，感興趣的朋友可以照着 DIY。

機器人元年？

幾乎和斯坦福的爆火機器人同一時間，谷歌也發布了自家最新的研究成果，并且是一氣發了仨：

一個是将機器人決策速度提高 14%，同時保持操作準确率不變并增加了 10.6% 的改進模型；

一個是專攻泛化能力的新框架，用了一種全新方法讓機器人完成從未見過任務的成功率從 29% 提升至 63%；

以及一個可以同時容納 20 個機器人的收據收集系統，将用于加快機器人理解人類指令的能力的訓練。

這些新成果全部用于更新谷歌的機器人大模型 RT-2。

和斯坦福的 Mobile ALOHA 對比起來，谷歌的 RT-2 表現還是高冷一些，但它所有效果都是全自主的。

除了這兩家，李飛飛團隊也一直在跟進，其名為 VoxPoser 的機器人系統也已經可以聽懂人話完成各種指令，并且無需額外訓練。

這不由地讓人想到，不少人那句 "2024 會是機器人元年 " 的預言：

你覺得會成真嗎？