今天小編分享的科技經驗:大翻車!斯坦福超火機器人自曝内幕,研究者救場還受傷了,網友:放心了,歡迎閲讀。
爆火的斯坦福全能家務機器人Mobile ALOHA,大!翻!!車!!!
你以為它擦個紅酒輕而易舉,但實際上卻是這樣的:
全給你弄撒喽,順帶碎個杯子
……
你以為它能化身大廚娴熟烹炒,結果給你上演一個炒鍋底:
Mobile ALOHA 的翻車大合集還不止這些。
例如剛才炒完蝦的鍋,哎呦喂,一不小心沒拿住:
即使小哥一個箭步衝上去也沒阻止 " 悲劇 " 的發生(好像還燙到手了)。
這畫面,真是像極了莊嫂摔碗……
昨天還在 " 神壇 " 上的 Mobile ALOHA,一夜之間便被曝出了這麼多 " 笨手笨腳 " 的樣子,也是引來不少網友的圍觀。
然而,這次即使面對翻車鐵證,網友們的畫風卻是一反常态:
它并不完美,不過很可愛。
總會有犯錯的餘地。
最重要的是:
放心了。(手動狗頭)
這到底是怎麼回事?
斯坦福團隊自曝 " 醜聞 "
原來,這段機器人大翻車的視頻,就是由斯坦福 Mobile ALOHA 的作者 Tony Z. Zhao 發布的。
并且他還直言不諱地説道:
機器人還沒有做好準備接管這個世界。
而這段翻車視頻,正是機器人完全在自主模式下所犯的。
用作者的話來形容,就是" 最愚蠢的錯誤 "。
畢竟除了剛才我們展示的幾個例子之外,Mobile ALOHA 甚至連鍋都放不進櫥櫃裏:
炒完的蝦粘鍋倒不出來不説,連碗的位置也找不到:
拿支筆也沒法找對位置下手:
面對失敗合集,作者卻是打趣道:
這是我目前為止最喜歡的視頻了,(不過)當機器人在你面前犯錯的時候,你就不會覺得那麼有趣了。
确實,畢竟手都被燙了……
不過作者今天自曝這段視頻其實應該還有另外一個原因。
因為前兩天 Mobile ALOHA 神級現場的視頻确實引來了不小的關注度,不過很多人誤以為這是它在自主模式下完成的。
但其實,Mobile ALOHA 采用的是混合模式,并非完全自主,作者也呼籲網友們在吃瓜的同時認真看下論文和代碼。
值得一提的是,作者還引用了 2015 年波士頓動力 Atlas 人形機器人 " 翻車合集 " 并向它致敬。
或許這也正如英偉達科學家 Jim Fan 説的那樣:
一步一個腳印。
學習 50 次,成功率能到 90%
就在這兩天,Mobile ALOHA 團隊連續放出三個爆火視頻,展示了該機器人敏捷靈巧的家務能力,看呆網友。
包括做滿漢全席(磕雞蛋、給雞肉翻面這種細活都信手拈來):
套枕套鋪床單:
澆花、拖地板、開瓶蓋,甚至逗貓貓:
那叫一個人模人樣,上得廳堂下得廚房。
不過,大部分都是真人操控的,比如上面這些。
更直觀的可以看下面這個抽紙擦玻璃的動圖,背後直接站了個人類 1:1 示範:
不過,對于一些相對簡單的任務,例如這個單炒蝦仁:
還有刷鍋、将餐椅歸位、呼叫并乘坐電梯、擦桌子等等,只需真人少量示教,它就可以學會,然後脱離人類進行自主操作。
具體而言,作者介紹,上面這些簡單動作目前只需要學習 50 次就可以做到 90% 的成功率——
經測試,Mobile ALOHA 可以連續 9 次擦幹倒灑了的酒、連續呼叫 5 次電梯都不會出錯,能夠保持一定的穩定性。
除此之外,它還能抗幹擾,在完成歸置鍋具到櫃子之中時,實驗人員不停向它面前投擲雜物,都完全沒有影響它發揮:
在訓練期間根本看不見的椅子?它也能準确識别并完成歸位任務。
那麼,作者是如何僅通過 50 個演示就讓 Mobile ALOHA 實現自主任務的呢?
最關鍵的是通過 ACT 或擴散策略進行模仿學習,然後和靜态操作數據一起對機器人系統進行聯合訓練。
有了這一聯合訓練方式,機器人的性能可以顯著提高,尤其是那種需要精确操作的任務。
最後,也再次為介紹一遍斯坦福大學的這個機器人成果:
它于今年 3 月底正式發布,歷經了 8 個月的迭代和 2 個月的測試。
一共三位作者,其中兩位為斯坦福計
算機科學專業的華人博士生(最後一位是導師):
當時的這位機器人,就已經能夠利用工具完成各種精密細活了,只不過只能在固定的位置:
當然,背後也是真人遙控的。
而正如其名 ALOHA 全稱是 " ow-cost pen-source rdware System",這款機器人主打的就是開源和低成本:
全部軟硬體設計包括代碼和數據都一并發布,而搭建這一個系統 " 只 " 需 3.2 萬美元(約合 22.7 萬人民币),具體需要哪些硬體,作者還列了個清單,感興趣的朋友可以照着 DIY。
機器人元年?
幾乎和斯坦福的爆火機器人同一時間,谷歌也發布了自家最新的研究成果,并且是一氣發了仨:
一個是将機器人決策速度提高 14%,同時保持操作準确率不變并增加了 10.6% 的改進模型;
一個是專攻泛化能力的新框架,用了一種全新方法讓機器人完成從未見過任務的成功率從 29% 提升至 63%;
以及一個可以同時容納 20 個機器人的收據收集系統,将用于加快機器人理解人類指令的能力的訓練。
這些新成果全部用于更新谷歌的機器人大模型 RT-2。
和斯坦福的 Mobile ALOHA 對比起來,谷歌的 RT-2 表現還是高冷一些,但它所有效果都是全自主的。
除了這兩家,李飛飛團隊也一直在跟進,其名為 VoxPoser 的機器人系統也已經可以聽懂人話完成各種指令,并且無需額外訓練。
這不由地讓人想到,不少人那句 "2024 會是機器人元年 " 的預言:
你覺得會成真嗎?