人工智障机器人终于来了点新活，这次会做粤菜了

今天小编分享的科技经验：人工智障机器人终于来了点新活，这次会做粤菜了，欢迎阅读。

反正比我手还巧

之前有人吐槽，" 本来 AI 应该给人端茶倒水，没想到 AI 都去画画唱歌 "，还好 2024 开年惊喜不断，人工智障机器人终于来了点新活，在端茶倒水方面有了巨大突破。

一月初，斯坦福大学团队带着炒菜做饭、收拾衣服、逗猫的全能家政机器人闪亮登场，谷歌 DeepMind 旗下机器人团队也发布重磅更新。

斯坦福大学 IRIS 实验室团队发布的 " 家务全能 " 机器人 Mobile ALOHA，只要 50 次训练就能掌握一项任务，成功率达 90% 以上，例如给手机充电、打绳结、用耳机。

在研究者的操作下，它还能完成更复杂的任务。在一段时长 3 分钟的视频中，机器人做了三道粤菜：虾仁滑蛋、干贝烧鸡、蚝油生菜。

老实说吧，我做的没它好｜Stanford IRIS Lab, Youtube

打鸡蛋、煎虾仁、翻动鸡肉、加调味料、切菜、切蒜末 …… 一看就是行家里手。

Stanford IRIS Lab, Youtube

浇花、洗衣服、泡咖啡、刮胡子，人能做的事它都能掺上一脚。

就在不久前，我们对机器人的印象还停留在人工智障的阶段，最强也不过就是波士顿动力的 " 打工狗 "。怎么机器人一下子变得这么灵巧了？机器人上岗干家务的未来还会远吗？

Giphy

眼里有活，全部开源

ALOHA 开发团队在论文中介绍，机器人双手操作的模仿学习此前没有得到广泛应用，主要有两方面原因：一是缺少易于获取、即插即用的全身远程操作设备，二是此前机器人在学习双手操作完成复杂任务方面表现不佳。

ALOHA 构造示意图 | 图片来自论文

为了解决这些问题，研究团队使用了市面上容易获取的部件，设计出这台尽可能复刻人类动作的机器人。他们在设计中还重点考虑了以下 4 个因素：

机动性：行进速度与人类相近，达到 1.42 米每秒；稳定性：适应居家环境，在使用橱柜、搬动锅具的时候不翻倒；全身远程操作：机器臂和底座的每个自由度都能同时远程操控；不受限：搭载电源和计算机系统。

为了让机器人学会复杂的动作、学会应对训练中没有的突发状况，研究团队将模仿学习算法与静态数据进行协同训练（co-train），达到了不错的效果。

比如在机器人正要打开杯子的时候把杯子拿走，或者在它换电池的时候在旁边放上杂物，在受到干扰的情况下，机器人也能继续完成任务。

给你 feed 小青蛙｜tonyzhaozh.github.io/aloha/

在搬椅子任务中，研究者只训练它搬动三把椅子，然后在测试时布置了五把椅子，机器人也能把它们全部摆好。这样眼里有活的机器人谁不心动！

ALOHA 全部使用市面上的通用硬體设备搭建，成本只要 3.2 万美元（约合人民币 23 万元）。作为对比，波士顿动力的机器狗 Spot 发布时售价高达 7.45 万美元。目前市面上功能相似的操作机器人 PR2 和 TIAGo 售价高达 20 万美元。

通过增减硬體设备，你还可以进行个性化定制，最低只要 2 万美元（人民币 14 万元）就能搭建完成。

研究团队已经将代码开源，感兴趣的朋友们可以开始 DIY 挑战了：https://mobile-aloha.github.io/

更好、更快、更安全

或许是为了和斯坦福比高下，就在 ALOHA 发布的第二天，谷歌 DeepMind 团队一口气发布三个计算模型，借助人工智能的力量，让机器人反应更快、表现更好、更安全可靠。

此前在 ChatGPT 面世后不久，谷歌就宣布将大语言模型（LLM）和视觉语言模型（LVM）应用于机器人开发，用模型将大量训练录像翻译成机器语言，供系统学习。这次发布的 AutoRT 系统大幅提升了机器人应对陌生场景的能力，可同时操纵多达 20 台机器人，并能在人类辅助下同时运行 52 台机器人。

多机器人协同｜https://auto-rt.github.io/static/videos/autort_time_lapse.mp4

SARA-RT 系统则大幅提升了数据处理速度。它使用向上训练（up-training，暂译）技术，解决了数据输入增加后运算负担呈平方数增长的问题。此前，如果训练模型输入增加到 2 倍，例如增加一个传感器或调高分辨率，系统需要投入 4 倍的运算资源处理数据。应用 SARA-RT 后，数据处理负担线性增长，处理效率大幅提升。

RT-Trajectory 模型能对训练录像自动标注视觉线索，提升训练效率，帮助机器人从人类操作录像甚至简笔画示意图中学习。