十问Mobile ALOHA赵子豪：大模型究竟在如何“渗透”机器人

今天小编分享的互联网经验：十问Mobile ALOHA赵子豪：大模型究竟在如何“渗透”机器人，欢迎阅读。

Mobile ALOHA 可能是很多人今天提到机器人时候，腦海中会立刻浮现出的那个产品。

不久前这个机器人翻炒大虾、擦酒杯、收拾灶台的视频，在中外社交平台上被广泛转发，出圈效果明显，普通人似乎一下子看到了机器人直接进入自己日常生活的样子。

这也带来一些误解，人们以为这代表着机器人已经能 " 自主 " 完成这些任务，事实上，它是基于一种 " 模仿学习 " 的技术方案，也就是人类先遥控操作，机器人快速学习后再学会自主完成任务。

其实 Mobile ALOHA 是一个长期进行中的研究项目的一部分，它的基础 ALOHA 全称 "A Low-cost Open-source Hardware System（低成本开源硬體系统）"，而 Mobile ALOHA 是增加了移动能力的进化版本。

在团队发布的论文中，除了对更低成本的硬體方案的探索，更重要是对模仿学习的不同策略做了研究，其中提出了基于 Transformer 的动作分块算法 ACT（Action Chunking with Transformers）。它本质是一个端到端的策略：直接把现实世界的 RGB 影像映射到动作，让机器人从视觉输入中学习和模仿，无需额外人工编码的中间表示，并以动作分块（Chunking）为单元，预测并集成准确而平滑的动作轨迹。

这是一个大模型技术和思想 " 渗透 " 进机器人领網域的典型代表。

而这种 " 渗透 " 正是今年机器人领網域火热的重要原因——从英伟达要 " 一次解决所有机器人模型问题 " 的 GEAR，到成立两年就估值破 25 亿美元的 " 机器人 OpenAI" Figure，机器人领網域一个个大事件迅速发生。

今天回头看，Mobile ALOHA 就像是这一切的一个预告。

在这个关键节点，我们和 Mobile ALOHA 背后的作者赵子豪做了一次对话，向他提了 10 个问题，想了解热闹之下 Mobile ALOHA 真正重要的意义和机器人今天所处的现状。

赵子豪目前是斯坦福大学博士生和 Google DeepMind 兼职研究员，研究重点是端到端的精细机器人操控。他也曾在特斯拉自动驾驶部门和 Google X 实习。

以下。

为什么最近机器人领網域突然火热了起来，GEAR，Figure，都是大事件，包括 Mobile ALOHA，从业内人士来看，是因为哪些具体的技术能力出现了突破么？比如你分享中提到的通用可解释的表示上的突破？这些突破如何发生的？还是更多是因为 AI 的热潮溢出到了机器人领網域？赵子豪：现阶段 manipulation 一个很大的突破在模仿学习 - 去年的 Diffusion Policy, ALOHA/ACT 是比较有代表性的工作。突破点在于（1）学界有了收集高质量数据的方法（2）发现 generative modeling techniques 在机器人领網域能 work 的很好。同时在 locomotion 领網域 sim2real 也有了非常大的进展。总的来说我会觉得 AI 的进步启发了机器人的进步。

在 AI 领網域目前还有 LLM 和世界模型的路线之争，有 Transformer 和 Diffusion 的潜在的争夺与融合，在机器人领網域有哪些主流的技术路线和方案？你更倾向哪一条路线？赵子豪：机器人领網域有比较传统的感知 + 规划 , 也有比较激进的 end-to-end learning。举个例子特斯拉 FSD v12 之前是传统做法，之后是 end-to-end。我倾向 end-to-end imitation for manipulation, end-to-end RL sim2real for locomotion。

很多人形容 AI 越来越像是一个 " 用不同新名词描述同一个旧概念 " 的游戏，机器人领網域似乎也有这样的现象，" 具身智能 "，" 通用智能体 "，" 基础智能体 " 等时髦的概念出现，但机器人技术的演进是有自己的历史和基础理论的，这是否会带来影响？事实上今天机器人技术主要在解决和攻克哪些问题？赵子豪：其实这些都不是新名词，一直有人在用。我觉得有意思的点是这些名词更突出 " 智能 "，而不是 " 机器 "。这其实是机器人技术社区一个观念上的转变，大家意识到 " 智能 " 可能比去 design a task-specific end-effector 更加重要。

看到你的个人简介里写着对 startup 感兴趣，而你同时也在谷歌和特斯拉这样的大厂工作过，你认为机器人领網域还会有自己的 "OpenAI" 么，还是最终会由大厂主导？尤其是最近从英伟达到 Figure 都体现出来明显的资源和资本的聚拢，初创公司还有机会么。赵子豪：我相信任何领網域永远都有创业公司的机会。Startups can be nimble, focused, and fast-executing.

Mobile ALOHA 最重要的意义是低成本，还是它体现出来的处理现实世界数据的雏形，还是一个可以适配不同的模仿学习算法的底层系统平台？赵子豪：Mobile ALOHA 是一个 proof-of-concept home robot, 设计初衷是研究平台。对我来说它的意义在于 ( 1 ) 证明 imitation learning 在 mobile manipulation 的可行性 ( 2 ) 开源软硬體促进接下来的算法研究。

ACT 把预测的基本元素定为 Chunk，这让人想到 transformer 的 token、和最近因为 Sora 而火了的 patch，这种对智能的最基本单元的理解和定义，会对技术探索带来多大的不同？这是否也是你们研究时思考的一个重点。赵子豪：这个问题感觉有点 apples to oranges。（我：哈哈哈问了一个 apple to orange 的外行问题。赵子豪：没事儿～别的问题都很好。）

Mobile ALOHA 的相关研究都给我一种感觉，就是你们追求尽可能的简洁。这是因为现在机器人的相关技术到了收敛的阶段，还是你们想要先提供一个更简洁的样本给技术社区？赵子豪：我非常信奉 Elon 的 "The best part is no part"，和 Richard Sutton 的 bitter lesson。最能利用数据 / 计算的算法往往是简洁的。语言建模里的 next-token-prediction 是一个很好的例子。当然，去真正产品化 Mobile ALOHA 还是会需要很多工程细节 . 这篇论文只是一个雏形。

从 Mobile ALOHA 来看，机器人的数据收集和动作训练学习，以及动作执行是不是基本上是同时进行的？你提到训练数据现在是个难题，过往自动驾驶使用大量模拟数据，今天各种大模型训练里也开始讨论合成数据的可行性，这些对解决机器人的训练数据问题有什么启发？赵子豪：从数据收集到部署需要几个小时的模型训练时间。模拟器 sim2real 对于 locomotion 已经有了很大的帮助，但对于模拟 contact-rich，deformable object manipulation 仍然需要模拟器上的进步。

接下来你最期待的机器人领網域或者泛人工智能领網域的技术突破是什么？赵子豪：期待一个和 state-of-the-art 相似的 open-source vision language model. 这对于学界机器人研究会有很大帮助。

你自己接下来有什么计划，有什么可以提前剧透的么赵子豪：模仿学习在灵巧性的上限非常高，请期待接下来更多在 ALOHA 上的工作！