具身智能2024：大模型“凿壁”，机器人“偷光”

今天小编分享的科技经验：具身智能2024：大模型“凿壁”，机器人“偷光”，欢迎阅读。

将世界模型装入机器人。

两周前，银河通用官宣完成 5 亿元战略融资。

成立一年半，拿到 30 多个知名基金投资，北京、上海、深圳、香港四地政府基金加持，累计融资额 12 亿元，银河通用创始人王鹤在近日公开表示，" 银河通用正在冲刺独角兽。"

这是 2024 年国内具身智能热潮的真实写照。

实际上，早在今年年初，优质机器人团队已经成了全球投资人疯抢的标的。

先是有美国 Figure AI B 轮拿到了 6.75 亿美元（约合 49 亿元）巨额融资，后又有国内宇树科技拿到 10 亿元 B2 轮融资。

这两家机器人公司，如今已经是具身智能领網域准独角兽。

此外，据 GGII 统计数据显示，2024 年 1 月 -10 月，全球人形机器人行业共发起了69 起融资，融资总额高达110 亿元。

在具身智能这波历史大机遇下，2024 年注定将成为机器人总动员的一年。

不过，就具身智能而言，2024 年是大幕拉开的一年，是百家争鸣的一年，也是产业热切期望的一年，但却不是成为产业规模化落地的一年。

对于大模型 + 人形机器人这一关注度最高的具身智能模式，我今年在和从业者交流中听到最多的一个关键词是，"还很遥远"。

那么，在具身智能被推上全球科技竞争制高点、这么多热钱涌入这一赛道的这一年里，具身智能究竟怎么样了？

01 具身智能的数据难题

数据成就了 OpenAI，数据成就了大模型，作为奥特曼眼中通用人工智能的终极形态，数据如今也正在成就具身智能。

ICRA 是由 IEEE 机器人与自动化协会主办的全球性机器人学术会议，也是全球机器人领網域最权威的学术会议之一，在今年 5 月日本横滨举办的 ICRA 2024 上，会议的最佳论文奖最终给到了一个名为 Open X-Embodiment。

Open X-Embodiment 包含两项成果，其一是一个机器人学习数据集，其二是基于该数据集训练的机器人运动控制模型 RT-X。

其中，最为稀缺的是机器人学习数据集，这篇论文中的数据集是由 21 个高校和研究机构收集的 22 个不同机器人的数据集，这个数据集最终包含 100 多万条机器人的真实运动轨迹数据，并由此展现出了 527 种机器人技能。

基于这一成果，谷歌在今年还训练出了一个数据规模达到 7B 的视觉 - 语言 - 动作大模型 OpenVLA，后者是今年具身智能领網域一个标志性事件。

不过，即便如此，OpenVLA 依然无法实现普遍的泛化性。

银河通用团队就曾就 OpenVLA 模型在实验室中进行过一系列测试，王鹤发现，" 当在实验室换一种摆放方式让基于 OpenVLA 的机器人执行抓取任务时，机器人几乎无法抓取任何物体。"

小样本学习，高成功率部署，成了摆在具身智能机器人面前的第一道难题。

实际上，现在行业中就连要打造 " 小样本学习，高成功率部署 " 的 VLA 模型究竟需要多少数据量，依然争议颇多。

在前不久的一场机器人主题圆桌论坛上，这个问题就曾成为焦点。

千寻智能联合创始人高阳就指出，" 我们在做具身智能 Scaling Law 研究时发现，仅需要 2000 条数据，就可以让机器人在任意场景、对任何物体进行（对精确度要求不高的）泛化操作。"

同时还作为清华大学交叉信息研究院助理教授，高阳和他的学生针对这一问题的研究，也在今年的一个机器人顶级学术会议 CoRL 2024 上获得了最佳论文奖。

不过，对此，跨维智能创始人贾奎教授提出了不同的看法，他指出：

" 无论是机器人倒水、开冰箱，还是其他任何动作，如果仅仅需要 2000 条、乃至 20000 条数据就能实现泛化，我们其实现在就能立刻将这类机器人进行落地并赚到钱，但实际上我们并没有看到这样的情况发生。

这是因为具身智能的数据类型是异构多样的，有视觉、力觉、触觉等不同传感器的数据，有基于不同机器人本体自身的状态数据，也有不同动作轨迹数据，由此形成的异构数据的信息量、复杂度差别是巨大的，任何一项技能的泛化没有上亿条数据是不可能实现的。"

这是具身智能仍处于混沌初开、百家争鸣时期的具象化体现，与人工智能技术发展不同，现在的具身智能还需要一个像 ImageNet 一样的基准数据集。

2010 年，斯坦福大学李飞飞教授基于 ImageNet 数据集，在全球发起了 ImageNet 挑战赛，在这一为期八年的针对视觉识别的 AI 挑战赛中，人工智能算法识别物体的准确率从 71.8% 提升到了 97.3%。

在这之中，今年的诺奖得主 Geoffrey Hinton 的团队成名作之一 AlexNet，正是 2012 年 ImageNet 挑战赛的冠军。

李飞飞用数据重新定义了人们对模型的看法，ImageNet 挑战赛背后的统一基准测试则推动了人工智能技术又向前迈了一步。

那么，如今的具身智能有这样的统一基准吗？

答案是，没有。

不过，我们能够看到的是，李飞飞团队再次构建了具身智能基准测试环境 BEHAVIOR-1K，国内则有通研院朱松纯团队搭建了通用人工智能标准、评级、测试与架构。

此外，包括北京、上海等地涌现出的具身智能创新中心，已经在构建具身智能数据集，甚至公版人形机器人。

无论是学术界，还是产业界，身在其中的科学家们正在加紧迈出 benchmark 这一步，让具身智能能够从分散作战归于集中发力。

基准测试固然重要，但模型发展更为关键。

02 将世界模型装入机器人

什么是具身智能？

我经常举的一个例子是：

一群研究人工智能的科学家发现，人工智能技术已经发展到一定阶段，已经能够将人工智能算法加载到硬體产品上来更直接地在现实世界中工作，于是就有了具身智能。

所以，在我的理解中，具身智能本身是人工智能技术发展到一定阶段的产物，这个阶段的一个重要起点是大模型，或者说是世界模型。

将大模型与机器人结合，是具身智能的第一要义。

由于机器人本身是一个拟人设计产品，我们能够看到，现在具身智能大模型有一条主流设计路线是基于人类大腦快慢系统逻辑——快系统模拟人类进行快速直觉反应，慢系统模拟人类进行反思、推理。

作为国内人工智能领網域的顶级研究机构，智源研究院内部在研发具身智能大模型时，正是基于这一设计路线，并在同步跟进端到端、分层结构两条技术路线，这里我们可以以智源基于两条路线已经公开的研究成果有一个直观理解。

针对复杂长程任务，智源团队设计的端到端具身大模型任务执行逻辑为：

首先智源团队设计了一个快系统，用于产生快速直觉的动作，当通过快系统执行任务失败时，再通过慢系统检测、定位任务失败节点，并进行纠正。

在这个系统中，另一个关键程式是快系统的持续知识更新模块，将慢系统在执行失败任务过程中积累下来的知识持续转移到快系统中，提升快系统的任务执行能力。

针对端到端目前无法胜任的更为复杂的长程任务时，基于分层结构的具身大模型将会起到更好的效果。

智源团队设计的分层结构具身大模型任务执行逻辑为：

首先通过大腦系统进行长程任务拆解、推理，并为小腦提示关键点、规划操作路径。

为了训练这样一个大腦大模型，智源团队为大腦大模型收集、标注了一个专门的数据集，设计了多阶段的训练策略。

然后再通过小腦模型执行拆解后的原子任务。

作为一个可以执行端到端任务的小腦，既需要高效，也要具备一定的推理能力，智源团队选用 RoboMamba 作为小腦的大模型底座。

为了跨越不同机器人本体使用，智源团队还特别为小腦设计了一个高效微调算法，当面临不同本体、场景、任务时，只选择一些有代表性的参数进行微调，从而让它适配相应本体、任务和场景。

据智源官方透露，相较于 OpenVLA 需要重新微调 70 亿参数，该模型需要微调的参数只有 300 万左右的参数，效率可以达到 9Hz。

这是大模型带给机器人的新思路，也让机器人在大腦层面有了进一步拟人的可能性，当然也是现在具身智能高潮迭起的诱因。

加速进化创始人程昊就曾指出，" 这次我们遇到的历史机遇和以往不同的是，过去的历史机遇更多是通过结合 AI 算法让硬體变得更自动化，这波机遇是快速发展的人工智能已经开始对真实世界有较强的感知并影响这个世界，而现有的硬體载体无法很好地感知世界、影响世界，人工智能亟需一个新的应用载体。"

什么是这个新载体呢？

程昊和与他同样选择这两年在机器人领網域创业的不少创业者有一个相同的观点，那就是：

这个新载体是人形机器人。

03 " 遥远的 " 人形机器人

要不要做人形机器人，在 2024 年似乎已经不再是一个问题。

早在 2023 年 10 月 20 日，工信部就印发了《人形机器人创新发展指导意见》，意见中指出，到 2025 年，要初步建立人形机器人创新体系，" 大腦、小腦、肢体 " 等一批关键技术取得突破，确保核心部组件安全有效供给。

不过，我们这里谈到的具身智能不只有人形机器人。

具身智能是一个广义概念，凡是符合「大模型 + 硬體」的组合，都可以算作智能体，就连智能汽车，本质上也属于具身智能。

本文提到的具身智能定义稍微收窄一些，专指「大模型 + 机器人」，即便如此，四足机器人、轮式机器人、人形机器人都属于具身智能的机器人载体。

而之所以大家对人形机器人关注度如此之高，是因为人形机器人是具身智能的终极载体。

然而，正因人形机器人是具身智能的终极形态，人形机器人无论是大腦、小腦，还是肢体，都还存在着标准形成、技术迭代、成本下降的一个长期过程。

就现在来看，大模型 + 人形机器人（我们且称之为具身智能人形机器人）在商用领網域落地还不是最好的时机。

在 2024 年，我们看到的是具身智能人形机器人两大中间形态正在尝试率先走入商用场景：

首先是轮足底盘 + 机械臂 + 灵巧手形态。

这种形态用轮式底盘代替了人形机器人的下肢，保留了人形机器人的灵巧手，重点在于充分发挥机器人灵巧手在分拣、搬运等方面的工作能力，银河通用的 GALBOT G1 是这一形态的典型代表。

据银河通用官方消息显示，GALBOT G1 已经在北京大型的奔驰车厂、极氪汽车车厂、美团前置仓执行转运和搬运任务。

其次是经典控制算法 + 人形机器人形态。

这种形态保留了人形机器人的形态，但背后支撑人形机器人的算法并非大模型，而是经典的机器人控制算法，优必选 Walker S 是这一形态的典型代表。

据优必选官方消息显示，优必选已经与东风柳汽、吉利汽车、比亚迪、北汽新能源、富士康、顺丰等企业合作，借助经典控制算法的 Walker S 正在进入这些企业工厂的装配、转运、检测、维护等工序中。

更多真正的具身智能人形机器人，如今是被卖到了科研领網域。

例如，宇树科技的人形机器人备受全球顶级高校、实验室所追捧，加速进化也选择了将科研、教育作为当下自家人形机器人商用落地的主赛道。

2024 年，具身智能人形机器人两个真实的现状是：

一方面，只有人形可以兼容所有复杂地形，可以执行人类生活环境中的所有任务；

另一方面，大模型 + 人形机器人这条具身智能之路，依然很遥远。

本文来自微信公众号 " 锌产业 "，作者：山竹。