稚晖君预告的“好东西”来了！智元机器人发布首个通用具身基座大模型GO-1

今天小编分享的互联网经验：稚晖君预告的“好东西”来了！智元机器人发布首个通用具身基座大模型GO-1，欢迎阅读。

来源：猎云网

又一家具身智能公司，杀入 " 具身大腦 "。

3 月 7 日，智元机器人（AgiBot）联合创始人稚晖君（彭志辉）在微博上预告，" 下周智元机器人有好东西发布 "。

在 2024 年底，智元推出了 AgiBot World，包含超过 100 万条轨迹、涵盖 217 个任务、涉及五大场景的大规模高质量真机数据集。基于 AgiBot World，今日，智元正式发布首个通用具身基座模型——智元启元大模型（Genie Operator-1，GO-1）。

据介绍，智元启元大模型开创性地提出了 Vision-Language-Latent-Action（ViLLA）架构，该架构由 VLM（多模态大模型） + MoE（混合专家）组成，其中 VLM 借助海量互联网图文数据获得通用场景感知和语言理解能力，MoE 中的 Latent Planner（隐式规划器）借助大量跨本体和人类操作视频数据获得通用的动作理解能力，MoE 中的 Action Expert（动作专家）借助百万真机数据获得精细的动作执行能力，三者环环相扣，实现了可以利用人类视频学习，完成小样本快速泛化，降低了具身智能门槛，并成功部署到智元多款机器人本体，持续进化，将具身智能推上了一个新台阶。

GO-1：VLA 进化到 ViLLA

为了有效利用高质量的 AgiBot World 数据集以及互联网大规模异构视频数据，增强策略的泛化能力，智元提出了 Vision-Language-Latent-Action （ViLLA）这一创新性架构。GO-1 作为首个通用具身基座大模型，基于 ViLLA 构建。与 Vision-Language-Action（VLA）架构相比，ViLLA 通过预测 Latent Action Tokens（隐式动作标记），弥合影像 - 文本输入与机器人执行动作之间的鸿沟。在真实世界的灵巧操作和长时任务方面表现卓越，远远超过了已有的开源 SOTA 模型。

ViLLA 架构是由 VLM（多模态大模型）+MoE（混合专家）组成，其中 VLM 借助海量互联网图文数据获得通用场景感知和语言理解能力，MoE 中的 Latent Planner（隐式规划器）借助大量跨本体和人类操作数据获得通用的动作理解能力，MoE 中的 Action Expert（动作专家）借助百万真机数据获得精细的动作执行能力。在推理时，VLM、Latent Planner 和 Action Expert 三者协同工作：

VLM 采用 InternVL-2B，接收多视角视觉图片、力觉信号、语言输入等多模态信息，进行通用的场景感知和指令理解；

Latent Planner 是 MoE 中的一组专家，基于 VLM 的中间层输出预测 Latent Action Tokens 作为 CoP（Chain of Planning，规划链），进行通用的动作理解和规划；

Action Expert 是 MoE 中的另外一组专家，基于 VLM 的中间层输出以及 Latent Action Tokens，生成最终的精细动作序列；

下面展开介绍下 MoE 里 2 个关键的组成 Latent Planner 和 Action Expert：

混合专家一：Latent Planner（隐式规划器）

尽管 AgiBot World 数据集已经是全球最大的机器人真机示教数据集，但这样高质量带动作标签的真机数据量仍然有限，远少于互联网规模的数据集。为此，我们采用 Latent Actions（隐式动作）来建模当前帧和历史帧之间的隐式变化，然后通过 Latent Planner 预测这些 Latent Actions，从而将异构数据源中真实世界的动作知识转移到通用操作任务中。

Latent Action Model（LAM，隐式动作模型）主要用于获取当前帧和历史帧之间 Latent Actions 的 Groundtruth（真值），它由编码器和解码器组成。其中：

编码器采用 Spatial-temporal Transformer，并使用 Causal Temporal Masks（时序因果掩码）。

解码器采用 Spatial Transformer，以初始帧和离散化的 Latent Action Tokens 作为输入。

Latent Action Tokens 通过 VQ-VAE 的方式进行量化处理。

Latent Planner 负责预测这些离散的 Latent Action Tokens，它与 VLM 主干网络共享相同的 Transformer 结构，但使用了两套独立的 FFN（前馈神经网络）和 Q/K/V/O（查询、键、值、输出）投影矩阵。Latent Planner 这组专家会逐层结合 VLM 输出的中间信息，通过 Cross Entropy Loss（交叉熵损失）进行监督训练。

混合专家二：Action Expert（动作专家）

为了实现 High-frequency（高频率）且 Dexterous（灵活）的操控，我们引入 Action Expert，其采用 Diffusion Model 作为目标函数来建模低层级动作的连续分布。

Action Expert 结构设计上与 Latent Planner 类似，也是与 VLM 主干网络共享相同的 Transformer 结构，但使用两套独立的 FFN 和 Q/K/V/O 投影矩阵，它通过 Denoising Process（去噪过程）逐步回归动作序列。

Action Expert 与 VLM、Latent Planner 分层结合，确保信息流的一致性与协同优化。

实验效果

通过 Vision-Language-Latent-Action （ViLLA）创新性架构，我们在五种不同复杂度任务上测试 GO-1，相比已有的最优模型，GO-1 成功率大幅领先，平均成功率提高了 32%（46%->78%）。其中 "Pour Water"（倒水）、"Table Bussing"（清理桌面）和 "Restock Beverage"（补充饮料）任务表现尤为突出。此外我们还单独验证了 ViLLA 架构中 Latent Planner 的作用，可以看到增加 Latent Planner 可以提升 12% 的成功率（66%->78%）。