今天小编分享的互联网经验:稚晖君预告的“好东西”来了!智元机器人发布首个通用具身基座大模型GO-1,欢迎阅读。
来源:猎云网
又一家具身智能公司,杀入 " 具身大腦 "。
3 月 7 日,智元机器人(AgiBot)联合创始人稚晖君(彭志辉)在微博上预告," 下周智元机器人有好东西发布 "。
在 2024 年底,智元推出了 AgiBot World,包含超过 100 万条轨迹、涵盖 217 个任务、涉及五大场景的大规模高质量真机数据集。基于 AgiBot World,今日,智元正式发布首个通用具身基座模型——智元启元大模型(Genie Operator-1,GO-1)。
据介绍,智元启元大模型开创性地提出了 Vision-Language-Latent-Action(ViLLA)架构,该架构由 VLM(多模态大模型) + MoE(混合专家)组成,其中 VLM 借助海量互联网图文数据获得通用场景感知和语言理解能力,MoE 中的 Latent Planner(隐式规划器)借助大量跨本体和人类操作视频数据获得通用的动作理解能力,MoE 中的 Action Expert(动作专家)借助百万真机数据获得精细的动作执行能力,三者环环相扣,实现了可以利用人类视频学习,完成小样本快速泛化,降低了具身智能门槛,并成功部署到智元多款机器人本体,持续进化,将具身智能推上了一个新台阶。
GO-1:VLA 进化到 ViLLA
为了有效利用高质量的 AgiBot World 数据集以及互联网大规模异构视频数据,增强策略的泛化能力,智元提出了 Vision-Language-Latent-Action (ViLLA)这一创新性架构。GO-1 作为首个通用具身基座大模型,基于 ViLLA 构建。与 Vision-Language-Action(VLA)架构相比,ViLLA 通过预测 Latent Action Tokens(隐式动作标记),弥合影像 - 文本输入与机器人执行动作之间的鸿沟。在真实世界的灵巧操作和长时任务方面表现卓越,远远超过了已有的开源 SOTA 模型。
ViLLA 架构是由 VLM(多模态大模型)+MoE(混合专家)组成,其中 VLM 借助海量互联网图文数据获得通用场景感知和语言理解能力,MoE 中的 Latent Planner(隐式规划器)借助大量跨本体和人类操作数据获得通用的动作理解能力,MoE 中的 Action Expert(动作专家)借助百万真机数据获得精细的动作执行能力。在推理时,VLM、Latent Planner 和 Action Expert 三者协同工作:
VLM 采用 InternVL-2B,接收多视角视觉图片、力觉信号、语言输入等多模态信息,进行通用的场景感知和指令理解;
Latent Planner 是 MoE 中的一组专家,基于 VLM 的中间层输出预测 Latent Action Tokens 作为 CoP(Chain of Planning,规划链),进行通用的动作理解和规划;
Action Expert 是 MoE 中的另外一组专家,基于 VLM 的中间层输出以及 Latent Action Tokens,生成最终的精细动作序列;
下面展开介绍下 MoE 里 2 个关键的组成 Latent Planner 和 Action Expert:
混合专家一:Latent Planner(隐式规划器)
尽管 AgiBot World 数据集已经是全球最大的机器人真机示教数据集,但这样高质量带动作标签的真机数据量仍然有限,远少于互联网规模的数据集。为此,我们采用 Latent Actions(隐式动作)来建模当前帧和历史帧之间的隐式变化,然后通过 Latent Planner 预测这些 Latent Actions,从而将异构数据源中真实世界的动作知识转移到通用操作任务中。
Latent Action Model(LAM,隐式动作模型)主要用于获取当前帧和历史帧之间 Latent Actions 的 Groundtruth(真值),它由编码器和解码器组成。其中:
编码器采用 Spatial-temporal Transformer,并使用 Causal Temporal Masks(时序因果掩码)。
解码器采用 Spatial Transformer,以初始帧和离散化的 Latent Action Tokens 作为输入。
Latent Action Tokens 通过 VQ-VAE 的方式进行量化处理。
Latent Planner 负责预测这些离散的 Latent Action Tokens,它与 VLM 主干网络共享相同的 Transformer 结构,但使用了两套独立的 FFN(前馈神经网络)和 Q/K/V/O(查询、键、值、输出)投影矩阵。Latent Planner 这组专家会逐层结合 VLM 输出的中间信息,通过 Cross Entropy Loss(交叉熵损失)进行监督训练。
混合专家二:Action Expert(动作专家)
为了实现 High-frequency(高频率)且 Dexterous(灵活)的操控,我们引入 Action Expert,其采用 Diffusion Model 作为目标函数来建模低层级动作的连续分布。
Action Expert 结构设计上与 Latent Planner 类似,也是与 VLM 主干网络共享相同的 Transformer 结构,但使用两套独立的 FFN 和 Q/K/V/O 投影矩阵,它通过 Denoising Process(去噪过程)逐步回归动作序列。
Action Expert 与 VLM、Latent Planner 分层结合,确保信息流的一致性与协同优化。
实验效果
通过 Vision-Language-Latent-Action (ViLLA)创新性架构,我们在五种不同复杂度任务上测试 GO-1,相比已有的最优模型,GO-1 成功率大幅领先,平均成功率提高了 32%(46%->78%)。其中 "Pour Water"(倒水)、"Table Bussing"(清理桌面) 和 "Restock Beverage"(补充饮料) 任务表现尤为突出。此外我们还单独验证了 ViLLA 架构中 Latent Planner 的作用,可以看到增加 Latent Planner 可以提升 12% 的成功率(66%->78%)。
GO-1:具身智能的全面创新
GO-1 大模型借助人类和多种机器人数据,让机器人获得了革命性的学习能力,可泛化应用到各类的环境和物品中,快速适应新任务、学习新技能。同时,它还支持部署到不同的机器人本体,高效地完成落地,并在实际的使用中持续不断地快速进化。
这一系列的特点可以归纳为 4 个方面:
人类视频学习:GO-1 大模型可以结合互联网视频和真实人类示范进行学习,增强模型对人类行为的理解,更好地为人类服务。
小样本快速泛化:GO-1 大模型具有强大的泛化能力,能够在极少数据甚至零样本下泛化到新场景、新任务,降低了具身模型的使用门槛,使得后训练成本非常低。
一腦多形:GO-1 大模型是通用机器人策略模型,能够在不同机器人形态之间迁移,快速适配到不同本体,群体升智。
持续进化:GO-1 大模型搭配智元一整套数据回流系统,可以从实际执行遇到的问题数据中持续进化学习,越用越聪明。
智元通用具身基座大模型 GO-1 的推出,标志着具身智能向通用化、开放化、智能化方向快速迈进:
从单一任务到多种任务:机器人能够在不同场景中执行多种任务,而不需要针对每个新任务重新训练。
从封闭环境到开放世界:机器人不再局限于实验室,而是可以适应多变的真实世界环境。
从预设程式到指令泛化:机器人能够理解自然语言指令,并根据语义进行组合推理,而不再局限于预设程式。
GO-1 大模型将加速具身智能的普及,机器人将从依赖特定任务的工具,向着具备通用智能的自主体发展,在商业、工业、家庭等多领網域发挥更大的作用,通向更加通用全能的智能未来。