大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 互联网

稚晖君预告的“好东西”来了!智元机器人发布首个通用具身基座大模型GO-1

2025-03-10 简体 HK SG TW

今天小编分享的互联网经验:稚晖君预告的“好东西”来了!智元机器人发布首个通用具身基座大模型GO-1,欢迎阅读。

来源:猎云网

又一家具身智能公司,杀入 " 具身大腦 "。

3 月 7 日,智元机器人(AgiBot)联合创始人稚晖君(彭志辉)在微博上预告," 下周智元机器人有好东西发布 "。

在 2024 年底,智元推出了 AgiBot World,包含超过 100 万条轨迹、涵盖 217 个任务、涉及五大场景的大规模高质量真机数据集。基于 AgiBot World,今日,智元正式发布首个通用具身基座模型——智元启元大模型(Genie Operator-1,GO-1)。

据介绍,智元启元大模型开创性地提出了 Vision-Language-Latent-Action(ViLLA)架构,该架构由 VLM(多模态大模型) + MoE(混合专家)组成,其中 VLM 借助海量互联网图文数据获得通用场景感知和语言理解能力,MoE 中的 Latent Planner(隐式规划器)借助大量跨本体和人类操作视频数据获得通用的动作理解能力,MoE 中的 Action Expert(动作专家)借助百万真机数据获得精细的动作执行能力,三者环环相扣,实现了可以利用人类视频学习,完成小样本快速泛化,降低了具身智能门槛,并成功部署到智元多款机器人本体,持续进化,将具身智能推上了一个新台阶。

GO-1:VLA 进化到 ViLLA

为了有效利用高质量的 AgiBot World 数据集以及互联网大规模异构视频数据,增强策略的泛化能力,智元提出了 Vision-Language-Latent-Action (ViLLA)这一创新性架构。GO-1 作为首个通用具身基座大模型,基于 ViLLA 构建。与 Vision-Language-Action(VLA)架构相比,ViLLA 通过预测 Latent Action Tokens(隐式动作标记),弥合影像 - 文本输入与机器人执行动作之间的鸿沟。在真实世界的灵巧操作和长时任务方面表现卓越,远远超过了已有的开源 SOTA 模型。

ViLLA 架构是由 VLM(多模态大模型)+MoE(混合专家)组成,其中 VLM 借助海量互联网图文数据获得通用场景感知和语言理解能力,MoE 中的 Latent Planner(隐式规划器)借助大量跨本体和人类操作数据获得通用的动作理解能力,MoE 中的 Action Expert(动作专家)借助百万真机数据获得精细的动作执行能力。在推理时,VLM、Latent Planner 和 Action Expert 三者协同工作:

VLM 采用 InternVL-2B,接收多视角视觉图片、力觉信号、语言输入等多模态信息,进行通用的场景感知和指令理解;

Latent Planner 是 MoE 中的一组专家,基于 VLM 的中间层输出预测 Latent Action Tokens 作为 CoP(Chain of Planning,规划链),进行通用的动作理解和规划;

Action Expert 是 MoE 中的另外一组专家,基于 VLM 的中间层输出以及 Latent Action Tokens,生成最终的精细动作序列;

下面展开介绍下 MoE 里 2 个关键的组成 Latent Planner 和 Action Expert:

混合专家一:Latent Planner(隐式规划器)

尽管 AgiBot World 数据集已经是全球最大的机器人真机示教数据集,但这样高质量带动作标签的真机数据量仍然有限,远少于互联网规模的数据集。为此,我们采用 Latent Actions(隐式动作)来建模当前帧和历史帧之间的隐式变化,然后通过 Latent Planner 预测这些 Latent Actions,从而将异构数据源中真实世界的动作知识转移到通用操作任务中。

Latent Action Model(LAM,隐式动作模型)主要用于获取当前帧和历史帧之间 Latent Actions 的 Groundtruth(真值),它由编码器和解码器组成。其中:

编码器采用 Spatial-temporal Transformer,并使用 Causal Temporal Masks(时序因果掩码)。

解码器采用 Spatial Transformer,以初始帧和离散化的 Latent Action Tokens 作为输入。

Latent Action Tokens 通过 VQ-VAE 的方式进行量化处理。

Latent Planner 负责预测这些离散的 Latent Action Tokens,它与 VLM 主干网络共享相同的 Transformer 结构,但使用了两套独立的 FFN(前馈神经网络)和 Q/K/V/O(查询、键、值、输出)投影矩阵。Latent Planner 这组专家会逐层结合 VLM 输出的中间信息,通过 Cross Entropy Loss(交叉熵损失)进行监督训练。

混合专家二:Action Expert(动作专家)

为了实现 High-frequency(高频率)且 Dexterous(灵活)的操控,我们引入 Action Expert,其采用 Diffusion Model 作为目标函数来建模低层级动作的连续分布。

Action Expert 结构设计上与 Latent Planner 类似,也是与 VLM 主干网络共享相同的 Transformer 结构,但使用两套独立的 FFN 和 Q/K/V/O 投影矩阵,它通过 Denoising Process(去噪过程)逐步回归动作序列。

Action Expert 与 VLM、Latent Planner 分层结合,确保信息流的一致性与协同优化。

实验效果

通过 Vision-Language-Latent-Action (ViLLA)创新性架构,我们在五种不同复杂度任务上测试 GO-1,相比已有的最优模型,GO-1 成功率大幅领先,平均成功率提高了 32%(46%->78%)。其中 "Pour Water"(倒水)、"Table Bussing"(清理桌面) 和 "Restock Beverage"(补充饮料) 任务表现尤为突出。此外我们还单独验证了 ViLLA 架构中 Latent Planner 的作用,可以看到增加 Latent Planner 可以提升 12% 的成功率(66%->78%)。

GO-1:具身智能的全面创新

GO-1 大模型借助人类和多种机器人数据,让机器人获得了革命性的学习能力,可泛化应用到各类的环境和物品中,快速适应新任务、学习新技能。同时,它还支持部署到不同的机器人本体,高效地完成落地,并在实际的使用中持续不断地快速进化。

这一系列的特点可以归纳为 4 个方面:

人类视频学习:GO-1 大模型可以结合互联网视频和真实人类示范进行学习,增强模型对人类行为的理解,更好地为人类服务。

小样本快速泛化:GO-1 大模型具有强大的泛化能力,能够在极少数据甚至零样本下泛化到新场景、新任务,降低了具身模型的使用门槛,使得后训练成本非常低。

一腦多形:GO-1 大模型是通用机器人策略模型,能够在不同机器人形态之间迁移,快速适配到不同本体,群体升智。

持续进化:GO-1 大模型搭配智元一整套数据回流系统,可以从实际执行遇到的问题数据中持续进化学习,越用越聪明。

智元通用具身基座大模型 GO-1 的推出,标志着具身智能向通用化、开放化、智能化方向快速迈进:

从单一任务到多种任务:机器人能够在不同场景中执行多种任务,而不需要针对每个新任务重新训练。

从封闭环境到开放世界:机器人不再局限于实验室,而是可以适应多变的真实世界环境。

从预设程式到指令泛化:机器人能够理解自然语言指令,并根据语义进行组合推理,而不再局限于预设程式。

GO-1 大模型将加速具身智能的普及,机器人将从依赖特定任务的工具,向着具备通用智能的自主体发展,在商业、工业、家庭等多领網域发挥更大的作用,通向更加通用全能的智能未来。

熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他的速度跟不上现代篮球的节奏 王治郅:杨瀚森主要的问题是速度 他的速度跟 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击外国电影 逼好莱坞等回美拍片 贸易战烧进电影院:特朗普拟重税打击外国电影 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天亏掉6年工资,卖掉舍不得,不卖扛不住 贷款追高炒黄金的人后悔了!有人一天亏掉6年 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回旋镖:「折寿」换容量 手机电池突破8000mAh?硅碳技术的回旋镖:「折 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天亏掉6年工资,卖掉舍不得,不卖扛不住 贷款追高炒黄金的人后悔了!有人一天亏掉6年 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵权诉讼,后者回应称将严肃对待 任天堂对Genki提起Switch 2商标侵权诉讼,后 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人士:之前断网因流量欠费 哪吒汽车APP和官网恢复正常 知情人士:之前断 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌两家公司被列入经营异常 极越汽车 CEO 夏一平名下青岛/义乌两家公司 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商联合银行 全国经济第一大省明确,推动组建农商联合银行 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅西 姆巴佩更专注进球&更像C罗 桑保利:亚马尔有配合意识&有点像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖 集玲琳 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花 謝飛揚 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游 衛青柏 | 2023-05-04
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修 集玲琳 | 2023-05-02
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 — 袁曼雁 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”, 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《 惠惠君 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們