大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

机器人世界模型,TeleAI用少量数据完成训练

2024-10-17 简体 HK SG TW

今天小编分享的科学经验:机器人世界模型,TeleAI用少量数据完成训练,欢迎阅读。

引言:TeleAI 李学龙团队提出具身世界模型,挖掘大量人类操作视频和少量机器人数据的共同决策模式。

当你在绿茵场上进行一场紧张刺激的足球比赛时,大腦会像一位精明的导演,不断地在腦海中预演着比赛的下一步发展。你会想象如何带球突破对方防线、如何与队友配合制造进球机会等。

这种内心的想象是基于丰富的比赛经验、对足球规则的深刻理解以及对队友特点的熟悉。

大腦能够迅速从记忆中提取信息,结合当前的比赛状况,预测未来可能出现的场景,并以近乎动画的形式在腦海中迅速闪现,帮助人类做出更好的决策。

正如足球比赛中展现的一样,大腦的预演能力实际上是一个精简版的" 世界模型 ",通过模拟未来可能发生的情景来指导人类行为。

受此启发,具身智能研究中有望通过构建类似的 " 视频预测模型 " 作为机器人 " 世界模型 ",通过历史序列和实时观测,预测未来可能发生的事件,形成对机器人未来行为的视频预测。

世界模型给机器人提供了一个 " 内心预演 " 的工具,能够在实际采取行动之前评估可能的行动方案及后果,帮助机器人进行决策。

近期,中国电信集团 CTO、首席科学家、中国电信人工智能研究院 ( TeleAI ) 院长李学龙教授带领团队基于长期以来在扩散噪声、正激励噪声、张量噪声等噪声分析的基础上,对具身世界模型构建中的样本效率难题进行了深入研究,在少样本驱动的具身世界模型构建方面迈出了重要的一步。

这项工作提出了全新的具身视频噪声扩散模型的训练方法,通过充分挖掘大量人类操作视频和机器人操作的共同模式,在仅使用少量具身数据的情况下训练高效的具身世界模型。

论文由TeleAI 院长李学龙教授、TeleAI 研究科学家白辰甲博士联合香港科技大学、上海交通大学、上海人工智能实验室等部門共同完成,近期被国际人工智能顶会 NeurIPS 2024 录用,HKUST 在读博士何浩然为该论文的第一作者。

研究动机

构建通用的机器人世界模型是一项长期的挑战。尽管以 Sora 为代表的视频生成模型在通用视频生成中有出色的表现,但依赖于对大规模视频数据集学习。

然而,在具身智能领網域,高质量的机器人操作视频的获取是非常困难的,且不同类型的机器人数据难以通用。具身世界模型的学习非常具有挑战性,亟需一种通过少量数据学习的通用具身世界模型构建方法。

本研究提出,能否利用在其他相似领網域的大规模视频数据,特别是人类操作视频来帮助学习具身世界模型?人类在现实场景中第一视角的物体操作视频和机器人操作任务具有高度的相似性,包含了物理世界的互動信息,并具有多元的任务场景、复杂的视觉背景、多样的物体类型,能够帮助具身世界模型学习物体操作的先验知识。

近期部分工作开始利用人类操作数据来策略学习,然而局限于从人类视频中提取影像表征或 Affordance 区網域,忽略了人类操作视频中蕴含的丰富的时序信息的行为决策信息,不同于现有方法,本研究提出构建基于人类操作的视频预测(video prediction)来进行世界模型构建,同时通过少量含有动作的机器人数据获得可执行的策略,充分挖掘在人类操作视频和机器人数据上统一的决策行为模式。

为了有效利用大量人类数据,本方法设计了预训练(pre-training)和微调(fine-tuning)的框架,前者可以遵循 scaling law 快速扩展到大规模的人类操作视频数据集,后者可以利用少量机器人数据快速迁移至下游任务。整体框架如图 1 所示。

△图 1:算法整体框架

本方法从大规模人类操作数据集(如 Ego4d)中学习统一的视频表征,使用大量无动作视频构建自监督的视频预测扩散模型作为预训练任务,并在少量有动作标记的具身数据上进行高效策略微调,能够使通用人类操作视频中编码的物理世界先验知识适应于具身环境模型构建,在下游任务中利用少量机器人轨迹即可在通用机械臂操作任务集合中获得优异的性能。

研究方法

本文方法从三个方面利用人类操作数据构建具身世界模型,实现高效的具身策略学习:

在大量人类操作数据和少量机器人数据中构建统一的、可泛化、可迁移的视频表征;

构建自监督预测任务进行轨迹层面整体建模,实现人类和机器人通用的具身视频预测;

新颖的扩散架构实现可扩展的人类视频学习,同时在小规模机器人数据上快速泛化。

人类和机器人数据的统一 token 化

为了从数据分布极广的各类视频数据中提取有效的信息输入进行世界模型构建,提出构建人类视频和机器人视频统一的视频编码。

使用 VQ-VAE 将高维视频片段压缩成信息丰富的离散化潜在 token,不仅为混合视频提供了统一的码本,还减轻了人类和机器人视频之间的網域差异。通过将连续特征转换为离散空间,提取出人类和机器人操作的共同模式。

此外,通过统一的动作离散化方法将动作空间的连续维度离散化成有序的整数,使机器人的动作可以通过离散的 token 来表示,为后续的预训练和微调阶段提供了便利。

通过这种方式,能够将人类视频中的动态行为模式和机器人的动作指令统一起来,构建出一个能够处理大规模视频数据并提取有用特征的框架。见图 2 第一阶段所示。

△图 2:三阶段学习框架离散扩散模型的视频预测学习

在视频预测模型的训练阶段,利用离散扩散模型从大量人类视频中提取与物理互動有关的普适知识。具体的,给定一段历史视频和文本作为 prompts,利用大规模扩散模型预测未来视频 token 序列。

当模型能很好地理解互動模式并预测到准确的未来轨迹时,智能体能够对未来可能发生的行为进行预估,从而用该信息去指导下游任务的决策过程。

为了处理信息量丰富的离散视频编码,并且支持提出的预训练及微调的两阶段训练模式,提出表达力极强的离散扩散模型(Discrete Diffusion)架构进行视频建模。

模型训练中通过引入一个掩码和替换的扩散策略,能够学习到视频中的动态变化规律,并生成在潜在空间中具有连贯性的未来视频 token。

这一过程不仅涉及对视频内容的理解,还包括对视频上下文的深入分析,从而为机器人策略学习提供了丰富的先验知识。见图 2 第二阶段所示。

世界模型驱动的具身策略学习

通过从大规模人类数据集中学习世界模型,模型已经编码了的普适的视频预测模式,在下游机器人任务中仅需要依赖少量机器人数据就能够快速的学习策略。

具体的,提出了基于少量样本的微调策略,通过冻结预训练模型并仅调整动作学习网络的参数,能够在有限的机器人数据集上快速适应并预测动作序列。

在预训练阶段模型使用 Perceiver Transformer 作为噪声扩散模型的主干网络,在微调阶段使用 GPT2 作为主干网络以便于在小规模机器人数据集中进行策略学习。

这一微调过程有效地将从人类视频中学到的丰富视频预测知识转移到机器人控制任务中,显著提高了机器人在多任务操作中的性能和样本效率。见图 2 第三阶段所示。

实验结果

本方法在单视角视觉观测的机械臂操作任务集和使用多视角观测的 3D 操作任务集合中评估有效性。

结果发现,论文提出的方法可以在人类物体操作和机器人物体操作中成功预测准确的未来运动轨迹,无论是单视角还是多视角,这些都通过一个离散扩散模型生成。

下方视频显示了方法在合成人类操作视频方面的效果。在复杂的人类物体操作场景中,本文方法能够精确的建模人类手部的运动细节和运动轨迹,从而在构建世界模型中为机器人末端的运动提供指导。

进而,通过人类视频和机器人视频的统一 token 编码,人类操作视频的预测学习能够极大的帮助模型在少量机器人视频中学习具身世界模型。下方视频显示了机器人操作任务中,本方法能够准确根据自然语言指令对机械臂未来的轨迹进行预测和规划,从而指导下一阶段的机械臂动作预测。

此外,通过对少量真实机械臂操作视频的学习,世界模型可以快速泛化到对真实机械臂视频产生准确的预测,从而指导真实机械臂的策略学习。

通过具身世界模型的构建,模型能够在少量带有动作标记的数据中进行快速微调,从而使模型能够产生实际的机器人动作决策序列,指导下游任务的学习。

下面显示了在 RLBench 任务中的策略执行效果。通过多视角的视频预测,世界模型能够全方位预测机器人的周围环境变化,从而指导机器人在三维空间中进行复杂的任务决策。

研究总结

该成果提出了一种少样本的高效具身世界模型架构和训练方法,通过设计统一 token 编码、离散噪声扩散模型为基础的运动轨迹(视频)预训练、以及少量机器人数据的知识迁移和泛化,能够使用人类操作视频的行为模式指导机器人进行决策,从而解决了机器人数据代价昂贵的问题。

提出的方法可以灵活地处理各种视频输入的机械臂操作任务,包括单视角 2D 操作、多视角相机 3D 操作、真实机械臂操作等,为世界模型迈向机器人做出了重要贡献。

团队负责人介绍:  李学龙,中国电信集团 CTO、首席科学家,中国电信人工智能研究院(TeleAI)院长。主要关注人工智能、临地安防、影像处理、具身智能、噪声分析。

论文名称:

Learning an Actionable Discrete Diffusion Policy via Large-Scale Actionless Video Pre-Training

论文链接:

https://arxiv.org/abs/2402.14407

项目地址:

https://video-diff.github.io

—  完  —

投稿请发邮件到:

[email protected]

标题注明【投稿】,告诉我们:

你是谁,从哪来,投稿内容‍

附上论文 / 项目主页链接,以及联系方式哦

我们会(尽量)及时回复你

点这里关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~  

>
熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他的速度跟不上现代篮球的节奏 王治郅:杨瀚森主要的问题是速度 他的速度跟 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击外国电影 逼好莱坞等回美拍片 贸易战烧进电影院:特朗普拟重税打击外国电影 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天亏掉6年工资,卖掉舍不得,不卖扛不住 贷款追高炒黄金的人后悔了!有人一天亏掉6年 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回旋镖:「折寿」换容量 手机电池突破8000mAh?硅碳技术的回旋镖:「折 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天亏掉6年工资,卖掉舍不得,不卖扛不住 贷款追高炒黄金的人后悔了!有人一天亏掉6年 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵权诉讼,后者回应称将严肃对待 任天堂对Genki提起Switch 2商标侵权诉讼,后 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人士:之前断网因流量欠费 哪吒汽车APP和官网恢复正常 知情人士:之前断 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌两家公司被列入经营异常 极越汽车 CEO 夏一平名下青岛/义乌两家公司 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商联合银行 全国经济第一大省明确,推动组建农商联合银行 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅西 姆巴佩更专注进球&更像C罗 桑保利:亚马尔有配合意识&有点像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花 謝飛揚 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游 衛青柏 | 2023-05-04
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 — 袁曼雁 | 2023-05-02
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修 集玲琳 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线 袁曼雁 | 2023-05-07
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包 郟君昊 | 2023-05-02
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”, 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《 惠惠君 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們