大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

李飞飞「具身智能」新成果!机器人接入大模型直接听懂人话,0预训练就能完成复杂指令

2023-07-11 简体 HK SG TW

今天小编分享的科学经验:李飞飞「具身智能」新成果!机器人接入大模型直接听懂人话,0预训练就能完成复杂指令,欢迎阅读。

李飞飞团队具身智能最新成果来了:

大模型接入机器人,把复杂指令转化成具体行动规划,无需额外数据和训练。

从此,人类可以很随意地用自然语言给机器人下达指令,如:

打开上面的抽屉,小心花瓶!

大语言模型 + 视觉语言模型就能从 3D 空间中分析出目标和需要绕过的障碍,帮助机器人做行动规划。

然后重点来了, 真实世界中的机器人在未经 " 培训 " 的情况下,就能直接执行这个任务。

新方法实现了零样本的日常操作任务轨迹合成,也就是机器人从没见过的任务也能一次执行,连给他做个示范都不需要。

可操作的物体也是开放的,不用事先划定范围,开瓶子、按开关、拔充电线都能完成。

目前项目主页和论文都已上线,代码即将推出,并且已经引起学术界广泛兴趣。

一位前微软研究员评价到:这项研究走在了人工智能系统最重要和最复杂的前沿。

具体到机器人研究界也有同行表示:给运动规划领網域开辟了新世界。

还有本来没看到 AI 危险性的人,因为这项 AI 结合机器人的研究而改变看法。

机器人如何直接听懂人话?

李飞飞团队将该系统命名为 VoxPoser,如下图所示,它的原理非常简单。

首先,给定环境信息(用相机采集 RGB-D 影像)和我们要执行的自然语言指令。

接着,LLM(大语言模型)根据这些内容编写代码,所生成代码与 VLM(视觉语言模型)进行互動,指导系统生成相应的操作指示地图,即3D Value Map。

所谓 3D Value Map,它是 Affordance Map 和 Constraint Map 的总称,既标记了" 在哪里行动 ",也标记了" 如何行动 "。

如此一来,再搬出动作规划器,将生成的 3D 地图作为其目标函数,便能够合成最终要执行的操作轨迹了。

而从这个过程我们可以看到,相比传统方法需要进行额外的预训练,这个方法用大模型指导机器人如何与环境进行互動,所以直接解决了机器人训练数据稀缺的问题。

更进一步,正是由于这个特点,它也实现了零样本能力,只要掌握了以上基本流程,就能 hold 任何给定任务。

在具体实现中,作者将 VoxPoser 的思路转化为一个优化问题,即下面这样一个复杂的公式:

它考虑到了人类下达的指令可能范围很大,并且需要上下文理解,于是将指令拆解成很多子任务,比如开头第一个示例就由 " 抓住抽屉把手 " 和 " 拉开抽屉 " 组成。

VoxPoser 要实现的就是优化每一个子任务,获得一系列机器人轨迹,最终最小化总的工作量和工作时间。

而在用 LLM 和 VLM 将语言指令映射为 3D 地图的过程中,系聯考虑到语言可以传达丰富的语义空间,便利用 "感兴趣的实体 ( entity of interest ) " 来引导机器人进行操作,也就是通过 3DValue Map 得標记的值来反应哪个物体是对它具有 " 吸引力 " 的,那些物体是具有 " 排斥性 "。

还是以开头的例子举,抽屉就是 " 吸引 " 的,花瓶是 " 排斥 " 的。

当然,这些值如何生成,就靠大语言模型的理解能力了。

而在最后的轨迹合成过程中,由于语言模型的输出在整个任务中保持不变,所以我们可以通过缓存其输出,并使用闭环视觉反馈重新评估生成的代码,从而在遇到干扰时快速进行重新规划。

因此,VoxPoser 有着很强的抗干扰能力。

‍

‍△ 将废纸放进蓝色托盘

以下分别是 VoxPoser 在真实和模拟环境中的表现(衡量指标为平均成功率):

可以看到,无论是哪种环境哪种情况(有无干扰、指令是否可见),它都显著高于基于原语的基线任务。

最后,作者还惊喜地发现,VoxPoser 产生了4 个 " 涌现能力 ":

(1)评估物理特性,比如给定两个质量未知的方块,让机器人使用工具进行物理实验,确定哪个块更重;

(2)行为常识推理,比如在摆餐具的任务中,告诉机器人 " 我是左撇子 ",它就能通过上下文理解其含义;

(3)细粒度校正,比如执行 " 给茶壶盖上盖子 " 这种精度要求较高的任务时,我们可以向机器人发出 " 你偏离了 1 厘米 " 等精确指令来校正它的操作;

(4)基于视觉的多步操作,比如叫机器人将抽屉精准地打开成一半,由于没有对象模型导致的信息不足可能让机器人无法执行这样的任务,但 VoxPoser 可以根据视觉反馈提出多步操作策略,即首先完全打开抽屉同时记录搖桿位移,然后将其推回至中点就可以满足要求了。

李飞飞:计算机视觉的 3 颗北极星

大约一年前,李飞飞在美国文理学会会刊上撰文,指出计算机视觉发展的三个方向:

具身智能(Embodied AI)

视觉推理(Visual Reasoning)

场景理解(Scene Understanding)

李飞飞认为,具身智能不单指人形机器人,任何能在空间中移动的有形智能机器都是人工智能的一种形式。

正如 ImageNet 旨在表示广泛且多样化的现实世界影像一样,具身智能研究也需要解决复杂多样的人类任务,从叠衣服到探索新城市。

遵循指令执行这些任务需要视觉,但需要的不仅仅是视觉,也需要视觉推理理解场景中的三维关系。

最后机器还要做到理解场景中的人,包括人类意图和社会关系。比如看到一个人打开冰箱能判断出他饿了,或者看到一个小孩坐在大人腿上能判断出他们是亲子关系。

机器人结合大模型可能正是解决这些问题的一个途径。

除李飞飞外,参与本次研究的还有清华姚班校友吴佳俊,博士毕业于 MIT,现为斯坦福大学助理教授。

论文一作Wenlong Huang现为斯坦福博士生,在谷歌实习期间参与了 PaLM-E 研究。

论文地址:

https://voxposer.github.io/voxposer.pdf

项目主页:

https://voxposer.github.io/

参考链接:

[ 1 ] https://twitter.com/wenlong_huang/status/1677375515811016704

[ 1 ] https://www.amacad.org/publication/searching-computer-vision-north-stars

熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他的速度跟不上现代篮球的节奏 王治郅:杨瀚森主要的问题是速度 他的速度跟 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击外国电影 逼好莱坞等回美拍片 贸易战烧进电影院:特朗普拟重税打击外国电影 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天亏掉6年工资,卖掉舍不得,不卖扛不住 贷款追高炒黄金的人后悔了!有人一天亏掉6年 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回旋镖:「折寿」换容量 手机电池突破8000mAh?硅碳技术的回旋镖:「折 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天亏掉6年工资,卖掉舍不得,不卖扛不住 贷款追高炒黄金的人后悔了!有人一天亏掉6年 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵权诉讼,后者回应称将严肃对待 任天堂对Genki提起Switch 2商标侵权诉讼,后 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人士:之前断网因流量欠费 哪吒汽车APP和官网恢复正常 知情人士:之前断 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌两家公司被列入经营异常 极越汽车 CEO 夏一平名下青岛/义乌两家公司 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商联合银行 全国经济第一大省明确,推动组建农商联合银行 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅西 姆巴佩更专注进球&更像C罗 桑保利:亚马尔有配合意识&有点像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花 謝飛揚 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖 集玲琳 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游 衛青柏 | 2023-05-04
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修 集玲琳 | 2023-05-02
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 — 袁曼雁 | 2023-05-02
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”, 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《 惠惠君 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們