大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

空间智能新进展:教机器人组装宜家家具,首次实现操作步骤与真实视频对齐

2024-11-27 简体 HK SG TW

今天小编分享的科学经验:空间智能新进展:教机器人组装宜家家具,首次实现操作步骤与真实视频对齐,欢迎阅读。

斯坦福吴佳俊团队,给机器人设计了一套组装宜家家具的视频教程!

具体来说,团队提出了用于机器人的大型多模态数据集IKEA Video Manuals,已入选 NeurIPS。

数据集涵盖了 6 大类 IKEA 家具,每种家具都包含完整的 3D 模型、组装说明书和实际组装视频。

而且划分精细,拆解出的安装子步骤多达 1000 多个。

作者介绍,该数据集首次实现了组装指令在真实场景中的 4D 对齐,为研究这一复杂问题提供了重要基准。

知名科技博主、前微软策略研究者Robert Scoble说,有了这个数据集,机器人将可以学会自己组装家具。

团队成员、斯坦福访问学者李曼玲(Manling Li)表示,这是空间智能领網域的一项重要工作:

这项工作将组装规划从 2D 推进到 3D 空间,通过理解底层视觉细节,解决了空间智能研究中的一个主要瓶颈。

1120 个子步骤详述组装过程

IKEA Video Manuals 数据集中,涵盖了 6 大类 36 种 IKEA 家具,从简单的凳子到复杂的柜子,呈现了不同难度的组装任务。

每一款家具,都包括以下三种模态:

安装说明书,提供了任务的整体分解和关键步骤;

真实组装视频,展示了详细的组装过程;

3D 模型,定义了部件之间的精确空间关系。

并且这三种模态并非简单地堆砌在一起,作者通过对视频和操作步骤的拆解,将三种模态进行了精细的对齐。

举个例子,在这样一条关于长凳的数据当中,包含了其基本概况、视频信息、关键帧信息,以及安装步骤。

从下图中可以看出,安装步骤当中有主要步骤和子步骤的划分,还标注了对应的视频位置。

整个数据集中,共包含了 137 个手册步骤,根据安装视频被细分为了 1120 个具体子步骤,捕捉了完整的组装过程。

并且通过 6D Pose 追踪,每个部件的空间轨迹都被精确记录,最终在视频帧、家具组装说明书和 3D 模型之间建立了密集的对应关系。

时空信息精细标注

IKEA Video Manuals 数据集是在 IKEA-Manual 和 IKEA Assembly in the Wild(IAW)两个数据集的基础上建立的。

其中,IKEA-Manual 数据集提供了模型及其对应说明书,IAW 则包含了大量用户组装宜家家具的视频片段。

这些视频来自 90 多个不同的环境,包括室内外场景、不同光照条件,真实反映了家具组装的多样性。

与在实验室环境下采集的数据相比,这些真实视频带来了更丰富的挑战:

部件经常被手或其他物体遮挡;

相似部件识别(如四条一模一样的桌子腿);

攝影機频繁移动、变焦,带来参数估计的困难;

室内外场景、不同光照条件下的多样性。

为了获得高质量的标注,应对真实视频带来的挑战,研究团队建立了一套可靠的标注系统:

识别并标注相机参数变化的关键帧,确保片段内的一致性;

结合 2D-3D 对应点和 RANSAC 算法进行相机参数估计;

通过多视角验证和时序约束保证标注质量。

首先,研究者们首先定义了一套层次化的装配过程描述框架,将整个装配过程分为步骤、子步骤和视频帧等多个层级。

作者首先从 IAW 数据集中提取每个手动步骤的视频片段,并将每个视频片段分解为更小的间隔(子步骤)。

对于每个子步骤,作者以 1FPS 的速度采样视频帧,并在每个子步骤的第一帧得標注出家具部件。

为了在整个组装视频中对家具部件进行跟踪,作者还在采样帧中为 3D 部件注释了 2D 影像分割掩码。

为了促进注释过程,研究团队开发了一个显示辅助 2D 和 3D 信息的 Web 界面,同时该界面还可基于 Segment Anything Model(SAM)模型进行互動式掩码注释。

标注过程中,标注人员会在 3D 模型上选中零件,然后在 2D 视频帧上指示其大致位置,并将其输入到 SAM 模型中以实时生成 2D 分割掩码。

为了解决 SAM 在提取具有相似纹理的部分之间或低光区網域的边界方面的固有局限,作者还允许标注人员使用画笔和橡皮擦工具进行手动调整。

此外,作者还要估计视频中的相机参数,为此研究者们首先人工标记出视频帧中可能出现相机运动(如焦距变化、切换视角等)的位置,然后标注出视频帧和 3D 模型之间的 2D-3D 对应关键点。

最后,结合这两类标注信息,研究者们使用 PnP (Perspective-n-Point)算法估计出每段视频的相机内参数,得到相机参数的初始估计后,利用互動式工具来细化每个视频帧中零件的 6D 姿态。

空间模型能力评估

基于 IKEA Video Manuals 数据集,团队设计了多个核心任务来评估当前 AI 系统在理解和执行家具组装,以及空间推理(spatial reasoning)方面的能力。

首先是基于 3D 模型的分割(Segmentation)与姿态估计 (Pose Estimation)。

此类任务输入 3D 模型和视频帧,要求 AI 准确分割出特定部件区網域,并估计其在视频中的 6 自由度姿态。

△上:基于 3D 模型的分割,下:基于 3D 模型的姿态估计

实验测试了最新的分割模型(CNOS, SAM-6D)和姿态估计模型(MegaPose)。

分析发现,它们在以下场景表现不佳:

遮挡问题:手部遮挡、近距离拍摄导致部分可见、遮挡引起的深度估计误差;

特征缺失:缺乏纹理的部件难以分割、对称部件的方向难以判断;

特殊拍摄角度(如俯视)导致的尺度误判。

△上:遮挡问题,左下:特征缺失,右下:特殊角度

第二类任务是视频目标分割,作者对比测试了两个最新的视频追踪模型 SAM2 和 Cutie。

结果显示,在真实组装场景中,这些模型同样面临着三大挑战。

一是相机的运动,可能导致目标丢失。

二是难以区分外观相似的部件(如多个相同的桌腿)。

最后,保持长时间追踪的准确度也存在一定难度。

第三类任务,是基于视频的形状组装。

团队提出了一个创新的组装系统,包含关键帧检测、部件识别、姿态估计和迭代组装四个步骤。

实验采用两种設定:

使用 GPT-4V 自动检测关键帧:结果不理想,Chamfer Distance 达 0.55,且 1/3 的测试视频未能完成组装;

使用人工标注的关键帧:由于姿态估计模型的局限性,最终 Chamfer Distance 仍达 0.33。

这些实验结果揭示了当前 AI 模型的两个关键局限:

视频理解能力不足:当前的视频模型对时序信息的分析仍然较弱,往往停留在单帧影像分析的层面;

空间推理受限:在真实场景的复杂条件下(如光照变化、视角改变、部件遮挡等),现有模型的空间推理能力仍显不足。

作者简介

本项目第一作者,是斯坦福大学计算机科学硕士生刘雨浓(Yunong Liu)目前在斯坦福 SVL 实验室(Vision and Learning Lab),由吴佳俊教授指导。

她本科毕业于爱丁堡大学电子与计算机科学专业(荣誉学位),曾在德克萨斯大学奥斯汀分校从事研究实习。

斯坦福大学助理教授、清华姚班校友吴佳俊,是本项目的指导教授。

另据论文信息显示,斯坦福大学博士后研究员刘蔚宇(Weiyu Liu),与吴佳俊具有同等贡献。

此外,Salesforce AI Research 研究主任 Juan Carlos Niebles,西北大学计算机科学系助理教授、斯坦福访问学者李曼玲(Manling Li)等人亦参与了此项目。

其他作者情况如下:

项目主页:

https://yunongliu1.github.io/ikea-video-manual/

论文地址:

https://arxiv.org/abs/2411.11409

熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他的速度跟不上现代篮球的节奏 王治郅:杨瀚森主要的问题是速度 他的速度跟 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击外国电影 逼好莱坞等回美拍片 贸易战烧进电影院:特朗普拟重税打击外国电影 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天亏掉6年工资,卖掉舍不得,不卖扛不住 贷款追高炒黄金的人后悔了!有人一天亏掉6年 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回旋镖:「折寿」换容量 手机电池突破8000mAh?硅碳技术的回旋镖:「折 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天亏掉6年工资,卖掉舍不得,不卖扛不住 贷款追高炒黄金的人后悔了!有人一天亏掉6年 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵权诉讼,后者回应称将严肃对待 任天堂对Genki提起Switch 2商标侵权诉讼,后 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人士:之前断网因流量欠费 哪吒汽车APP和官网恢复正常 知情人士:之前断 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌两家公司被列入经营异常 极越汽车 CEO 夏一平名下青岛/义乌两家公司 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商联合银行 全国经济第一大省明确,推动组建农商联合银行 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅西 姆巴佩更专注进球&更像C罗 桑保利:亚马尔有配合意识&有点像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花 謝飛揚 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游 衛青柏 | 2023-05-04
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 — 袁曼雁 | 2023-05-02
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修 集玲琳 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”, 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《 惠惠君 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們