大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

人大北邮等团队解视触觉感知统一难题,模型代码数据集全开源

2025-03-15 简体 HK SG TW

今天小编分享的科学经验:人大北邮等团队解视触觉感知统一难题,模型代码数据集全开源,欢迎阅读。

机器人怎样感知世界?

相比于 " 看得见 "," 摸得着 " 能够提供更直接且细腻的物理反馈,有助于准确判断物体特性,还在精确操控和复杂操作中发挥关键作用。

长期以来,通过各种触觉传感器赋予机器人类似人类的触觉感知能力,始终是具身智能重要研究方向。其中,由于具有与人类皮肤相匹配的高分辨率,视触觉传感器展现出了巨大的潜力。

那么是否存在一个适用于多种传感器、多种任务的通用视触觉表征学习范式?

来自中国人民大学高瓴人工智能学院 GeWu-Lab 实验室、北京邮电大学和武汉科技大学最近的合作研究提出从动静结合的新视角建模统一的多传感器触觉表征空间,通过多层级的学习框架,有效融合静态触觉信息(如材质、形状)与动态触觉特征(如滑动、形变),从而获得适应包含真实世界操纵在内的丰富触觉场景的通用表征。

论文已被 ICLR2025 接收,并对数据集、模型和代码进行了全部开源。

本文第一作者冯若轩为中国人民大学二年级硕士生,主要研究方向为多模态具身智能,师从胡迪副教授。作者来自于中国人民大学 GeWu-Lab,北京邮电大学以及武汉科技大学,其中方斌教授和胡迪副教授作为共同通讯

视触觉面临什么挑战?

即便具有那么多潜力,构建基于视触觉传感器的强大触觉感知系统仍面临诸多挑战。由于发展时间较短,视触觉传感器种类繁多且缺乏统一标准,不同的传感器在感知相同的触觉信息时存在一定差异。

这种异构性使得当前的视触觉数据采集和模型训练通常依赖于特定传感器,导致单一传感器模型的数据规模受限,难以涵盖丰富的触觉场景,从而制约了触觉感知系统的泛化能力和鲁棒性。

此外,人类的触觉感知是一个动态与静态信息交织的过程,能够从纹理、滑动和形变变化等多种信号精准地理解物体特性。这种对动态触觉细节的敏锐捕捉能力在精细机器操纵中同样至关重要,也是当前多传感器触觉感知模型所欠缺的。

本论文针对视触觉感知所面临的核心挑战,提出了一个配对的多传感器多模态触觉数据集 TacQuad,为利用数据驱动方法显式整合多种触觉传感器奠定基础。

更进一步地,本文提出动静结合的多传感器统一触觉表征学习框架 AnyTouch,为包含真实世界操纵的多种任务和多种视触觉传感器提供有效的触觉感知。

TacQuad:配对的多传感器多模态触觉数据集

想象一下,假如不同的照相机拍同一个物体,但由于镜头、光线、颜色处理方式等不同,最后的照片却各不相同——这会让 AI 很难直接理解它们其实是同一个物体。

类似地,不同的视触觉传感器使用的技术原理也略有不同,相当于 " 看世界的方式 " 各不相同,导致它们采集的数据很难直接迁移使用。究其根本,在于缺乏一个显式地配对多传感器数据,并允许模型从其他模态获取更全面的触觉知识、借助多模态数据弥合传感器差异的可靠触觉数据集。

△图 1 配对的多传感器多模态触觉数据集 TacQuad

为了让 AI 更聪明地 " 摸清世界 ",本工作采集了配对的多传感器多模态触觉数据集 TacQuad,通过提供包含文本描述和视觉影像的配对多传感器数据,支持以数据驱动的方式构建统一的多传感器触觉表征空间,从而为这一问题提供一个更全面的解决方案(如图 1 所示)。

为了确保数据的丰富性,团队精心挑选了四种触觉传感器:来自公开平台的 GelSight Mini 和 DIGIT,实验室自制的 DuraGel,以及能够感知力场的 Tac3D。

然而,考虑到收集细粒度多传感器配对数据成本高昂,为扩大数据采集的规模,同时尽可能地保证数据的对齐质量,团队使用粗粒度和细粒度两种方法采集了两组多传感器配对数据:

细粒度时空对齐数据:该部分数据通过将四个传感器以相同的速度按压同一物体的相同位置采集,共包含来自 25 个物体的 17524 个接触帧,可用于细粒度触觉任务,如跨传感器生成。

粗粒度空间对齐数据:该部分数据由人分别手持四个传感器,在同一物体上按压同一位置,尽管不能保证时间对齐,但可以尽可能地保证采集空间上的一致。该部分包含来自 99 个物体的 55082 个接触帧,包括室内和室外场景,可用于跨传感器匹配任务。

在 TacQuad 数据集中,每次触觉接触都会同时记录来自第三视角的视觉影像,并由 GPT-4o 生成对应的触觉属性描述。

这样,AI 不仅能 " 摸 " 到物体,还能 " 看到 " 并 " 理解 " 它的触感。

为进一步利用更多传感器的大量已有数据,本工作还利用 GPT-4o 对多个开源触觉数据集生成或扩展文本描述,让这些原本只包含传感器数据的数据集也拥有丰富的语言信息

AnyTouch:动静结合的多传感器统一触觉表征学习框架

在日常生活中,团队的触觉不仅仅是 " 摸一摸 " 那么简单,而是一个包含静态和动态过程的综合体验。比如,轻轻按压一块海绵可以感受到它的柔软(静态触觉),而用手指滑动还能感知它的纹理和弹性(动态触觉)。

这两种感知方式相辅相成,让团队能够更准确地理解周围的物理世界并与之互動。受此启发,本工作提出了 AnyTouch ——一个动静结合的多传感器统一触觉表征学习框架,分别使用触觉影像和视频,从静态和动态感知结合的角度学习统一的多传感器触觉表征(如图 2 所示)。

△图 2 动静结合的多传感器统一触觉表征学习框架 AnyTouch

为了适应不同的触觉场景的感知需求,AnyTouch 采用了多层级架构,分阶段提升模型的触觉感知能力。

在第一阶段中关注像素级的触觉细节,而第二阶段则学习传感器无关的语义级特征,使 AI 能更全面地理解和处理触觉信息:

掩码影像 / 视频建模(阶段 1):为增强触觉感知模型的细粒度感知能力,本框架采用掩码自编码器(MAE)技术,训练模型在多种传感器的数据输入中捕捉像素级细节。该框架随机遮挡触觉影像和视频的 Token 序列的一部分,并构建一个解码器来获得重建的静态影像和动态视频。为进一步强化模型对动态连续形变的理解,在重建动态视频时还引入未来帧预测的额外任务。

多模态对齐(阶段 2):本框架通过触觉 - 视觉 - 文本多模态对齐,对包含其他配对模态的多传感器触觉数据进行整合,以获得更全面的语义级触觉知识,并借其他模态作为桥梁减少传感器之间的感知差异。由于不同数据集视觉模态存在场景差异,本框架选择语义更一致的文本模态作为锚点,并为每个批次数据内的每种模态组合选择最大的数据子集进行对齐,从而最大限度地利用多模态配对数据。

跨传感器匹配(阶段 2):为充分地利用多传感器配对数据,并通过对表示相同触觉信息的多传感器触觉表征进行聚类来构建统一的空间,本框架引入了一个新的跨传感器匹配任务。在此任务中,模型需要确定输入的一对触觉影像或视频是否采集自同一对象上的同一位置。该任务的目标是在执行多模态对齐的同时,对来自不同传感器的相同触觉信息的表示进行聚类,从而增强对传感器无关特征的学习,形成一个统一的多传感器表征空间。

本框架还使用通用传感器 Token 来整合并存储与各传感器相关的信息,从而在泛化到新传感器时最大限度地利用多传感器训练数据。

实验与分析

为探究每种传感器数据对下游任务的贡献,本工作将 GelSight、GelSlim、DIGIT 和 GelSight Mini 的数据整合到 AnyTouch 训练中,获得四种模型,并在四个下游任务中比较。

如表 1 所示,与未接触触觉数据的 CLIP 模型相比,使用 GelSight 数据的训练显著提升了模型在所有任务上的性能,表明触觉表征预训练对新传感器的迁移至关重要。将其他传感器的数据整合后,模型在三个未见数据集上的性能提升,特别是在未见传感器的数据集上表现更好,证明这些数据的知识能够迁移到其他触觉传感器。

△表 1 整合各触觉传感器数据对模型性能的影响

为验证 AnyTouch 是否能将来自不同传感器的相同触觉信息聚集在一起,本工作从 TacQuad 细粒度子集的 30 次触摸中抽取每种传感器的一个接触帧,并输入 CLIP 模型以及逐步引入掩码建模、多模态对齐和跨传感器匹配的 AnyTouch 模型进行对比可视化(见图 3)。

CLIP 以及引入掩码建模后的模型难以辨别来自不同传感器的相同触觉信息,直接按传感器类型对样本进行聚类,这对于跨传感器泛化来说并不理想。加入多模态对齐后,表征开始基于触觉信息混合和聚类,但仍存在按传感器类型的聚类趋势。通过跨传感器匹配任务,来自不同传感器的触觉表征在共享空间中完全混合,能够明显地观察到表征根据触觉信息进行聚类,触觉表征逐渐从传感器依赖的特征转向更加通用的跨传感器信息。

△图 3 AnyTouch 中各组件对多传感器表征空间的影响

为验证统一多传感器表征在迁移触觉知识到已见与未见传感器上的优势,本工作将 AnyTouch 与现有的单传感器和多传感器模型,分别在已见与未见传感器的两个数据集上进行比较。

如表 2、表 3 所示,AnyTouch 在所有数据集上均优于现有方法,证明了其在静态感知能力上的优势。

△表 2(左)已见传感器数据集性能对比 表 3(右)未见传感器数据集性能对比

为测试 AnyTouch 在真实物体操纵任务中的动态感知能力,本工作在细粒度倾倒任务上进行了实验。在此任务中,机械臂需依靠触觉反馈从含 100 克小钢珠的量筒中倒出 60 克,如图 4 所示。各模型在 10 次真实世界测试中的平均误差对比如表 4 所示。结果表明,从动静结合角度学习统一的多传感器表示对于完成包括现实世界任务在内的各种任务至关重要。

△图 4(左)真实世界倾倒任务示意图 表 4(右)倾倒任务性能对比

本文从全新的动静结合角度构建统一的多传感器触觉表征空间,提出配对的多传感器多模态触觉数据集 TacQuad 以提供显式整合多传感器的数据支撑,并在此基础上提出动静结合的多传感器统一触觉表征学习框架,通过多层级的方式学习适用于各种任务的通用触觉表征。

团队表示,相信从静态与动态结合的角度学习统一的多传感器表征的方法能够为视触觉感知建立一个标准化的学习范式,并进一步激发多传感器表征学习的研究。

目前工作还在进一步拓展中,欢迎更多触觉设备的加入,共同构建并扩大触觉表征世界,如有兴趣请邮件联系 [email protected]。

论文链接:  https://arxiv.org/abs/2502.12191

项目主页:  https://gewu-lab.github.io/AnyTouch/

—  完  —

学术投稿请于工作日发邮件到:

[email protected]

标题注明【投稿】,告诉我们:

你是谁,从哪来,投稿内容‍

附上论文 / 项目主页链接,以及联系方式哦

我们会(尽量)及时回复你

一键关注 点亮星标

科技前沿进展每日见

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他 王治郅:杨瀚森主要的问题是速度 他 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击 贸易战烧进电影院:特朗普拟重税打击 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回 手机电池突破8000mAh?硅碳技术的回 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵 任天堂对Genki提起Switch 2商标侵 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人 哪吒汽车APP和官网恢复正常 知情人 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌 极越汽车 CEO 夏一平名下青岛/义乌 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商 全国经济第一大省明确,推动组建农商 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅 桑保利:亚马尔有配合意识&有点像梅 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 集玲琳 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花板”? 謝飛揚 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 衛青柏 | 2023-05-04
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修正案 集玲琳 | 2023-05-02
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 袁曼雁 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 寸飛蘭 | 2023-05-05
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压处理器 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 郟君昊 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 惠惠君 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 嬴覓晴 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們