大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

无需大量标注也能理解3D!新研究登上ICLR 2025 Spotlight

2025-03-09 简体 HK SG TW

今天小编分享的科学经验:无需大量标注也能理解3D!新研究登上ICLR 2025 Spotlight,欢迎阅读。

只要极少量的标注样本,就能让模型精准分割 3D 场景?

来自哥本哈根大学、苏黎世联邦理工学院等机构的研究人员,提出了一个全新的多模态 Few-shot 3D 分割设定和创新方法。

无需额外标注成本,该方法就可以融合文本、2D 和 3D 信息,让模型迅速掌握新类别。

△3D Few-shot 分割结果示例

人形机器人、VR/AR,以及自动驾驶汽车,都依赖于对 3D 场景的精确理解。

然而,这种精准的 3D 理解往往需要大量详细标注的 3D 数据,极大推高了时间成本和资源消耗。

Few-shot 学习是一种有效的解决思路,但当前研究都局限于单模态点云数据,忽略了多模态信息的潜在价值。

对此,这项新研究填补了这一空白,文章已被 ICLR 2025 接收为 Spotlight 论文。

整合多模态信息,理解 3D 场景

3D 场景理解在具身智能、VR/AR 等领網域至关重要,帮助设备准确感知和解读三维世界。

然而,传统全监督模型虽在特定类别上表现出色,但其能力局限于预定义类别。

每当需要识别新类别时,必须重新收集并标注大量 3D 数据以及重新训练模型,这一过程既耗时又昂贵,极大地制约了模型的应用广度。

3D Few-shot 学习旨在利用极少量的示例样本以适应模型来有效的识别任意的全新类别,大大降低了新类适应的开销,使得传统的 3D 场景理解模型不再局限于训练集中有限的类别标签,对广泛的应用场景有重要的价值。

具体而言,对于 Few-shot 3D 点云语义分割(FS-PCS)任务,模型的输入包括少量支持样本(包含点云及对应新类标签)和查询点云。

模型需要通过利用支持样本获得关于新类别的知识并应用于分割查询点云,预测出查询点云中关于新类别的标签。

在模型训练和测试时使用的目标类别无重合,以保证测试时使用的类均为新类,未被模型在训练时见过。

目前,该领網域涌现出的工作都只利用点云单模态的输入,忽略了利用多模态信息的潜在的益处。

对此,这篇文章提出一个全新的多模态 Few-shot 3D 分割设定,利用了文本和 2D 模态且没有引入额外的标注开销。

在这一设定下,他们推出了创新模型——MultiModal Few-Shot SegNet  ( MM-FSS ) 。

该模型通过充分整合多模态信息,有效提升小样本上新类别的学习与泛化能力,证明了利用普遍被忽略的多模态信息对于实现更好的小样本新类泛化的重要性。

多模态 FS-PCS vs   传统设定

△传统和多模态 FS-PCS 设定对比

(为便于讨论,以下都将 Few-shot 3D 点云语义分割简称为 FS-PCS。)

传统的 FS-PCS 任务中,模型的输入包含少量的支持点云以及对应的新类别的标注(support point cloud & support mask)。

此外,输入还包括查询点云(query point cloud)。模型需借助 support 样本中关于新类别的知识,在 query 点云中完成新类别分割。

而作者引入的多模态 FS-PCS 包括了除 3D 点云之外的两个额外模态——文本和 2D。

文本模态相应于支持样本中的目标类别 / 新类的名称。2D 模态相应于 2D 图片,往往伴随 3D 场景采集同步获得。

值得注意的是,2D 模态仅用于模型预训练,不要求在 meta-learning 和测试时作为输入,保证了其 Few-shot 输入形式与传统 FS-PCS 对齐,仅需要相同的数据且无需额外标注。

引入特征分支和有效的跨模态融合

MM-FSS 在 Backbone 后引入了两个特征提取分支:

Intermodal Feature ( IF ) Head(跨模态特征头),学习与 2D 视觉特征对齐的 3D 点云特征。

Unimodal Feature ( UF ) Head(单模态特征头),提取 3D 点云本身的特征。

△MM-FSS 模型架构

在预训练阶段,MM-FSS 先进行跨模态对齐预训练,通过利用 3D 点云和 2D 图片数据对,使用 2D 视觉 - 语言模型(VLM)输出的 2D 特征监督 IF head 输出的 3D 特征,使得 IF Head 学习到与 2D 视觉 - 语言模型对齐的 3D 特征。

这一阶段完成后,Backbone 和 IF Head 保持冻结,确保模型在 Few-shot 学习时能利用其预训练学到的 Intermodal 特征。这样,在 Few-shot 任务中无需额外的 2D 输入,仅依赖 Intermodal 特征即可获益于多模态信息。

此外,该特征也隐式对齐了 VLM 的文本特征,为后续阶段利用重要的文本引导奠定基础。

而在 Few-shot 训练(称为 meta-learning)时,给定输入的 support 和 query 点云,MM-FSS 分别将 IF Head 和 UF Head 输出的两套特征计算出对应的两套 correlations(correlations 表示每个 query 点和目标类别 prototypes 之间的特征相似度)。

两套 correlations 会通过 Multimodal Correlation Fusion ( MCF ) 进行融合,生成初始多模态 correlations,包含了 2D 和 3D 的视觉信息。

这个过程可以表示为:

其中 Ci 和 Cu 分别表示用 IF Head 和 UF Head 特征算得的 correlations。C0 为 MCF 输出的初始多模态 correlations。

当前获得的多模态 correlations 融合了不同的视觉信息源,但文本模态中的语义信息尚未被利用,因此设计了 Multimodal Semantic Fusion ( MSF ) 模块,进一步利用文本模态特征作为语义引导,提升多模态 correlations:

其中 Gq 为文本模态的语义引导,Wq 为文本和视觉模态间的权重(会动态变化以考虑不同模态间变化的相对重要性),Ck 为多模态 correlations。

到测试阶段,为缓解 Few-shot 模型对于训练类别的 training bias(易被测试场景中存在的训练类别干扰,影响新类分割),MM-FSS 在测试时引入 Test-time Adaptive Cross-modal Calibration ( TACC ) 。

TAAC 利用跨模态的语义引导(由 IF Head 生成)适应性地修正预测结果,实现更好的泛化。

跨模态的语义引导未经 meta-learning 训练,有更少的 training bias。

为了有效的执行测试时修正,作者提出基于支持样本及其标签估算可靠性指标,用于自动调整修正程度(当该语义引导可靠性更高时,分配更大的修正权重,否则分配更小的权重):

其中 Pq 为模型的预测,Gq 为跨模态语义引导,γ 为适应性指标。

通过借助支持点云以及可用的支持点云标签可以如下计算 γ 作为修正可靠成都的估计:

实现 few-shot 任务最佳性能

实验在两个标准的 FS-PCS 数据集上进行,证明了 MM-FSS 在各类 few-shot 任务中都实现了最佳性能。

可视化也清楚表明了模型能够实现更优的新类分割,展示了更强的新类泛化能力。更多详细实验和分析内容请参见论文。

总之,这项工作首次提出了全新的多模态 FS-PCS 设定,无额外开销地融合文本和 2D 模态。在该设定下,作者提出首个多模态 FS-PCS 模型 MM-FSS。

MM-FSS 包含了 MCF 和 MSF 来有效的从视觉线索和语义信息双重角度高效聚合多模态知识,增强对新类概念的全面理解。

同时,MM-FSS 也揭示了过往被普遍忽略的 " 免费 " 多模态信息对于小样本适应的重要性,为未来的研究提供了宝贵的新视野且开放了更多有趣的潜在方向。

可参考的方向包括性能的提升、训练和推理效率的优化,更深入的模态信息利用等。

作者简介

该文章的第一作者安照崇,目前在哥本哈根大学攻读博士学位,导师为 Serge Belongie。

他硕士毕业于苏黎世联邦理工学院(ETH Zurich),在硕士期间跟随导师 Luc Van Gool 进行了多个研究项目。

他的主要研究方向包括 3D/ 视频理解、小样本学习以及多模态学习。

文章的通讯作者是苏黎世联邦理工的孙国磊博士和南开大学的刘云教授。

欢迎关注论文和代码,了解更多细节!

论文:

https://arxiv.org/abs/2410.22489

代码:

https://github.com/ZhaochongAn/Multimodality-3D-Few-Shot

—  完  —

学术投稿请于工作日发邮件到:

[email protected]

标题注明【投稿】,告诉我们:

你是谁,从哪来,投稿内容‍

附上论文 / 项目主页链接,以及联系方式哦

我们会(尽量)及时回复你

一键关注 点亮星标

科技前沿进展每日见

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他 王治郅:杨瀚森主要的问题是速度 他 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击 贸易战烧进电影院:特朗普拟重税打击 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回 手机电池突破8000mAh?硅碳技术的回 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵 任天堂对Genki提起Switch 2商标侵 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人 哪吒汽车APP和官网恢复正常 知情人 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌 极越汽车 CEO 夏一平名下青岛/义乌 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商 全国经济第一大省明确,推动组建农商 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅 桑保利:亚马尔有配合意识&有点像梅 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花板”? 謝飛揚 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 衛青柏 | 2023-05-04
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 袁曼雁 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 寸飛蘭 | 2023-05-05
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修正案 集玲琳 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压处理器 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 郟君昊 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 惠惠君 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 嬴覓晴 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們