大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

摆脱编码器依赖!Encoder-free 3D多模态大模型,性能超越13B现有SOTA

2025-02-28 简体 HK SG TW

今天小编分享的科学经验:摆脱编码器依赖!Encoder-free 3D多模态大模型,性能超越13B现有SOTA,欢迎阅读。

无编码器多模态大模型被拓展到 3D 领網域——

3D 编码器的功能被融入 LLM 本身,无编码器 3D LMM 适应不同的点云分辨率,摆脱预训练编码器的依赖。

来自上海 AI Lab、西北工业大学、香港中文大学、清华大学等提出ENEL,在预训练阶段探索了如何使用自监督损失将 3D 编码器的功能整合到 LLM 本身,在指令调优阶段提出了一种层次几何聚合策略,基于 PointLLM 首次全面研究了无编码器架构在 3D 多模态大模型中的潜力。

在 Objaverse 基准测试中,ENEL 表现突出,性能上超越目前 SOTA ShapeLLM-13B。

基于编码器架构的 3D LMM 的局限性

针对 3D 大型多模态模型(LMMs),基于编码器的架构存在以下潜在问题:

(1)点云分辨率限制。3D 编码器通常在固定分辨率的点云数据上进行预训练(如 PointBERT 中的 1024 个点)。然而在推理过程中,点云的分辨率可能发生变化(例如,8192 或 512 个点),这导致训练与推理分辨率不一致,从而在提取 3D 嵌入时丢失空间信息,影响 LLM 的理解能力,如图 ( a ) 所示。

(2)嵌入语义差异。3D 编码器通常采用自监督学习方法(如掩码自编码器和对比学习)进行预训练,但其训练目标与 LLMs 的语义需求可能不完全一致,因此无法捕捉 LLMs 理解 3D 物体所需的关键语义信息,如图 ( b ) 所示。

简单的 MLP 通常也难以实现充分的语义转换。从上图可见,ENEL 的无编码器架构提供了更高的灵活性和更强的泛化性,更多关注到 3D 关键语义。

应用自监督损失将 3D 编码器纳入 LLM 本身

无编码器结构首先面临的问题是如何提取高层次 3D 语义信息,避免模型难以捕捉 3D 点云的复杂空间结构。可以观察到从 PointLLM 中拿掉 Encoder 后,模型性能显著下降。

PointLLM 原生的 token embedding 模块过于粗粒度,为了减少信息损失并提供精细的局部特征,团队采用了一个来自 Point-PN 的轻量化变体小型网络。

具体而言,对于点云团队通过 FPS 进行下采样,采用 knn 进行局部聚合,并使用可学习的线性层进行特征编码。结果表明团队设计的 embedding 模块相比可以带来明显的性能提升。

为了让 LLM 进一步承担 encoder 的编码功能,在预训练阶段尝试了将 LLM 的前几层设为可学习来挖掘点云特征中的高级语义信息,结果发现较小的学习率能够带来更好的结果。

通过以上两种改变,无编码器结构已经与基于编码器的 PointLLM 在描述任务上持平。

当前的 3D 编码器大多依靠自监督损失学习提取并编码高层次 3D 语义信息 , 主要分为掩蔽建模损失 ( a ) 、重建损失 ( b ) 、对比损失 ( c ) 和知识蒸馏损失 ( d ) 。

基于编码器架构的 3D LMM 在训练时依靠对文字部分应用自回归损失进行学习,那是否能同时对点云部分应用自监督损失,将 3D 编码器的能力整合进 LLM 本身?

团队在预训练阶段实现并评估了这些损失对无编码器 3D LMM 的影响。

具体而言,掩蔽建模损失和重建损失分别对点云掩码 token 的部分进行恢复和对全体点云 token 进行重建,而知识蒸馏损失采用 uni3d-L 在特征层面进行蒸馏。

最后团队提出了一种混合语义损失,先对点云 token 进行随机掩码,然后将 mask token 拼接在 visible token 的后面以符合自回归逻辑,同时对 visible token 计算重建损失,这种混合方法不仅能够有效地将高层次语义信息嵌入 LLM 中,还能确保在整个点云学习过程中,几何信息的一致性得以保持。

从实验结果中可以观察到,自监督学习损失在无编码器 3D LMM 中通常具有积极影响,通过精心设计的任务促使 LLM 在学习过程中捕捉潜在的几何关系以及深层次的语义信息。

其中,掩蔽建模损失展现出最为显著的性能提升。

相较之下,知识蒸馏损失的提升效果较为有限,表现逊色于前两种损失类型。

层次几何聚合策略感知 3D 局部细节

传统的 3D 编码器往往通过将显式的归纳偏置嵌入其架构中,逐步捕捉多层次的 3D 几何特征。例如,像 Point-M2AE 这样的模型采用了局部到全局的层次结构,这一结构在 2D 影像处理中常见于卷积层。相比之下,无编码器架构的 LLM 没有明确的局部建模模块,主要依赖自注意力机制来建模全局互動。

因此,如何将归纳偏置有效地整合到 LLM 中,以增强其对 3D 几何结构的感知能力,成为一个重要问题。

基于提出的混合语义损失,在指令调优阶段,团队探索了如何促使 LLM 主动感知 3D 局部细节,同时补充其已学习的全局语义信息。为此,团队设计了层次几何聚合策略。

具体来说,从 LLM 的第二层开始,通过最远点采样将输入点云 token 下采样,将令牌数量减少至 M/2 并选取局部中心。接着,利用 k-NN 算法获取邻近点,并通过门控自注意力机制捕捉局部几何信息。

最终,通过池化操作融合邻近点特征,得到 M/2 长度的特征表示,并重复 l-1 次,完成几何聚合。通过多层 LLM 层后,再通过 l 次几何传播将聚合后的特征从局部中心传播至邻近点,最终恢复为长度为 M 的点云特征,增强模型对局部和全局几何结构的感知。

实验结果:定性定量分析

定性实验中,团队可视化了 PointLLM 和 ENEL 最后一层中,平均文本 token 与点云 token 之间的注意力得分。

团队选择了三种物体类别:椅子、飞机和台灯。

图中红色表示较高的注意力得分。

结果显示,ENEL 作为无编码器架构,能够实现两种模态特征之间的高相关性,平均文本 token 聚焦于物体的关键几何结构。

在 Objaverse 基准测试中,ENEL-7B 在描述和分类任务上超越了同等规模甚至 13B 的模型。此外,在 3D MM-Vet 数据集的 3D-VQA 任务中,尽管训练数据缺乏空间和具身互動信息,ENEL 仍取得了 42.7% 的 GPT 得分,领先 PointLLM-7B 1.5%。

定性定量结果验证了混合语义损失和层次几何聚合策略在无编码器架构中的有效性。

代码链接:

https://github.com/Ivan-Tang-3D/ENEL.

论文链接:

https://arxiv.org/pdf/2502.09620v1

—  完  —

学术投稿请于工作日发邮件到:

[email protected]

标题注明【投稿】,告诉我们:

你是谁,从哪来,投稿内容‍

附上论文 / 项目主页链接,以及联系方式哦

我们会(尽量)及时回复你

一键关注 点亮星标

科技前沿进展每日见

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他的速度跟不上现代篮球的节奏 王治郅:杨瀚森主要的问题是速度 他的速度跟 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击外国电影 逼好莱坞等回美拍片 贸易战烧进电影院:特朗普拟重税打击外国电影 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天亏掉6年工资,卖掉舍不得,不卖扛不住 贷款追高炒黄金的人后悔了!有人一天亏掉6年 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回旋镖:「折寿」换容量 手机电池突破8000mAh?硅碳技术的回旋镖:「折 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天亏掉6年工资,卖掉舍不得,不卖扛不住 贷款追高炒黄金的人后悔了!有人一天亏掉6年 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵权诉讼,后者回应称将严肃对待 任天堂对Genki提起Switch 2商标侵权诉讼,后 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人士:之前断网因流量欠费 哪吒汽车APP和官网恢复正常 知情人士:之前断 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌两家公司被列入经营异常 极越汽车 CEO 夏一平名下青岛/义乌两家公司 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商联合银行 全国经济第一大省明确,推动组建农商联合银行 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅西 姆巴佩更专注进球&更像C罗 桑保利:亚马尔有配合意识&有点像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖 集玲琳 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花 謝飛揚 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游 衛青柏 | 2023-05-04
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修 集玲琳 | 2023-05-02
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 — 袁曼雁 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”, 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《 惠惠君 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們