Zero-shot重建物理高斯资产，清华&光轮视觉大模型让机器人理解物理属性 - 大酷樂

今天小编分享的科学经验：Zero-shot重建物理高斯资产，清华&光轮视觉大模型让机器人理解物理属性，欢迎阅读。

理解物体的物理属性，对机器人执行操作十分重要，但是应该如何实现呢？

光轮智能与清华 AIR、同济大学等机构联合提出了一种基于 3D 高斯溅射的方法——

PUGS（Zero-shot Physical Understandingwith Gaussian Splatting）

无需训练、零样本，它就能够从多视角影像中重建物体，并对各种指定的物理属性进行密集重建。

该论文已被 ICRA 2025 接收。

在非结构化环境中，准确理解物体的物理属性不仅能帮助机器人更好地规划抓取策略，还能避免因错误估计导致的操作失败（比如下手太重导致物体损坏）。

现有的方法如 NeRF2Physics 利用 NeRF 来对物体进行重建，并结合视觉语言模型（VLM）与大语言模型（LLM）进行物理属性预测。

但是，此类方法存在预测结果碎片化、物理属性不连续不合理的问题。

研究团队通过 3D 高斯溅射作为重建表征，并引入区網域感知特征来增强区網域区分的能力。

在此基础上，结合基于 VLM 的物理属性预测和基于特征的属性传播，可以达到更好的物体重建和更加合理的物理属性预测结果。

为了保持重建结果的几何一致性，研究团队还引入了几何感知的正则化损失和稀疏损失，确保高斯分布与物体的实际空间形状分布一致。

高斯溅射 + 视觉大模型，理解物理属性

PUGS 框架分为三个阶段——形状与区網域感知的 3DGS 重建、基于视觉语言模型（VLM）的物理属性预测，以及基于区網域特征的属性传播。

对于物体级别的物理属性（例如质量），则还包含高斯体积积分模块以得到整体的物理属性结果。

PUGS 以物体的多视角影像作为输入，同时允许给定需要预测的物体属性（如密度、硬度系数、杨氏模量等），最终输出则是物体的重建结果，其中包含了物体的 RGB 信息，以及任意位置的物理属性。

形状与区網域感知的 3DGS 重建

PUGS 首先使用 3DGS 来从多视角 RGB 影像中重建物体。

但是原始的 3DGS 重建通常会出现 Floater，这导致重建结果的细节表现不佳，并且在几何的准确性上存在问题。

研究团队参考现有方法，引入几何感知的正则化损失和稀疏损失，损失项如下（如显示不完整，请左右滑动）：

其中，是影像中的像素集合，是归一化到 0 到 1 的影像梯度；

是基于像素点的局部平面计算得到的法向量，是基于 PGSR 提出的无偏深度渲染计算得到的法向量，是每个高斯的不透明度。

这里是几何感知的正则化损失，是稀疏损失。

前者通过两种不同方式来渲染法线图，并鼓励输出结果尽可能一致，从而确保高斯分布与物体的实际空间形状一致；

而后者则鼓励每个高斯的不透明度靠近 0 或 1，减少中间结果的存在。

引入几何感知的正则损失（Geometry-Aware Regularization Loss, GARL）后，可以有效缓解 Floater 问题，增强几何的准确性。

此外，PUGS 还引入了区網域感知的特征对比损失，通过对比学习训练高斯分布的特征，使其能够区分物体的不同区網域。

在现实场景中，物体表面可能存在不同的材料，如金属、木材、塑料等，而这些材料在物体上通常表现为不同的区網域。

对区網域的区分有助于提高物理属性预测的准确性。

研究团队首先向每个 Gaussian 上引入一个新的可学习特征，并使用 -blending 来渲染出不同视角下的特征图，然后使用 SAM 对多视角影像进行分割，以区分物体的不同区網域。

之后，利用对比学习来训练该特征。损失函数如下：

其中，表示两个像素是否属于同一个区網域，是两个像素点在特征空间中的余弦相似性。

直观来说，如果两个像素点属于同一个区網域，那么它们在特征空间中的余弦相似性应该越大越好，反之则应该越小越好。

△几何感知损失与形状感知特征训练的示意图基于 VLM 的物理属性预测

在重建阶段完成后，PUGS 利用视觉语言模型（VLM）进行零样本物理属性预测。

NeRF2Physics 采用两阶段的方法来进行物理属性预测。

它首先通过 VLM 来从物体的影像预测物体的文本描述，然后将该文本描述输入给 LLM 来预测材质和物理属性。

与 NeRF2Physics 不同，PUGS 直接使用 VLM 对多视角影像中的某一张进行材质和物理属性预测，避免了影像到文本转换过程中的信息丢失。

该阶段 VLM 输出的结果包括物体可能的材质，以及这些材质的物理属性范围等。

这些属性在后续会通过 CLIP 特征传播到重建的 3DGS 中。

基于区網域特征的属性传播

为了将预测的物理属性传播到重建结果中，PUGS 使用 CLIP 特征作为基础进行映射，并使用区網域感知特征作为依据进行属性传播。

首先研究团队从 3DGS 中随机采样一些高斯点作为 source point，并计算这些 source point 投影到多视角影像上得到的 patch 对应的 CLIP 特征。

这些特征与上一阶段得到的候选材质进行相似性的计算，以分配不同的材质到对应的 source point 上。计算方式如下：

其中，是 source point 的物理属性值，是 source point 的 CLIP 特征与候选材质的 CLIP 特征之间的余弦相似性，是一个温度参数。

△基于形状感知特征的物理属性传播

为了完成密集的物理属性预测，研究团队使用区網域特征作为依据进行属性传播。计算方式如下：

其中，和分别是高斯和的区網域感知特征。

基于区網域感知特征的属性传播方式使得物理属性预测结果更加均匀和精确。

高斯体积积分

通过上面三个阶段，PUGS 已经可以完成物体的重建以及密集的物理属性预测，即在物体表面的每个点都能够得到相应的物理属性。

而对于物体级别的物理属性（如质量），PUGS 提出了基于高斯体积积分的模块来进行计算。

以物体质量的预测为例，通过上述阶段，PUGS 可以得到每个 3D 高斯点对应的物理属性，即密度值。

之后每个 3D 高斯被视为一个 3D 椭球体，通过其不透明度进行加权，同时结合预测的密度值进行累积计算，得到物体的初步体积预测。

这个初步体积预测结果是存在误差的，因为 3DGS 重建结果通常只会对物体的表面进行建模，而物体内部表现出空洞。

为了进一步提高精度，PUGS 引入了 "pure volume" 概念，这代表一个物体忽略空洞区網域后的体积，一般会远小于通常意义下物体的体积。

PUGS 通过提示 VLM 来获取物体的 pure volume，并以此修正最终的预测结果。

预测准确性大幅提升

定性结果显示，NeRF2Physics 的材质预测表现出碎片化等不合理的情况，PUGS 的预测结果则更加准确和合理。

在物体的抓取实验中，PUGS 准确预测了一个棉布包裹的杨氏模量（0.5+GPa），使机械臂的夹持器能够以合适的开口大小成功抓取物体。

相比之下，NeRF2Physics 错误地预测了该物体的杨氏模量（30+GPa），导致夹持器开口接近物体宽度，最终抓取失败。

研究团队还在 ABO-500 数据集上进行了物体质量估计的实验，并与 NeRF2Physics 进行了对比，结果 PUGS 在多个指标上都表现更优。

此外，研究团队还对上述 PUGS 的 Pipeline 中的不同模块进行消融实验，包括几何感知的正则化损失、区網域感知的特征训练以及基于高斯体积积分模块，结果表明这些模块都有助于提升定量结果。

其中不仅在 ABO-500 数据集上整体有所提升，并且在一些具有特殊特征的物体上提升更加明显。

下表的 subset A 指的是 ABO-500 中一些具有较为精细结构的物体组成的子集，而 subset B 指的是那些具有多种区網域和材质的物体子集。

这表示几何感知的正则化损失对具有精细结构的物体提升较大，而区網域感知模块则对多种材质和区網域的区分更加有效。

总之，PUGS 不仅能够准确重建物体的几何形状，还能保持物理属性预测的材质一致性，这对于实际的机器人应用具有重要意义。

同时该重建结果也能够作为一种携带相关物理属性的重建资产，用于其他相关的下游任务。

论文地址：

https://arxiv.org/pdf/2502.12231

项目主页：

https://evernorif.github.io/PUGS/

GitHub：

https://github.com/EverNorif/PUGS

— 完 —

投稿请工作日发邮件到：

[email protected]

标题注明【投稿】，告诉我们：

你是谁，从哪来，投稿内容‍

附上论文 / 项目主页链接，以及联系方式哦

我们会（尽量）及时回复你

一键关注点亮星标

科技前沿进展每日见

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！