今天小編分享的科學經驗:Zero-shot重建物理高斯資產,清華&光輪視覺大模型讓機器人理解物理屬性,歡迎閲讀。
理解物體的物理屬性,對機器人執行操作十分重要,但是應該如何實現呢?
光輪智能與清華 AIR、同濟大學等機構聯合提出了一種基于 3D 高斯濺射的方法——
PUGS(Zero-shot Physical Understandingwith Gaussian Splatting)
無需訓練、零樣本,它就能夠從多視角影像中重建物體,并對各種指定的物理屬性進行密集重建。
該論文已被 ICRA 2025 接收。
在非結構化環境中,準确理解物體的物理屬性不僅能幫助機器人更好地規劃抓取策略,還能避免因錯誤估計導致的操作失敗(比如下手太重導致物體損壞)。
現有的方法如 NeRF2Physics 利用 NeRF 來對物體進行重建,并結合視覺語言模型(VLM)與大語言模型(LLM)進行物理屬性預測。
但是,此類方法存在預測結果碎片化、物理屬性不連續不合理的問題。
研究團隊通過 3D 高斯濺射作為重建表征,并引入區網域感知特征來增強區網域區分的能力。
在此基礎上,結合基于 VLM 的物理屬性預測和基于特征的屬性傳播,可以達到更好的物體重建和更加合理的物理屬性預測結果。
為了保持重建結果的幾何一致性,研究團隊還引入了幾何感知的正則化損失和稀疏損失,确保高斯分布與物體的實際空間形狀分布一致。
高斯濺射 + 視覺大模型,理解物理屬性
PUGS 框架分為三個階段——形狀與區網域感知的 3DGS 重建、基于視覺語言模型(VLM)的物理屬性預測,以及基于區網域特征的屬性傳播。
對于物體級别的物理屬性(例如質量),則還包含高斯體積積分模塊以得到整體的物理屬性結果。
PUGS 以物體的多視角影像作為輸入,同時允許給定需要預測的物體屬性(如密度、硬度系數、楊氏模量等),最終輸出則是物體的重建結果,其中包含了物體的 RGB 信息,以及任意位置的物理屬性。
形狀與區網域感知的 3DGS 重建
PUGS 首先使用 3DGS 來從多視角 RGB 影像中重建物體。
但是原始的 3DGS 重建通常會出現 Floater,這導致重建結果的細節表現不佳,并且在幾何的準确性上存在問題。
研究團隊參考現有方法,引入幾何感知的正則化損失和稀疏損失,損失項如下(如顯示不完整,請左右滑動):
其中,是影像中的像素集合,是歸一化到 0 到 1 的影像梯度;
是基于像素點的局部平面計算得到的法向量,是基于 PGSR 提出的無偏深度渲染計算得到的法向量,是每個高斯的不透明度。
這裏是幾何感知的正則化損失,是稀疏損失。
前者通過兩種不同方式來渲染法線圖,并鼓勵輸出結果盡可能一致,從而确保高斯分布與物體的實際空間形狀一致;
而後者則鼓勵每個高斯的不透明度靠近 0 或 1,減少中間結果的存在。
引入幾何感知的正則損失(Geometry-Aware Regularization Loss, GARL)後,可以有效緩解 Floater 問題,增強幾何的準确性。
此外,PUGS 還引入了區網域感知的特征對比損失,通過對比學習訓練高斯分布的特征,使其能夠區分物體的不同區網域。
在現實場景中,物體表面可能存在不同的材料,如金屬、木材、塑料等,而這些材料在物體上通常表現為不同的區網域。
對區網域的區分有助于提高物理屬性預測的準确性。
研究團隊首先向每個 Gaussian 上引入一個新的可學習特征,并使用 -blending 來渲染出不同視角下的特征圖,然後使用 SAM 對多視角影像進行分割,以區分物體的不同區網域。
之後,利用對比學習來訓練該特征。損失函數如下:
其中,表示兩個像素是否屬于同一個區網域,是兩個像素點在特征空間中的餘弦相似性。
直觀來説,如果兩個像素點屬于同一個區網域,那麼它們在特征空間中的餘弦相似性應該越大越好,反之則應該越小越好。
△幾何感知損失與形狀感知特征訓練的示意圖基于 VLM 的物理屬性預測
在重建階段完成後,PUGS 利用視覺語言模型(VLM)進行零樣本物理屬性預測。
NeRF2Physics 采用兩階段的方法來進行物理屬性預測。
它首先通過 VLM 來從物體的影像預測物體的文本描述,然後将該文本描述輸入給 LLM 來預測材質和物理屬性。
與 NeRF2Physics 不同,PUGS 直接使用 VLM 對多視角影像中的某一張進行材質和物理屬性預測,避免了影像到文本轉換過程中的信息丢失。
該階段 VLM 輸出的結果包括物體可能的材質,以及這些材質的物理屬性範圍等。
這些屬性在後續會通過 CLIP 特征傳播到重建的 3DGS 中。
基于區網域特征的屬性傳播
為了将預測的物理屬性傳播到重建結果中,PUGS 使用 CLIP 特征作為基礎進行映射,并使用區網域感知特征作為依據進行屬性傳播。
首先研究團隊從 3DGS 中随機采樣一些高斯點作為 source point,并計算這些 source point 投影到多視角影像上得到的 patch 對應的 CLIP 特征。
這些特征與上一階段得到的候選材質進行相似性的計算,以分配不同的材質到對應的 source point 上。計算方式如下:
其中,是 source point 的物理屬性值,是 source point 的 CLIP 特征與候選材質的 CLIP 特征之間的餘弦相似性,是一個温度參數。
△基于形狀感知特征的物理屬性傳播
為了完成密集的物理屬性預測,研究團隊使用區網域特征作為依據進行屬性傳播。計算方式如下:
其中,和分别是高斯和的區網域感知特征。
基于區網域感知特征的屬性傳播方式使得物理屬性預測結果更加均勻和精确。
高斯體積積分
通過上面三個階段,PUGS 已經可以完成物體的重建以及密集的物理屬性預測,即在物體表面的每個點都能夠得到相應的物理屬性。
而對于物體級别的物理屬性(如質量),PUGS 提出了基于高斯體積積分的模塊來進行計算。
以物體質量的預測為例,通過上述階段,PUGS 可以得到每個 3D 高斯點對應的物理屬性,即密度值。
之後每個 3D 高斯被視為一個 3D 橢球體,通過其不透明度進行加權,同時結合預測的密度值進行累積計算,得到物體的初步體積預測。
這個初步體積預測結果是存在誤差的,因為 3DGS 重建結果通常只會對物體的表面進行建模,而物體内部表現出空洞。
為了進一步提高精度,PUGS 引入了 "pure volume" 概念,這代表一個物體忽略空洞區網域後的體積,一般會遠小于通常意義下物體的體積。
PUGS 通過提示 VLM 來獲取物體的 pure volume,并以此修正最終的預測結果。
預測準确性大幅提升
定性結果顯示,NeRF2Physics 的材質預測表現出碎片化等不合理的情況,PUGS 的預測結果則更加準确和合理。
在物體的抓取實驗中,PUGS 準确預測了一個棉布包裹的楊氏模量(0.5+GPa),使機械臂的夾持器能夠以合适的開口大小成功抓取物體。
相比之下,NeRF2Physics 錯誤地預測了該物體的楊氏模量(30+GPa),導致夾持器開口接近物體寬度,最終抓取失敗。
研究團隊還在 ABO-500 數據集上進行了物體質量估計的實驗,并與 NeRF2Physics 進行了對比,結果 PUGS 在多個指标上都表現更優。
此外,研究團隊還對上述 PUGS 的 Pipeline 中的不同模塊進行消融實驗,包括幾何感知的正則化損失、區網域感知的特征訓練以及基于高斯體積積分模塊,結果表明這些模塊都有助于提升定量結果。
其中不僅在 ABO-500 數據集上整體有所提升,并且在一些具有特殊特征的物體上提升更加明顯。
下表的 subset A 指的是 ABO-500 中一些具有較為精細結構的物體組成的子集,而 subset B 指的是那些具有多種區網域和材質的物體子集。
這表示幾何感知的正則化損失對具有精細結構的物體提升較大,而區網域感知模塊則對多種材質和區網域的區分更加有效。
總之,PUGS 不僅能夠準确重建物體的幾何形狀,還能保持物理屬性預測的材質一致性,這對于實際的機器人應用具有重要意義。
同時該重建結果也能夠作為一種攜帶相關物理屬性的重建資產,用于其他相關的下遊任務。
論文地址:
https://arxiv.org/pdf/2502.12231
項目主頁:
https://evernorif.github.io/PUGS/
GitHub:
https://github.com/EverNorif/PUGS
— 完 —
投稿請工作日發郵件到:
标題注明【投稿】,告訴我們:
你是誰,從哪來,投稿内容
附上論文 / 項目主頁鏈接,以及聯系方式哦
我們會(盡量)及時回復你
一鍵關注 點亮星标
科技前沿進展每日見
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!