今天小編分享的科學經驗:擺脫編碼器依賴!Encoder-free 3D多模态大模型,性能超越13B現有SOTA,歡迎閱讀。
無編碼器多模态大模型被拓展到 3D 領網域——
3D 編碼器的功能被融入 LLM 本身,無編碼器 3D LMM 适應不同的點雲分辨率,擺脫預訓練編碼器的依賴。
來自上海 AI Lab、西北工業大學、香港中文大學、清華大學等提出ENEL,在預訓練階段探索了如何使用自監督損失将 3D 編碼器的功能整合到 LLM 本身,在指令調優階段提出了一種層次幾何聚合策略,基于 PointLLM 首次全面研究了無編碼器架構在 3D 多模态大模型中的潛力。
在 Objaverse 基準測試中,ENEL 表現突出,性能上超越目前 SOTA ShapeLLM-13B。
基于編碼器架構的 3D LMM 的局限性
針對 3D 大型多模态模型(LMMs),基于編碼器的架構存在以下潛在問題:
(1)點雲分辨率限制。3D 編碼器通常在固定分辨率的點雲數據上進行預訓練(如 PointBERT 中的 1024 個點)。然而在推理過程中,點雲的分辨率可能發生變化(例如,8192 或 512 個點),這導致訓練與推理分辨率不一致,從而在提取 3D 嵌入時丢失空間信息,影響 LLM 的理解能力,如圖 ( a ) 所示。
(2)嵌入語義差異。3D 編碼器通常采用自監督學習方法(如掩碼自編碼器和對比學習)進行預訓練,但其訓練目标與 LLMs 的語義需求可能不完全一致,因此無法捕捉 LLMs 理解 3D 物體所需的關鍵語義信息,如圖 ( b ) 所示。
簡單的 MLP 通常也難以實現充分的語義轉換。從上圖可見,ENEL 的無編碼器架構提供了更高的靈活性和更強的泛化性,更多關注到 3D 關鍵語義。
應用自監督損失将 3D 編碼器納入 LLM 本身
無編碼器結構首先面臨的問題是如何提取高層次 3D 語義信息,避免模型難以捕捉 3D 點雲的復雜空間結構。可以觀察到從 PointLLM 中拿掉 Encoder 後,模型性能顯著下降。
PointLLM 原生的 token embedding 模塊過于粗粒度,為了減少信息損失并提供精細的局部特征,團隊采用了一個來自 Point-PN 的輕量化變體小型網絡。
具體而言,對于點雲團隊通過 FPS 進行下采樣,采用 knn 進行局部聚合,并使用可學習的線性層進行特征編碼。結果表明團隊設計的 embedding 模塊相比可以帶來明顯的性能提升。
為了讓 LLM 進一步承擔 encoder 的編碼功能,在預訓練階段嘗試了将 LLM 的前幾層設為可學習來挖掘點雲特征中的高級語義信息,結果發現較小的學習率能夠帶來更好的結果。
通過以上兩種改變,無編碼器結構已經與基于編碼器的 PointLLM 在描述任務上持平。
當前的 3D 編碼器大多依靠自監督損失學習提取并編碼高層次 3D 語義信息 , 主要分為掩蔽建模損失 ( a ) 、重建損失 ( b ) 、對比損失 ( c ) 和知識蒸餾損失 ( d ) 。
基于編碼器架構的 3D LMM 在訓練時依靠對文字部分應用自回歸損失進行學習,那是否能同時對點雲部分應用自監督損失,将 3D 編碼器的能力整合進 LLM 本身?
團隊在預訓練階段實現并評估了這些損失對無編碼器 3D LMM 的影響。
具體而言,掩蔽建模損失和重建損失分别對點雲掩碼 token 的部分進行恢復和對全體點雲 token 進行重建,而知識蒸餾損失采用 uni3d-L 在特征層面進行蒸餾。
最後團隊提出了一種混合語義損失,先對點雲 token 進行随機掩碼,然後将 mask token 拼接在 visible token 的後面以符合自回歸邏輯,同時對 visible token 計算重建損失,這種混合方法不僅能夠有效地将高層次語義信息嵌入 LLM 中,還能确保在整個點雲學習過程中,幾何信息的一致性得以保持。
從實驗結果中可以觀察到,自監督學習損失在無編碼器 3D LMM 中通常具有積極影響,通過精心設計的任務促使 LLM 在學習過程中捕捉潛在的幾何關系以及深層次的語義信息。
其中,掩蔽建模損失展現出最為顯著的性能提升。
相較之下,知識蒸餾損失的提升效果較為有限,表現遜色于前兩種損失類型。
層次幾何聚合策略感知 3D 局部細節
傳統的 3D 編碼器往往通過将顯式的歸納偏置嵌入其架構中,逐步捕捉多層次的 3D 幾何特征。例如,像 Point-M2AE 這樣的模型采用了局部到全局的層次結構,這一結構在 2D 影像處理中常見于卷積層。相比之下,無編碼器架構的 LLM 沒有明确的局部建模模塊,主要依賴自注意力機制來建模全局互動。
因此,如何将歸納偏置有效地整合到 LLM 中,以增強其對 3D 幾何結構的感知能力,成為一個重要問題。
基于提出的混合語義損失,在指令調優階段,團隊探索了如何促使 LLM 主動感知 3D 局部細節,同時補充其已學習的全局語義信息。為此,團隊設計了層次幾何聚合策略。
具體來說,從 LLM 的第二層開始,通過最遠點采樣将輸入點雲 token 下采樣,将令牌數量減少至 M/2 并選取局部中心。接着,利用 k-NN 算法獲取鄰近點,并通過門控自注意力機制捕捉局部幾何信息。
最終,通過池化操作融合鄰近點特征,得到 M/2 長度的特征表示,并重復 l-1 次,完成幾何聚合。通過多層 LLM 層後,再通過 l 次幾何傳播将聚合後的特征從局部中心傳播至鄰近點,最終恢復為長度為 M 的點雲特征,增強模型對局部和全局幾何結構的感知。
實驗結果:定性定量分析
定性實驗中,團隊可視化了 PointLLM 和 ENEL 最後一層中,平均文本 token 與點雲 token 之間的注意力得分。
團隊選擇了三種物體類别:椅子、飛機和台燈。
圖中紅色表示較高的注意力得分。
結果顯示,ENEL 作為無編碼器架構,能夠實現兩種模态特征之間的高相關性,平均文本 token 聚焦于物體的關鍵幾何結構。
在 Objaverse 基準測試中,ENEL-7B 在描述和分類任務上超越了同等規模甚至 13B 的模型。此外,在 3D MM-Vet 數據集的 3D-VQA 任務中,盡管訓練數據缺乏空間和具身互動信息,ENEL 仍取得了 42.7% 的 GPT 得分,領先 PointLLM-7B 1.5%。
定性定量結果驗證了混合語義損失和層次幾何聚合策略在無編碼器架構中的有效性。
代碼鏈接:
https://github.com/Ivan-Tang-3D/ENEL.
論文鏈接:
https://arxiv.org/pdf/2502.09620v1
— 完 —
學術投稿請于工作日發郵件到:
标題注明【投稿】,告訴我們:
你是誰,從哪來,投稿内容
附上論文 / 項目主頁鏈接,以及聯系方式哦
我們會(盡量)及時回復你
一鍵關注 點亮星标
科技前沿進展每日見
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!