大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

擺脫編碼器依賴!Encoder-free 3D多模态大模型,性能超越13B現有SOTA

2025-02-28 简体 HK SG TW

今天小編分享的科學經驗:擺脫編碼器依賴!Encoder-free 3D多模态大模型,性能超越13B現有SOTA,歡迎閱讀。

無編碼器多模态大模型被拓展到 3D 領網域——

3D 編碼器的功能被融入 LLM 本身,無編碼器 3D LMM 适應不同的點雲分辨率,擺脫預訓練編碼器的依賴。

來自上海 AI Lab、西北工業大學、香港中文大學、清華大學等提出ENEL,在預訓練階段探索了如何使用自監督損失将 3D 編碼器的功能整合到 LLM 本身,在指令調優階段提出了一種層次幾何聚合策略,基于 PointLLM 首次全面研究了無編碼器架構在 3D 多模态大模型中的潛力。

在 Objaverse 基準測試中,ENEL 表現突出,性能上超越目前 SOTA ShapeLLM-13B。

基于編碼器架構的 3D LMM 的局限性

針對 3D 大型多模态模型(LMMs),基于編碼器的架構存在以下潛在問題:

(1)點雲分辨率限制。3D 編碼器通常在固定分辨率的點雲數據上進行預訓練(如 PointBERT 中的 1024 個點)。然而在推理過程中,點雲的分辨率可能發生變化(例如,8192 或 512 個點),這導致訓練與推理分辨率不一致,從而在提取 3D 嵌入時丢失空間信息,影響 LLM 的理解能力,如圖 ( a ) 所示。

(2)嵌入語義差異。3D 編碼器通常采用自監督學習方法(如掩碼自編碼器和對比學習)進行預訓練,但其訓練目标與 LLMs 的語義需求可能不完全一致,因此無法捕捉 LLMs 理解 3D 物體所需的關鍵語義信息,如圖 ( b ) 所示。

簡單的 MLP 通常也難以實現充分的語義轉換。從上圖可見,ENEL 的無編碼器架構提供了更高的靈活性和更強的泛化性,更多關注到 3D 關鍵語義。

應用自監督損失将 3D 編碼器納入 LLM 本身

無編碼器結構首先面臨的問題是如何提取高層次 3D 語義信息,避免模型難以捕捉 3D 點雲的復雜空間結構。可以觀察到從 PointLLM 中拿掉 Encoder 後,模型性能顯著下降。

PointLLM 原生的 token embedding 模塊過于粗粒度,為了減少信息損失并提供精細的局部特征,團隊采用了一個來自 Point-PN 的輕量化變體小型網絡。

具體而言,對于點雲團隊通過 FPS 進行下采樣,采用 knn 進行局部聚合,并使用可學習的線性層進行特征編碼。結果表明團隊設計的 embedding 模塊相比可以帶來明顯的性能提升。

為了讓 LLM 進一步承擔 encoder 的編碼功能,在預訓練階段嘗試了将 LLM 的前幾層設為可學習來挖掘點雲特征中的高級語義信息,結果發現較小的學習率能夠帶來更好的結果。

通過以上兩種改變,無編碼器結構已經與基于編碼器的 PointLLM 在描述任務上持平。

當前的 3D 編碼器大多依靠自監督損失學習提取并編碼高層次 3D 語義信息 , 主要分為掩蔽建模損失 ( a ) 、重建損失 ( b ) 、對比損失 ( c ) 和知識蒸餾損失 ( d ) 。

基于編碼器架構的 3D LMM 在訓練時依靠對文字部分應用自回歸損失進行學習,那是否能同時對點雲部分應用自監督損失,将 3D 編碼器的能力整合進 LLM 本身?

團隊在預訓練階段實現并評估了這些損失對無編碼器 3D LMM 的影響。

具體而言,掩蔽建模損失和重建損失分别對點雲掩碼 token 的部分進行恢復和對全體點雲 token 進行重建,而知識蒸餾損失采用 uni3d-L 在特征層面進行蒸餾。

最後團隊提出了一種混合語義損失,先對點雲 token 進行随機掩碼,然後将 mask token 拼接在 visible token 的後面以符合自回歸邏輯,同時對 visible token 計算重建損失,這種混合方法不僅能夠有效地将高層次語義信息嵌入 LLM 中,還能确保在整個點雲學習過程中,幾何信息的一致性得以保持。

從實驗結果中可以觀察到,自監督學習損失在無編碼器 3D LMM 中通常具有積極影響,通過精心設計的任務促使 LLM 在學習過程中捕捉潛在的幾何關系以及深層次的語義信息。

其中,掩蔽建模損失展現出最為顯著的性能提升。

相較之下,知識蒸餾損失的提升效果較為有限,表現遜色于前兩種損失類型。

層次幾何聚合策略感知 3D 局部細節

傳統的 3D 編碼器往往通過将顯式的歸納偏置嵌入其架構中,逐步捕捉多層次的 3D 幾何特征。例如,像 Point-M2AE 這樣的模型采用了局部到全局的層次結構,這一結構在 2D 影像處理中常見于卷積層。相比之下,無編碼器架構的 LLM 沒有明确的局部建模模塊,主要依賴自注意力機制來建模全局互動。

因此,如何将歸納偏置有效地整合到 LLM 中,以增強其對 3D 幾何結構的感知能力,成為一個重要問題。

基于提出的混合語義損失,在指令調優階段,團隊探索了如何促使 LLM 主動感知 3D 局部細節,同時補充其已學習的全局語義信息。為此,團隊設計了層次幾何聚合策略。

具體來說,從 LLM 的第二層開始,通過最遠點采樣将輸入點雲 token 下采樣,将令牌數量減少至 M/2 并選取局部中心。接着,利用 k-NN 算法獲取鄰近點,并通過門控自注意力機制捕捉局部幾何信息。

最終,通過池化操作融合鄰近點特征,得到 M/2 長度的特征表示,并重復 l-1 次,完成幾何聚合。通過多層 LLM 層後,再通過 l 次幾何傳播将聚合後的特征從局部中心傳播至鄰近點,最終恢復為長度為 M 的點雲特征,增強模型對局部和全局幾何結構的感知。

實驗結果:定性定量分析

定性實驗中,團隊可視化了 PointLLM 和 ENEL 最後一層中,平均文本 token 與點雲 token 之間的注意力得分。

團隊選擇了三種物體類别:椅子、飛機和台燈。

圖中紅色表示較高的注意力得分。

結果顯示,ENEL 作為無編碼器架構,能夠實現兩種模态特征之間的高相關性,平均文本 token 聚焦于物體的關鍵幾何結構。

在 Objaverse 基準測試中,ENEL-7B 在描述和分類任務上超越了同等規模甚至 13B 的模型。此外,在 3D MM-Vet 數據集的 3D-VQA 任務中,盡管訓練數據缺乏空間和具身互動信息,ENEL 仍取得了 42.7% 的 GPT 得分,領先 PointLLM-7B 1.5%。

定性定量結果驗證了混合語義損失和層次幾何聚合策略在無編碼器架構中的有效性。

代碼鏈接:

https://github.com/Ivan-Tang-3D/ENEL.

論文鏈接:

https://arxiv.org/pdf/2502.09620v1

—  完  —

學術投稿請于工作日發郵件到:

[email protected]

标題注明【投稿】,告訴我們:

你是誰,從哪來,投稿内容‍

附上論文 / 項目主頁鏈接,以及聯系方式哦

我們會(盡量)及時回復你

一鍵關注 點亮星标

科技前沿進展每日見

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法!

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?矽碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?矽碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們