大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

無需大量标注也能理解3D!新研究登上ICLR 2025 Spotlight

2025-03-09 简体 HK SG TW

今天小編分享的科學經驗:無需大量标注也能理解3D!新研究登上ICLR 2025 Spotlight,歡迎閲讀。

只要極少量的标注樣本,就能讓模型精準分割 3D 場景?

來自哥本哈根大學、蘇黎世聯邦理工學院等機構的研究人員,提出了一個全新的多模态 Few-shot 3D 分割設定和創新方法。

無需額外标注成本,該方法就可以融合文本、2D 和 3D 信息,讓模型迅速掌握新類别。

△3D Few-shot 分割結果示例

人形機器人、VR/AR,以及自動駕駛汽車,都依賴于對 3D 場景的精确理解。

然而,這種精準的 3D 理解往往需要大量詳細标注的 3D 數據,極大推高了時間成本和資源消耗。

Few-shot 學習是一種有效的解決思路,但當前研究都局限于單模态點雲數據,忽略了多模态信息的潛在價值。

對此,這項新研究填補了這一空白,文章已被 ICLR 2025 接收為 Spotlight 論文。

整合多模态信息,理解 3D 場景

3D 場景理解在具身智能、VR/AR 等領網域至關重要,幫助設備準确感知和解讀三維世界。

然而,傳統全監督模型雖在特定類别上表現出色,但其能力局限于預定義類别。

每當需要識别新類别時,必須重新收集并标注大量 3D 數據以及重新訓練模型,這一過程既耗時又昂貴,極大地制約了模型的應用廣度。

3D Few-shot 學習旨在利用極少量的示例樣本以适應模型來有效的識别任意的全新類别,大大降低了新類适應的開銷,使得傳統的 3D 場景理解模型不再局限于訓練集中有限的類别标籤,對廣泛的應用場景有重要的價值。

具體而言,對于 Few-shot 3D 點雲語義分割(FS-PCS)任務,模型的輸入包括少量支持樣本(包含點雲及對應新類标籤)和查詢點雲。

模型需要通過利用支持樣本獲得關于新類别的知識并應用于分割查詢點雲,預測出查詢點雲中關于新類别的标籤。

在模型訓練和測試時使用的目标類别無重合,以保證測試時使用的類均為新類,未被模型在訓練時見過。

目前,該領網域湧現出的工作都只利用點雲單模态的輸入,忽略了利用多模态信息的潛在的益處。

對此,這篇文章提出一個全新的多模态 Few-shot 3D 分割設定,利用了文本和 2D 模态且沒有引入額外的标注開銷。

在這一設定下,他們推出了創新模型——MultiModal Few-Shot SegNet  ( MM-FSS ) 。

該模型通過充分整合多模态信息,有效提升小樣本上新類别的學習與泛化能力,證明了利用普遍被忽略的多模态信息對于實現更好的小樣本新類泛化的重要性。

多模态 FS-PCS vs   傳統設定

△傳統和多模态 FS-PCS 設定對比

(為便于讨論,以下都将 Few-shot 3D 點雲語義分割簡稱為 FS-PCS。)

傳統的 FS-PCS 任務中,模型的輸入包含少量的支持點雲以及對應的新類别的标注(support point cloud & support mask)。

此外,輸入還包括查詢點雲(query point cloud)。模型需借助 support 樣本中關于新類别的知識,在 query 點雲中完成新類别分割。

而作者引入的多模态 FS-PCS 包括了除 3D 點雲之外的兩個額外模态——文本和 2D。

文本模态相應于支持樣本中的目标類别 / 新類的名稱。2D 模态相應于 2D 圖片,往往伴随 3D 場景采集同步獲得。

值得注意的是,2D 模态僅用于模型預訓練,不要求在 meta-learning 和測試時作為輸入,保證了其 Few-shot 輸入形式與傳統 FS-PCS 對齊,僅需要相同的數據且無需額外标注。

引入特征分支和有效的跨模态融合

MM-FSS 在 Backbone 後引入了兩個特征提取分支:

Intermodal Feature ( IF ) Head(跨模态特征頭),學習與 2D 視覺特征對齊的 3D 點雲特征。

Unimodal Feature ( UF ) Head(單模态特征頭),提取 3D 點雲本身的特征。

△MM-FSS 模型架構

在預訓練階段,MM-FSS 先進行跨模态對齊預訓練,通過利用 3D 點雲和 2D 圖片數據對,使用 2D 視覺 - 語言模型(VLM)輸出的 2D 特征監督 IF head 輸出的 3D 特征,使得 IF Head 學習到與 2D 視覺 - 語言模型對齊的 3D 特征。

這一階段完成後,Backbone 和 IF Head 保持凍結,确保模型在 Few-shot 學習時能利用其預訓練學到的 Intermodal 特征。這樣,在 Few-shot 任務中無需額外的 2D 輸入,僅依賴 Intermodal 特征即可獲益于多模态信息。

此外,該特征也隐式對齊了 VLM 的文本特征,為後續階段利用重要的文本引導奠定基礎。

而在 Few-shot 訓練(稱為 meta-learning)時,給定輸入的 support 和 query 點雲,MM-FSS 分别将 IF Head 和 UF Head 輸出的兩套特征計算出對應的兩套 correlations(correlations 表示每個 query 點和目标類别 prototypes 之間的特征相似度)。

兩套 correlations 會通過 Multimodal Correlation Fusion ( MCF ) 進行融合,生成初始多模态 correlations,包含了 2D 和 3D 的視覺信息。

這個過程可以表示為:

其中 Ci 和 Cu 分别表示用 IF Head 和 UF Head 特征算得的 correlations。C0 為 MCF 輸出的初始多模态 correlations。

當前獲得的多模态 correlations 融合了不同的視覺信息源,但文本模态中的語義信息尚未被利用,因此設計了 Multimodal Semantic Fusion ( MSF ) 模塊,進一步利用文本模态特征作為語義引導,提升多模态 correlations:

其中 Gq 為文本模态的語義引導,Wq 為文本和視覺模态間的權重(會動态變化以考慮不同模态間變化的相對重要性),Ck 為多模态 correlations。

到測試階段,為緩解 Few-shot 模型對于訓練類别的 training bias(易被測試場景中存在的訓練類别幹擾,影響新類分割),MM-FSS 在測試時引入 Test-time Adaptive Cross-modal Calibration ( TACC ) 。

TAAC 利用跨模态的語義引導(由 IF Head 生成)适應性地修正預測結果,實現更好的泛化。

跨模态的語義引導未經 meta-learning 訓練,有更少的 training bias。

為了有效的執行測試時修正,作者提出基于支持樣本及其标籤估算可靠性指标,用于自動調整修正程度(當該語義引導可靠性更高時,分配更大的修正權重,否則分配更小的權重):

其中 Pq 為模型的預測,Gq 為跨模态語義引導,γ 為适應性指标。

通過借助支持點雲以及可用的支持點雲标籤可以如下計算 γ 作為修正可靠成都的估計:

實現 few-shot 任務最佳性能

實驗在兩個标準的 FS-PCS 數據集上進行,證明了 MM-FSS 在各類 few-shot 任務中都實現了最佳性能。

可視化也清楚表明了模型能夠實現更優的新類分割,展示了更強的新類泛化能力。更多詳細實驗和分析内容請參見論文。

總之,這項工作首次提出了全新的多模态 FS-PCS 設定,無額外開銷地融合文本和 2D 模态。在該設定下,作者提出首個多模态 FS-PCS 模型 MM-FSS。

MM-FSS 包含了 MCF 和 MSF 來有效的從視覺線索和語義信息雙重角度高效聚合多模态知識,增強對新類概念的全面理解。

同時,MM-FSS 也揭示了過往被普遍忽略的 " 免費 " 多模态信息對于小樣本适應的重要性,為未來的研究提供了寶貴的新視野且開放了更多有趣的潛在方向。

可參考的方向包括性能的提升、訓練和推理效率的優化,更深入的模态信息利用等。

作者簡介

該文章的第一作者安照崇,目前在哥本哈根大學攻讀博士學位,導師為 Serge Belongie。

他碩士畢業于蘇黎世聯邦理工學院(ETH Zurich),在碩士期間跟随導師 Luc Van Gool 進行了多個研究項目。

他的主要研究方向包括 3D/ 視頻理解、小樣本學習以及多模态學習。

文章的通訊作者是蘇黎世聯邦理工的孫國磊博士和南開大學的劉雲教授。

歡迎關注論文和代碼,了解更多細節!

論文:

https://arxiv.org/abs/2410.22489

代碼:

https://github.com/ZhaochongAn/Multimodality-3D-Few-Shot

—  完  —

學術投稿請于工作日發郵件到:

[email protected]

标題注明【投稿】,告訴我們:

你是誰,從哪來,投稿内容‍

附上論文 / 項目主頁鏈接,以及聯系方式哦

我們會(盡量)及時回復你

一鍵關注 點亮星标

科技前沿進展每日見

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法!

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重税打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重税打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?硅碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?硅碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裏面都有啥? 曹操墓,裏面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200户連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200户連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們