今天小編分享的科學經驗:北大團隊引領3D生成與對齊革新:OctGPT打破擴散模型壟斷,歡迎閱讀。
近年來,智能三維形狀生成(3D AIGC)技術迅速崛起,正成為推動數字内容創作革新的關鍵力量,特别是在遊戲、影視、虛拟現實和工業設計等領網域表現出巨大的應用潛力。
随着技術的不斷進步,三維内容的生成質量與效率持續提升,成為業界與學界廣泛關注的焦點。
最近,北京大學陳寶權教授帶領團隊在三維形狀生成和三維數據對齊方面取得新的突破。
在三維數據生成方面,團隊提出了 3D 自回歸模型新範式,有望打破 3D 擴散模型在三維生成方面的壟斷地位。
該論文已被 SIGGRAPH 2025 接收,合作者為王鵬帥助理教授,以及博士生魏斯桐和大學生王瑞環、周傳智。
在三維數據對齊方面,團隊設計了一種僅需單個先驗即可實現同類物體對齊的框架,并構建了當前類别覆蓋最廣的規範化 3D 數據集,為三維形狀生成提供了數據基礎。
該論文已被 CVPR 2025 接收,合作者為陳文拯助理教授、王玉潔博士、高慶哲博士和秦學英教授,以及博士生金立、戴啟宇。
SIGGRAPH 2025:OctGPT:3D 自回歸模型新範式
一、AIGC:從影像生成到 3D 生成
近年來,基于自回歸範式的 GPT 模型在語言、影像和視頻生成領網域取得了一系列突破。
例如,最新的 GPT-4o 憑借其原生多模态架構,在影像生成方面掀起了轟動:它不僅延續了前代卓越的語言理解能力,還通過跨模态協同,輕松產出高質量、多風格的視覺内容。
然而,現有的自回歸模型尚不能很好地完成高質量的三維生成任務,這一技術缺口恰恰對應着虛拟現實、電影工業及遊戲開發等場景中快速增長的 3D 内容需求。
随着生成式 AI 技術的持續演進,如何将多模态理解能力延伸至三維空間,已成為推動下一代 AI 生成系統發展的關鍵命題。
△OctGPT 能夠實現無條件、類别、文本和圖片條件的高質量三維形狀生成和場景級别生成二、3D 自回歸生成模型的挑戰
當前主流的三維生成技術雖已取得顯著突破,但高度依賴擴散模型的生成範式仍存在顯著局限。
盡管擴散模型在連續空間建模方面表現優異,其與 GPT 類離散序列生成模型在架構設計上的本質差異,導致二者難以實現技術融合。
近年來,學術界雖已湧現出多項基于 GPT 的三維生成成果,但這一領網域仍面臨諸多挑戰。
首先,GPT 的預測機制依賴于序列建模,而現有的三維數據序列化方案往往忽略物體的層次結構與局部關聯性,導致模型收斂緩慢、生成質量受限。
針對這一問題,我們提出了一種全新的序列化方法,顯著提升了生成效果。
此外,以往方法的序列長度通常只有約 1K,難以捕捉復雜的局部細節。
我們将序列長度擴展近 50 倍,使模型能夠精準地建模大尺度、高分辨率的三維形狀。
△現有的 3D 自回歸生成模型受限于有限的序列長度,細節質量不足三、新解決方案:OctGPT
OctGPT 探索了基于八叉樹 Octree 和 GPT 架構的三維生成路徑。
用戶可以通過多種條件進行控制,比如文本、影像、草圖等等,驅動模型進行高質量的三維場景和物體的生成。
這一成果不僅有望打破擴散模型在三維生成領網域的技術壟斷,更開辟了多模态原生模型向三維空間拓展的新範式。
OctGPT 使用一種基于八叉樹的多尺度三維序列化形狀表達。
八叉樹的遞歸分裂機制自然地表達了多尺度層次特征,其 Z 型曲線排序策略有效保留空間局部性,為 GPT 的自回歸預測提供理想的序列化基礎。
△OctGPT 的模型框架四、OctGPT 的核心技術架構
OctGPT 的整體框架包括一個基于八叉樹的多尺度序列化表達和基于視窗注意力機制的高效自回歸模型。
1)八叉樹多尺度序列化表達
△八叉樹結構和 Z 字形序列
首先,根據輸入的三維形狀構建八叉樹。八叉樹的節點狀态被編碼為 0/1 信号:0 代表空節點,1 代表細分節點,如上圖(a)的淺色和深色節點所示。
然後按照 Z 字形進行多尺度序列化,如上圖(b)和(c)Z 字形序列所示。我們将不同層次的序列結構由淺到深拼接成多尺度的 0/1 序列。
随後,使用了基于八叉樹的 VQVAE,用于将八叉樹表達轉為完整、光滑的三維模型。
最後,GPT 則是逐步生成多尺度的 0/1 序列。這一類似于二分查找的方式逐層的推理空間結構,極大地簡化了建模目标,加速了收斂。
2)多尺度自回歸模型
△多尺度自回歸模型
為了表達復雜的三維形狀,OctGPT 将序列長度拓展至 50k 的量級。為了加速訓練,模型采用了基于八叉樹的 Transformer(OctFormer,SIGGRAPH 2023),并通過交替使用膨脹注意力(如上圖 b)與移位視窗注意力模塊(如上圖 c),實現跨視窗的 Token 互動,并将訓練速度加速 13 倍。
OctGPT 設計了尺度敏感的 Teacher Forcing Mask(如上圖 a),在序列生成過程中,按深度層級從淺至深順序預測,同一八叉樹層内允許 Token 按照随機順序并行生成,同時确保深層 Token 的預測能夠得到已生成的淺層 Token 信息。
在推理時,OctGPT 采用了多個 token 并行預測的策略,将推理速度加速 69 倍。基于上述創新,OctGPT 能夠使用 4 個 4090 GPU 在三天内完成訓練。
五、結果展示
此處展示了 OctGPT 在 ShapeNet 和 Objverse 上的生成結果。OctGPT 能夠生成高質量的三維模型,展現出強大的生成能力。
△Objaverse 上文本條件生成結果
△ShapeNet 上無條件生成結果
△Objaverse 上無條件生成結果
△在 ShapeNet 上與現有 SOTA 方法的定性對比
△在 ShapeNet 上與現有 SOTA 方法的定量對比六、總結與展望
OctGPT 探索了基于八叉樹結構的 GPT 模型在三維數據生成任務中的應用潛力。
具體創新體現在以下三個方面:其一,通過八叉樹結構對稀疏三維數據進行編碼,有效提升了計算效率;其二,基于八叉樹構建了具有層次性和局部性的多尺度 0/1 序列,确保序列化過程中空間特征的完整保留;其三,采用 Transformer 架構直接進行序列化預測,實現了對三維空間特性的端到端建模。
盡管三維數據的稀疏性、層次性與序列性看似相互獨立甚至存在矛盾,但本研究成功證明在八叉樹神經網絡框架下,三者能夠有機統一。
這一突破性成果不僅有望打破擴散模型在三維生成任務中的壟斷地位,更為原生多模态三維建模技術開辟了創新路徑。
論文地址:
https://arxiv.org/abs/2504.09975
項目主頁:
https://github.com/octree-nn/octgpt
CVPR 2025 Highlight:大規模三維數據對齊
CVPR 2025 Highlight 論文 : 基于幾何和語義一致性的 One-shot 3D 物體規範化,為三維生成技術和具身智能的快速發展提供了堅實基礎。
該工作由北京大學陳寶權研究團隊主導,山東大學合作完成。
一、3D 物體對齊及其重要性
在三維世界裡," 對齊 " 一個物體,意味着将它擺放到一個标準的姿态——不歪、不倒、朝向統一。
就像我們看到一個歪着的杯子,腦海中會自動将它 " 扶正 " 來理解它此時的朝向、把手、底部位置。
這樣的對齊操作看似簡單,卻是讓 AI 真正 " 看懂 "3D 物體的關鍵一步。
随着具身智能和 3D 生成技術的快速發展,AI 不僅要 " 看見 " 物體,還要 " 理解 " 它們的位置、朝向和語義。
比如,下圖中的機械臂之所以能成功倒出一杯咖啡,正是因為它準确理解了杯子的朝向和語義功能部位。
另一方面,在 3D 内容生成領網域,研究也表明:如果訓練時使用了規範化的 3D 數據,可以顯著提高生成物體的一致性和質量。
從機器人操作到三維生成,物體對齊都在背後發揮着基礎而關鍵的作用。
然而,如何實現任意類别、任意初始位姿 3D 物體的高效對齊,仍然十分具有挑戰性。
△3D 對齊數據在具身智能和 3D 生成的作用,素材來自 Youtube 二、3D 物體對齊的挑戰
在現實世界中,要讓智能體真正理解和操作三維物體,一個帶有朝向、位置和尺寸标注的規範 3D 數據集至關重要。
它不僅讓模型能統一學習标準姿态,還能支持類别識别、語義分析等下遊任務。
然而,獲取這樣的數據極具挑戰:
1)人工标注嚴重依賴經驗,流程繁瑣且易出錯。在使用計算機輔助 3D 标注時,通常需通過 2D 界面對 3D 物體手動調整,互動效率依然不高;
2)基于學習的自動化對齊方法本身也依賴充足的先驗樣本才能訓練,而現實中的物體分布呈嚴重長尾——例如在 Objaverse-LVIS 中,超 93%的類别樣本不足 100個,遠遠滿足不了現有方法所需的充足先驗樣本。
因此,無論是人工流程,還是基于學習的自動化方法,目前都難以支撐對大規模、任意類别 3D 物體進行高效高質量規範化。這也讓如何高效對齊三維物體成為當前研究的核心挑戰之一。
△長尾分布問題:對 Objaverse-LVIS 類别物體數量統計三、提出的解決方法
為突破上述 3D 物體規範化中" 标注難、樣本少 "的雙重困境,我們提出了一種全新的 One-shot 物體對齊方法:只需一個規範化物體作為先驗,結合 2D 基礎模型的語義能力,即可自動對任意姿态下的同類 3D 物體進行高質量規範化。
相比以往依賴大量訓練數據或手工操作的方案,我們的方法無需繁瑣流程,也不怕長尾類别,在樣本稀缺的場景下表現尤為出色。
同時,我們會持續擴大規範數據集的規模。
△現有方法依賴于大量的先驗條件(如多個已規範化模型),我們提出的 one-shot 方法僅需一個先驗模型即可實現有效的類别級規範化(左圖)。我們構建了規範化的 Objaverse 數據集(右圖),該數據集在現有的規範化三維數據集中涵蓋了最多的類别。
△規範化的 3D 物體數據,來自 COD 數據集。
四、 方法簡介
如圖所示,我們希望以一個同類的物體作為先驗模型,其他物體作為測試物體和先驗模型進行對齊。
算法的核心思想是,結合 2D 基礎模型提供的語義信息和 3D 物體的幾何信息進行規範化。
整個框架由三個主要階段組成:zero-shot 物體語義對應關系建立(左圖)、規範化位姿假設生成(中圖)以及最終标準位姿選擇(右圖)。
△算法框架
在算法框架設計時,我們面臨兩個主要難點:
1)2D 基礎模型在處理任意姿态下的物體時易出現檢測錯誤,導致 3D 語義信息獲取不穩定;
2)同類物體間存在顯著幾何差異,僅依賴語義或幾何信息進行對齊均存在局限,因此亟需設計一種能夠有效聯合利用稀疏語義與幾何信息的對齊機制。
為此,我們提出:
1)基于支撐面的初始化策略:利用算法自動檢測物體的多個支撐面,并以其在水平面上穩定靜止的狀态作為初始化位姿,顯著提高了語義分割模塊的的穩定性與準确性。
2)語義 - 幾何聯合能量函數:我們設計了結合語義置信度與幾何一致性的能量函數,在對齊過程中實現了語義主導大致朝向、幾何引導細節對齊的協同優化機制,從而更有效地完成物體規範化。
最終,在 Objaverse 和 ShapeNet 等數據集上的實驗驗證了我們方法在對齊精度與魯棒性方面的顯著優勢,較現有主流方法表現更優,并展現出良好的泛化能力。
△3D 物體規範化過程,來自 COD 數據集。五、總結及展望
我們提出了一種新穎的 one-shot 三維物體規範化框架,只需一個先驗模型,即可完成對同類别中其他物體的規範化對齊。
通過引入大型語言模型(LLMs)與視覺 - 語言模型(VLMs),結合提出的支撐面的位姿采樣策略,我們實現了對物體的 zero-shot 語義感知,并通過将語義引導的粗對齊與幾何驅動的精細對齊相結合,實現了 3D 物體的自動化高效對齊。
在多個模拟與真實數據集上的實驗表明,該方法不僅精度優于現有方法,還能有效處理長尾類别,具備強大的泛化能力。
基于這一方法,我們進一步構建了 COD 數據集(Canonical Objaverse Dataset),涵蓋 1054 個類别、超過 3 萬個規範化物體,展現了我們框架在大規模 3D 數據集構建中的可擴展性。
為滿足不同任務對 3D 數據的多樣化需求,無論是 3D 生成任務對高質量網格和材質的要求,還是藝術創作類應用對平整面片和可拆解部件的偏好,我們将持續擴展标注數據規模,豐富标注維度,并歡迎更多研究者加入,共同打造更豐富、更高質量、更貼近社區實際需求的三維物體數據集。
項目主頁:
https://jinli998.github.io/One-shot_3D_Object_Canonicalization/
規範數據集鏈接:
https://github.com/JinLi998/CanonObjaverseDataset
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
— 完 —
學術投稿請于工作日發郵件到:
标題注明【投稿】,告訴我們:
你是誰,從哪來,投稿内容
附上論文 / 項目主頁鏈接,以及聯系方式哦
我們會(盡量)及時回復你
點亮星标
科技前沿進展每日見