今天小編分享的科學經驗:Stable Diffusion變身3D神器!一個LoRA将2D影像轉3D模型,歡迎閱讀。
在 Stable Diffusion 當中,只需加入一個 LoRA 就能根據影像創建 3D 模型了?
港科大(廣州)與趣丸科技合作推出了全新三維生成大模型——Kiss3DGen,創新性地将 3D 生成與成熟的影像生成模型進行了對齊。
并且與主流 2D 擴散模型技術(如 ControlNet、Flux-Redux)兼容協同,無需額外訓練即可即插即用。
△由 Kiss3DGen 生成的場景
即使在有限的訓練數據條件下,Kiss3DGen 仍能生成高質量的 3D 資產,減少對大規模數據的依賴,同時在靈活性和性能方面表現出色。
目前,Kiss3DGen 單獨使用效果已優于現有開源方法,而且在與現有方法相結合後,性能可進一步增強。
将 3D 生成轉換為 2D 生圖
Kiss3DGen 的核心創新點在充分利用現有 2D 影像生成模型的知識與框架,将多視圖影像和對應法線貼圖拼接成三維聚合圖(3D Bundle Image),把傳統 3D 生成問題轉化為 2D 影像生成任務。
這種方式無需調整現有 2D 模型的結構,能夠最大程度繼承其成熟的技術優勢。
具體流程可分為兩大步驟:
三維聚合圖生成:利用 DiT(Diffusion Transformer)模型的全局感知能力,高效生成高度對齊的多視圖影像及對應法線貼圖,無需調整 2D 模型結構,即可繼承其成熟技術優勢。
Mesh 與紋理重建:利用生成的法線貼圖進行 Mesh 重建,通過影像部分生成對應的貼圖。整個過程無需額外訓練,可直接使用現有重建方法完成高質量 3D 資產生成。
在訓練階段,需要構建高質量文本 -3D 數據集,使用 LoRA 技術對預訓練的文本 - 影像擴散模型(如 Flux 或 SD3.5)進行微調,生成高度符合文本描述的三維聚合圖。
而生成階段又可以分為兩個環節——
首先利用訓練好的模型,根據輸入文本提示,生成包含 3D 模型多視角信息的三維聚合圖。
然後,通過 LRM 或球體初始化方法粗略重建幾何和紋理,再通過網格優化與紋理投影技術(如 ISOMER),精确重建 3D 模型的幾何形狀和紋理細節。
團隊簡介
該研究的作者為林堅濤、楊鑫以及陳美羲,他們是來自于香港科技大學(廣州)ENVISION 實驗室的碩博生。
本工作由趣丸科技資助,由陳穎聰教授帶領碩博研究團隊與趣丸科技聯合打造。
陳穎聰,香港科技大學(廣州)人工智能學網域助理教授,博導,受國家人才計劃青年項目資助,他長期致力于計算機視覺和視覺生成模型的研究,已在 TPAMI、CVPR、ICCV、ECCV 等頂級會議和期刊發表五十餘篇論文。
陳教授的研究方向包括三維生成與重建、影像視頻生成等,并多次以第一作者身份在頂級會議上做口頭報告。
他的研究成果屢獲大獎,包括 ICCV 2023 最佳論文提名和中國影像圖形學會自然科學獎一等獎。
同時,陳教授也在多個學術會議和期刊中擔任程式委員會成員或審稿人,并與多個科技公司建立了深入的合作關系。
論文:
https://arxiv.org/abs/2503.01370
代碼:
https://github.com/EnVision-Research/Kiss3DGen
項目主頁:
https://ltt-o.github.io/Kiss3dgen.github.io
在線體驗:
https://gen3d.funnycp.com
實驗室主頁:
https://envision-research.hkust-gz.edu.cn/index.html
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
— 完 —
學術投稿請于工作日發郵件到:
标題注明【投稿】,告訴我們:
你是誰,從哪來,投稿内容
附上論文 / 項目主頁鏈接,以及聯系方式哦
我們會(盡量)及時回復你
點亮星标
科技前沿進展每日見