今天小編分享的科技經驗:60秒直出3D内容,紋理逼真,Meta最新3D Gen模型實現60倍速生成,歡迎閲讀。
【導讀】Meta 的 GenAI 團隊在最新研究中介紹了 Meta 3D Gen 模型:可以在不到 1 分鍾的時間内從文本直接端到端生成 3D 資產。
在影像生成和視頻生成這兩個賽道上,大模型僅用了兩年多的時間就卷得如火如荼。
即使是效果堪比 Sora 的 Gen-3、Luma 等模型發布,也很難引起曾經的轟動反應。
你可能會疑惑,AI 還能玩出新花樣嗎?
Meta 放出的最新研究告訴你——能!
不管是影像還是視頻,即使能做出 3D 效果,終究只是二維空間中的像素組成的。
Meta 最近發布的 3D Gen 模型,則能實現 1 分鍾内的端到端生成,從文本直出高質量 3D 資產。
不僅紋理清晰、形态逼真自然,而且生成速度比其他替代方案加快了 3-60 倍。
目前,模型還沒有開放試用 API 以及相應的代碼,官方消息中也沒有透露下一步的發布時間。
只能看到官方 demo 但沒法試用,已經讓很多網友心癢難耐了。
「把這些可愛的小東西 3D 打印出來該有多好。」
但好在,Meta 放出了技術報告,讓我們可以細致觀摩一下技術原理。
論文地址:https://ai.meta.com/research/publications/meta-3d-gen/
Meta 3D Gen
在電影特效、AR/VR、視頻遊戲等領網域中,創作 3D 内容是最耗時,也是最具挑戰性的環節之一,需要很高的專業技能和陡峭的學習曲線。
這件事對人類困難,對 AI 來説也同樣困難。
相比于影像、視頻等形式,生產級的 3D 内容有更多方面的嚴格要求,不僅包括生成速度、藝術質量、分辨率,還包括 3D 網格的結構和拓撲質量、UV 圖結構以及紋理清晰度。
此外,3D 生成還面臨數據方面的挑戰。
雖然有數十億張影像和視頻可供學習,但其中适合訓練的 3D 内容量卻少了 3~4 個數量級。因此,模型只能學習這些非 3D 的視覺内容,并從二維的觀察中推斷出三維信息。
3D Gen 模型則克服了這些困難,在領網域内邁出了第一步。
模型最大的亮點在于支持基于物理的渲染(PBR,physically-based rendering),這對于在應用場景中實現 3D 資產的重新照明非常必要。
此外,經過專業藝術家的評估,3D Gen 在生成同等質量,甚至更優内容的同時,縮短了生成時間,提升了指令跟随性能。
生成出 3D 對象後,模型還支持對其紋理進行進一步的編輯和定制,20s 内即可完成。
方法
這種更加高效的優質生成,離不開模型 pipeline 的精心設計。
3D Gen 的生成主要分為兩步,由兩個組件分别完成——文本到 3D 對象生成器 AssetGen 和文本到紋理生成器 TextureGen。
第一階段:3D 資產生成。根據用户提供的文本提示,使用 3D AssetGen 模型創建初始 3D 資產,即帶有紋理和 PBR 材質圖的 3D 網格,大約花費 30s。
第二階段:紋理生成。根據第一階段生成的 3D 資產和用户文本提示,使用 3D TextureGen 模型生成更高質量的紋理和 PBR 圖,大約花費 20s。
其中,第二階段的 TextureGen 也可以單獨拿出來使用。如果有一個之前生成的,或者藝術家自己創作的無紋理 3D 網格,提供描述外觀的文本提示後,模型也能在 20s 左右的時間中為它從頭生成紋理。
AssetGen 和 TextureGen 這兩個模型有效地結合了 3D 對象的三種高度互補的表示:視圖空間(物體影像)、體積空間(3D 形狀和外觀)以及 UV 空間(紋理)。
AssetGen 項目地址:https://assetgen.github.io/
給定文本描述,AssetGen 首先利用一個多視角、多通道版本的影像生成器生成多張影像,随後生成物體的一致視圖。
據此,AssetGen 中的重建網絡在體積空間中提取出物體的初始版本,并進行網格提取,确立其 3D 形狀和初始紋理。
最後,TextureGen 利用視圖空間和 UV 空間的生成結果,對紋理進行重生成,在保持指令忠實度的同時提升紋理質量。
論文地址:https://ai.meta.com/research/publications/meta-3d-texturegen-fast-and-consistent-texture-generation-for-3d-objects/
上述的每一個階段都是建立在 Meta 強大的文生圖模型家族 Emu 之上,并使用了内部數據集進行微調,主要包括渲染過的合成 3D 數據。
單獨使用 TextureGen 模型可以為同一個物體生成不同的紋理表面
不同于許多 SOTA 方法,AssetGen 和 TextureGen 都是前饋生成器,因此能實現快速、高效的部署。
将 3D 生成任務以這種方式劃分為兩個階段,并在同一個模型中集成對象的多個表示空間,這種 pipeline 的組合是 Meta 重要的創新。
實驗證明,不僅 AssetGen 和 TextureGen 兩個部件都能分别取得更好的效果,它們結合後形成的 3D Gen 也能以 68% 的勝率超過其他模型。
實驗
針對文本到 3D 資產生成的任務,論文将 3D Gen 與其他公開可用的常用方法進行了對比,并從用户調研、定性實驗兩個方面進行了評估。
定性結果
從生產結果上直觀來看,3D Gen 能夠應對不同範疇、不同類别物體的生成任務,而且指令跟随的忠實度甚至好過很多文生圖模型。
比如讓吉娃娃穿蓬蓬裙、讓臘腸犬穿熱狗裝這樣人類都很難想象的場景,3D Gen 也按照要求生成了合理的結果。
生成結果的多樣性也非常驚豔。比如提示模型只生成 Llama(羊駝),他就能給出下圖中的 13 種不同結果,風格、形狀、紋理各異,可以説想象力很豐富了。
圖 6、7、8 則對比了 3D Gen 和其他模型對同一文本提示的生成結果。
對于一些比較有挑戰性的提示,3D Gen 的細節效果有時遜色于 Meshy v3 等模型,但這涉及到一個權衡問題:要展現紋理中的高頻細節,代價就是有時會出現視覺失真。
下面這個多物體的復雜場景任務中,你覺得哪個模型的表現更好?
雖然成功的案例很多,但對目前的模型來説,翻車依舊時常發生,而且每個模型都有自己獨特的翻法。
比如 CSM Cube 經常在物體幾何上出問題,前後視角不一致,或者幹脆生成了「雙頭大猩猩」;Tripo 3D 的光照效果會出現「一眼假」;Rodin Gen 1 和 Meshy 3.0 有時缺少物體細節的渲染。
至于 Meta 的 3D Gen,在放出來的案例中就出現了物體幾何結構不完整、紋理接縫、指令不跟随(最右側的海象沒有叼煙鬥)等多方面的問題。
雖然沒人能在 Meta 的報告中戰勝 Meta,但被拿來當「靶子」的作者,還是站出來為自己工作辯護了一番。
用户調研
對于模型的文本到 3D 生成,人類評審将從兩方面進行評估:提示忠實度、視覺質量。
按不同的背景,評審被抽成了兩組:(1)普通用户,沒有 3D 方面的專業知識,(2)專業的 3D 藝術家、設計師和遊戲開發者。
評估采用了 DreamFusion 引入的 404 個經過去重的文本提示,并根據内容復雜性分為三類:物體(156 個),角色(106 個)和物體角色組合(141 個)。
每個 3D 生成結果都會以 360 度全景視頻的方式呈現給評審者,不同模型進行分别測試或者随機的 A/B 測試。
表 2 展示了提示忠實度方面的的評估結果。在這一指标上,3DGen 在兩個階段的得分都優于其他行業方法,緊随其後的是 T23D 生成器。
如表 3 所示,A/B 測試中還添加了對幾何視覺質量以及紋理細節的評測。
作者發現,普通用户更傾向于喜歡那些紋理更鋭利、生動、逼真且細節詳實的 3D 結果,但對較明顯的紋理和幾何偽影不是很關注。專業的 3D 藝術家則會更重視幾何與紋理的準确性。
在圖 3 中,作者分析了視覺質量、幾何、紋理細節和紋理偽影的表現率等指标,如何随着文本提示描述的場景復雜度發生變化。
圖表顯示,雖然基準模型在簡單提示下的表現與 3D Gen 相當,甚至更優,但随着提示復雜度逐漸增加,3D Gen 開始反超,這也與圖 7 描述的定型結果一致。
結論
作為一個統一的流程,3DGen 整合了 Meta 的基礎生成模型,用于文本到 3D 生成,具備紋理編輯和材料生成能力。
通過結合 AssetGen 和 TextureGen 的優勢,3DGen 能夠在不到一分鍾的時間内根據文本提示生成高質量的 3D 對象。
在專業 3D 藝術家的評估中,3DGen 的輸出在大多數情況下更受青睐,尤其是在復雜提示下,而且速度快 3 到 60 倍。
雖然 Meta 目前對 AssetGen 和 TextureGen 的整合比較直接,但它開創了一個非常有前景的研究方向,基于兩個方面:(1)在視圖空間和 UV 空間中的生成,(2)紋理和形狀生成的端到端迭代。
如同 Sora 的出現會深刻影響短視頻、電影、流媒體等眾多行業一樣,3D Gen 也具有同樣巨大的潛力。
畢竟,小扎還是心心念念他的元宇宙。而 AI 驅動的 3D 生成,對于在元宇宙中構建無限大的虛拟世界也非常重要。