今天小編分享的科技經驗:Meta 推出文生 3D 模型「重磅炸彈」,一秒生成 3D 素材,歡迎閲讀。
Meta 公司官方發布研究論文,介紹了一個名為 Meta 3D Gen 的文生 3D 模型系統,能夠在不到一分鍾的時間内從文本生成較高質量的 3D 資產。
技術亮點:
高速生成:3DGen 可以在短短 30 秒内生成初步的 3D 資產,随後的紋理細化階段僅需 20 秒,顯著提高了 3D 資產的生成效率。
▲ 不同提示詞生成的 3D 模型
物理基礎渲染(PBR)支持:3DGen 支持 PBR,這對于重現 3D 資產在現實世界應用中的光照效果至關重要。
高保真度:通過專業 3D 藝術家的評估,3DGen 生成的 3D 模型在復雜文本提示下的忠實度和視覺質量上超越了現有的商業和非商業方法。
▲ 該技術與其他技術生成内容的細節對比
生成逼真 3D 模型,僅需兩步
論文介紹了 Meta 3D AssetGen 相比傳統的 3D 對象生成方法,采用了的兩階段設計生成 3D 模型:
具體而言:
第一個階段:文本到影像階段(下圖中藍色部分):根據文本提示生成 3D 網格和紋理,預測一個 6 通道影像,該影像描繪了具有陰影和反照率顏色的物體的 4 個視圖。
第二個階段:影像到 3D 階段包括兩個步驟。
首先 3D 重構器(稱為 MetaILRM)輸出一個三維的 SDF 場,轉換為具有紋理 PBR 材質(下圖中橙色的部分)的網格。
然後通過紋理細化器進一步增強這些材質,恢復從輸入視圖中可能丢失的詳細信息(下圖中綠色部分),從而提升模型的視覺質量和細節表現。
多個指數量化材質及光線
在技術實現上,Meta 3D AssetGen 使用具有不同超參數的 VolSDF 公式來渲染 SDF 值,獲取 3D 點的不透明度。
訓練過程中,通過最小化多視圖渲染損失來優化模型,但由于物理上精确的渲染非常昂貴,研究者通過直接使用原始的 PBR 場來監督預測的對應項,從而繞過了復雜的渲染方程。
▲ Meta 新技術生成的材質、風格各異的羊駝
這種 PBR 指的是「Physically-Based Rendering」,即物理基礎渲染。
它模拟了光在物體表面的物理行為,考慮了光照、材質屬性和環境因素對物體外觀的影響,能夠根據物體表面的不同特性,如粗糙度、金屬感等,來計算光線的反射、散射和吸收。以實現更加真實和準确的渲染效果。
在 Meta 3D AssetGen 中,PBR 材質被用來增強 3D 模型的真實感。具體來説,PBR 材質包括以下幾個關鍵屬性:
反照率(Albedo):指物體表面的顏色和亮度,它決定了物體在不同光照條件下的外觀。
金屬感(Metalness):表示物體表面的金屬程度,金屬感高的物體會有更明顯的金屬光澤。
粗糙度(Roughness):描述物體表面的平滑程度,影響光線在表面的散射範圍,粗糙度越高,光線散射越廣,高光部分越柔和。
▲ 使用提示詞「A cat made of MATERIAL」生成的模型
PBR 材質實際上集成了代表 AI 生成 3D 内容的重大進步,被認為可能彌合 AI 生成内容與專業 3D 工作流程之間長期存在的問題,将 AI 創建的素材無縫集成到現有工作流程中,從而有可能加快各行業虛拟環境和數字孿生的創建速度。
▲ 通過文字提示渲染出龍蛋和熊的外觀紋理
研究人員還推出了一個由連續網絡組成的 Meta 3D TextureGen 技術,通過在 2D 空間中将文本生成模型與 3D 語義條件結合,使其融合成完整且具有高分辨率的 UV 紋理映射,在短時間内為復雜幾何體生成高質量的紋理。
▲ 3D 紋理生成技術對比:最左側為 Meta 的新方法,顯示出更鮮豔的色彩和更復雜的細節
在實驗部分,研究者使用了 140,000 個由 3D 藝術家創建的多樣化語義類别的網格數據集進行訓練。還進行了廣泛的用户研究,将 Meta 3D AssetGen 與行業内其他支持 PBR 的文本到 3D 方法進行了比較,結果表明 Meta 3D AssetGen 在視覺質量和材料控制方面具有顯著優勢:
AssetGen 在倒角距離方面實現了 17% 的改進,在 LPIPS 方面實現了 40% 的改進,并且與速度相當的最佳行業競争對手(包括支持 PBR 的競争對手)相比,其人性化偏好度高出了 72%。
是 Maginative 的創始人兼主編 Chris McKay 這樣評論:
這項技術的潛在應用是巨大的。遊戲開發人員可以使用 3D Gen 快速制作環境和角色原型,從而顯著加快開發過程。建築可視化公司可以根據文本描述生成建築物和内部的詳細 3D 模型,從而簡化設計流程。在虛拟和增強現實領網域,3D Gen 可以快速創建沉浸式環境和對象,從而有可能加速元宇宙應用程式的開發。
顯然 Meta 的這種新技術為 3D 模型在不同光照環境下的真實感呈現提供了可能,在 3D 圖形、動畫、遊戲和 AR/VR 領網域具有巨大潛力,對遊戲、影視甚至產品開發都會有長足的幫助。
這或許會成為另一個層面的世界模型的第一步。