一句話一張圖秒變3D動畫，4K級超清畫質，英偉達祭出新作，遊戲生成世界成真

今天小編分享的科技經驗：一句話一張圖秒變3D動畫，4K級超清畫質，英偉達祭出新作，遊戲生成世界成真，歡迎閱讀。

Nvidia 發布 Edify 3D，通過文本生成 4K 級 3D 模型。

英偉達團隊再次于自己的老本行大發光彩。近日發布的 Edify 3D 支持用戶從文本提示或者影像來直接生成 4K 級别的 3D 實體與場景，這再次為遊戲與影視設計行業注入了新的 AI 活力。

不滿足于只是自己在紙上照着自己的想法去寫寫畫畫，但是又沒精力去學習專業的 3D 建模技能，怎麼破？

你有曾想過，僅僅通過文字描述自己的想象，就可以将其創造為分辨率高達 4K 的實體 3D 模型嗎？

現在，你可以通過 Nvidia 發布的 Edify 3D 實現你的奇思妙想了！只要你具有足夠好的創意，甚至可以利用 Edify 3D 來創造出經典的遊戲、電影的 3D 模型實體，例如有趣的小黃人。

請看官方視頻展示，用戶只是進行文字描述，Edify 3D 就可以即時生成高清的 3D 布景、頭骨、烏龜等 3D 實體。

由于創建 3D 内容需要相關的專業技能和專業知識，這使得此類資產比影像和視頻等其他視覺媒體稀缺得多。這種稀缺性引出一個關鍵的研究問題，即如何設計可擴展的模型以有效地從這些數據中生成高質量的 3D 資產。

Edify 3D 可在 2 分鍾内根據文本描述或者前景影像生成高質量的 3D 資產，其提供詳細的幾何圖形、清晰的形狀拓撲、井然有序的 UV 映射、高達 4K 分辨率的紋理以及基于物理的材質渲染。與其他文本到 3D 方法相比，Edify 3D 始終如一地生成卓越的 3D 形狀和紋理，在效率和可擴展性方面都有顯著改進。

Edify 3D 的流程

Edify 3D 的流程為：在給定對于 3D 實體對象的文字描述後，多視圖擴散模型會合成描述對象的 RGB 外觀。然後，生成的多視圖 RGB 影像被用作使用多視圖 ControlNet 合成表面法線的條件。接下來，重建模型将多視圖 RGB 和正常影像作為輸入，并使用一組潛在标記預測神經 3D 表示。然後進行等值面提取和随後的網格後處理，以獲得網格幾何。放大的 ControlNet 用于提高紋理分辨率，對網格光栅化進行調節以生成高分辨率多視圖 RGB 影像，然後将其反向投影到紋理貼圖上。

多視圖擴散模型

創建多視圖影像的過程類似于視頻生成的設計的我們通過使用相機姿勢調節文本到影像模型，将它們微調為姿勢感知多視圖擴散模型。這些模型将文本提示和攝影機姿勢作為輸入，并從不同的視點合成對象的外觀。

跨視圖注意力

研究者在模型訓練時，訓練了以下模型：

基于多視圖擴散模型，該模型根據輸入文本提示合成 RGB 外觀以及相機姿态。多視圖 ControlNet 模型，該模型基于多視圖 RGB 合成和文本提示來合成物體的表面法線。多視圖上采樣控制網絡，該網絡在給定 3D 網格的栅格化紋理和表面法線條件下，将多視圖 RGB 影像超分辨率提升至更高分辨率。

研究者使用 Edify Image 模型作為基礎擴散模型架構，結合一個具有 27 億參數的 U-Net，在像素空間中進行擴散操作。ControlNet 編碼器使用 U-Net 的權重進行初始化。他們通過一種新機制擴展了原始文本到影像擴散模型中的自注意力層，以關注不同視圖，從而使得其作為具有相同權重的視頻擴散模型。通過一個輕量級 MLP 對相機姿态（旋轉和平移）進行編碼，随後将這些編碼作為時間嵌入添加到視頻擴散模型架構中。

研究者在 3D 對象的渲染圖上微調文本到影像模型。在訓練過程中，他們同時使用自然 2D 影像以及随機數量（1、4 和 8）的視圖的 3D 對象渲染圖進行聯合訓練。使用

參數對損失進行訓練，與基礎模型訓練中使用的方法一致。對于多視圖 ControlNets，首先使用多視圖表面法線影像訓練基礎模型。随後，我們添加一個以 RGB 影像為輸入的 ControlNet 編碼器，并在凍結基模型的同時對其進行訓練。

關于視圖數量擴展的消融研究

在訓練過程中，研究者會對每個訓練對象抽取 1、4 或 8 個視圖，為每個視圖分配不同的抽樣比例。雖然可以在推理過程中采樣任意數量的視圖，以使用不同數量的視圖進行訓練，但最好還是将訓練視圖與推理過程中預期的視圖數量相匹配。這有助于最大限度地縮小訓練和推理性能之間的差距。

研究者對比了兩個模型：一個主要在 4 視圖影像上訓練，另一個在 8 視圖影像上訓練，并在相同視角采樣 10 視圖影像。如下圖所示，與使用 4 視圖影像訓練的模型相比，使用 8 視圖影像訓練的模型生成的影像更自然，各視圖之間的多視圖一致性更好。

使用四個視圖的影像進行訓練的模型

使用八個視圖的影像進行訓練的模型

重建模型

從影像觀測中提取 3D 結構通常被稱為攝影測量，該技術已被廣泛應用于許多 3D 重建任務中。研究者使用基于 Transformer 的重建模型從多視圖影像中生成 3D 網格幾何形狀、紋理圖和材質圖。他們發現，基于 Transformer 的模型對未見過的物體影像表現出強大的泛化能力，包括從 2D 多視角擴散模型合成的輸出。

研究者使用僅解碼器的 Transformer 模型，以三平面作為潛在 3D 表示。輸入的 RGB 和法線影像作為重建模型的條件，在三平面标記和輸入條件之間應用交叉注意力層。三平面标記通過 MLP 處理以預測用于籤名距離函數（SDF）和 PBR 屬性的神經網絡場，用于基于 SDF 的體積渲染。神經網絡 SDF 通過等值面提取轉換為 3D 網格。PBR 屬性通過 UV 映射烘焙到紋理和材質圖中，包括漫反射顏色和如粗糙度和金屬通道等材質屬性。

研究團隊使用大規模影像和 3D 資產數據來訓練重建模型。該模型通過基于 SDF 的體積渲染在深度、法線、掩碼、反射率和材質通道上進行監督，輸出由藝術家生成的網格渲染。由于表面法線計算相對昂貴，所以需要僅在表面計算法線并對真實情況進行監督。

他們發現将 SDF 的不确定性與其對應的渲染分辨率對齊可以提高最終輸出的視覺效果。此外，還需要在損失計算期間屏蔽物體邊緣以避免由混疊引起的噪聲樣本。為了平滑樣本間的噪聲梯度，他們對最終重建模型權重應用了指數移動平均（EMA）。

重建模型方面的消融研究

研究者發現，重建模型在恢復輸入視圖方面始終比新視圖更準确。該模型在視點數量方面具有良好的擴展性，即随着提供更多信息，其性能得到提升。

輸入視圖數量的比較

對角線單元格表示輸入視圖與驗證視圖匹配的情況。這些對角線條目通常顯示每行的最佳結果，表明模型最準确地復制了輸入視圖。此外，随着輸入視圖數量從 4 增加到 16，結果持續改善。這表明重建模型從額外的輸入信息中受益，同時也證明了 Edify 3D 的重建模型的可擴展性。

受模型随視點數量擴展的啟發，研究者進一步研究訓練視點數量是否影響重建質量。他們使用固定的 8 視圖設定評估模型，其中模型使用 4、6、8 和 10 個視圖進行訓練。

結果如下圖（a）所示。盡管随機采樣相機姿态在訓練過程中提供了多樣化的視圖，但随着同一訓練步驟中訓練視圖數量的增加，重建質量仍在持續提高。圖（b）為标記數量的比較，它表明了在參數數量固定的情況下，模型需要更多的計算資源來處理更多的标記。

數據處理

Edify 3D 在非公開的大規模影像、預渲染的多視圖影像和 3D 形狀數據集的組合上進行訓練。原始 3D 數據經過幾個預處理步驟，以達到模型訓練所需的品質和格式。

數據處理流程的第一步是将所有三維圖形轉換為統一格式。首先對網格進行三角化處理，打包所有紋理檔案，丢棄紋理或材質已損壞的圖形，并将材質轉換為金屬粗糙度格式。通過這一過程，用戶将得到一組三維圖形，可以按照其意圖進行渲染。

對于數據來講，必要的一環是進行數據質量篩查。研究者從大型三維數據集中過濾掉非以物體為中心的數據，且從多個視角渲染形狀，并使用分類器去除部分三維掃描、大型場景、形狀拼貼以及包含輔助結構（如背景和地平面）的形狀。為确保質量，這一過程通過多輪主動學習進行，由人類專家不斷制作具有挑戰性的示例來完善分類器。此外，他們還采用基于規則的過濾方法，去除明顯存在問題的形狀，如過于單薄或缺乏紋理的形狀。

為了将 3D 數據渲染成影像以用于擴散和重建模型，研究團隊需要使用自研的光照追蹤器進行逼真渲染。他們采用多種采樣技術來處理相機參數。一半的影像以固定的仰角和一致的内參進行渲染，而剩餘的影像則使用随機的相機姿态和内參進行渲染。這種方法既适用于文本到 3D 用例，也适用于影像到 3D 用例。

而對于 3D 實體的動作模拟來講，則需要将模型和真實的實體進行标準姿勢對齊。姿勢對齊是通過主動學習實現的。研究者通過手動策劃少量示例，來訓練姿勢預測器，并在完整數據集中不斷利用困難示例來完成循環訓練。

為了給 3D 形狀添加字幕，團隊為每個形狀渲染一張影像，并使用視覺語言模型（VLM）為影像生成長句和短句字幕。為了提高字幕的全面性，他們還向 VLM 提供形狀的元數據（例如标題、描述、分類樹）。

結果

團隊通過輸入文本提示以及渲染，使得生成的 3D 模型包含詳細的幾何形狀和清晰的紋理，具有良好分解的反射顏色，使其适用于各種下遊編輯和渲染應用。

文本到 3D 生成結果

對于影像到 3D 生成，Edify 3D 不僅能夠準确恢復參考對象的底層 3D 結構，而且還能在輸入影像中未直接觀察到的表面區網域生成詳細的紋理。

影像到 3D 生成結果

Edify 3D 生成的資產以四邊形網格的形式呈現，拓撲結構組織良好，如下圖所示。這些結構化網格便于操作和精确調整，非常适合各種下遊編輯任務和渲染應用。這使它們能夠無縫集成到需要視覺真實性和靈活性的 3D 工作流程中。

四邊形網格拓撲

總的來說，Edify 3D 是一種針對高質量 3D 資產生成的解決方案。其研究團隊致力于推進和發展 3D 資產自動化生成的新工具，使 3D 内容創作更加易于。

參考資料：

https://research.nvidia.com/labs/dir/edify-3d/

本文來自微信公眾号 " 新智元 "，作者：澤正。