2D到3D新突破！深度AIGC 技術剖析，一文看懂3D數據生成的歷史及現狀

今天小編分享的财經經驗：2D到3D新突破！深度AIGC 技術剖析，一文看懂3D數據生成的歷史及現狀，歡迎閱讀。

AIGC 是否會取代人類？

作者｜Chengxi

編輯｜蔓蔓周

過去 18 個月，AI 内容生成（AIGC）是無疑是矽谷科技創投圈内最火爆、最熱門的話題。

DALL-E（2021 年 1 月推出）

Midjourney（2022 年 7 月推出）

Stable Diffusion（2022 年 8 月推出）

這類 2D 生成式工具，能夠在短短幾秒内将文本提示（prompt）生成藝術風格的圖片。随着這類 2D AIGC 工具的演化和進步，藝術家、設計師和遊戲工作室的創作工作流正在被迅速颠覆革新。

AIGC 的下一個突破口在哪？不少投資者和領網域資深人士都給出了預測 — 3D 數據生成。

我們注意到 3D AIGC 正在經歷着 2D AIGC 曾經發展過的階段。這篇文章中，我們将更深入地讨論 AIGC 在 3D 數據領網域的新突破，以及展望生成式 AI 工具如何提高 3D 數據生成的效率和創新。

回顧 2D AIGC 的高速發展

2D AIGC 的發展可以簡單概括為以下三個發展階段：

第一階段：智能影像編輯

早在 2014 年，随着生成對抗網絡（GAN，典型後續工作 StyleGAN）和變分自編碼器（VAE，典型後續工作 VQVAE，alignDRAW）的提出，AI 模型便開始被廣泛運用到 2D 圖片的智能生成與編輯中。早期的 AI 模型主要被用于學習一些相對簡單的影像分布或者進行一些影像編輯，常見的應用包括：人臉生成、影像風格遷移、影像超分辨率、影像補全和可控影像編輯。

但早期的影像生成 / 編輯網絡與文本的多模态互動非常有限。此外，GAN 網絡通常較難訓練，常遇到模式坍塌（mode collapse）和不穩定等問題，生成的數據通常多樣性較差，模型容量也決定了可利用數據規模的上限；VAE 則常遇到生成的影像模糊等問題。

第二階段：文生圖模型的飛躍

随着擴散生成（diffusion）技術的突破、大規模多模态數據集（如 LAION 數據集）和多模态表征模型（如 OpenAI 發布的 CLIP 模型）的出現與發展，2D 影像生成領網域在 2021 年前後取得重要進展。影像生成模型開始與文本進行深入的互動，大規模文生圖模型驚豔登場。

當 OpenAI 在 2021 年初發布 DALL-E 時，AIGC 技術開始真正顯現出巨大的商業潛力。DALL-E 可以從任意的文本提示中生成真實和復雜的影像，并且成功率大大提高。一年之内，大量文生圖模型迅速跟進，包括 DALL-E 2（于 2022 年 4 月更新）和 Imagen（谷歌于 2022 年 5 月發布）。雖然這些技術當時還無法高效幫助藝術創作者產出能夠直接投入生產的内容，但它們已經吸引了公眾的注意，激發了藝術家、設計師和遊戲工作室的創造力和生產潛力。

第三階段：從驚豔到生產力

随着技術細節上的完善和工程優化上的迭代，2D AIGC 得到迅猛發展。到 2022 年下半年，Midjourney、Stable Diffusion 等模型已成為了廣受歡迎的 AIGC 工具。他們通過大規模的訓練數據集的驅動，使得 AIGC 技術在現實世界應用中的性能已經讓媒體、廣告和遊戲行業的早期采用者受益。此外，大模型微調技術的出現與發展（如 ControlNet 和 LoRA）也使得人們能夠根據自己的實際需求和少量訓練數據來 " 自定義 " 調整、擴展 AI 大模型，更好地适應不同的具體應用（如二次元風格化、logo 生成、二維碼生成等）。

現在，使用 AIGC 工具進行創意和原型設計很多情況下只需幾小時甚至更短，而不是過去需要的幾天或幾周。雖然大多數專業的圖形設計師仍然會修改或重新創建 AI 生成的草圖，但個人博客或廣告直接使用 AI 生成的影像的情況越來越普遍。

alignDRAW, DALL-E 2, 和 Midjourney 文本轉影像的不同效果。

除了文本轉影像，2D AIGC 持續有更多的最新發展。例如，Midjourney 和其他創業公司如 Runway 和 Phenaki 正在開發文本到視頻的功能。此外，Zero-1-to-3 已經提出了一種從物體的單一 2D 影像生成其在不同視角下對應圖片的方法。

由于遊戲和機器人產業對 3D 數據的需求不斷增長，目前關于 AIGC 的前沿研究正在逐漸向 3D 數據生成轉移。我們預計 3D AIGC 會有類似的發展模式。

3D AIGC 的 "DALL-E" 時刻

近期在 3D 領網域的種種技術突破告訴我們，3D AIGC 的 "DALL-E" 時刻正在到來！

從 2021 年末的 DreamFields 到 2022 年下半年的 DreamFusion 和 Magic3D，再到今年五月的 ProlificDreamer，得益于多模态領網域和文生圖模型的發展，學術界文生 3D 模型也得到了不少突破。不少方法都能夠從輸入文本生成高質量的 3D 模型。

然而這些早期探索大多數需要在生成每一個 3D 模型時，都從頭優化一個 3D 表示，從而使得 3D 表示對應的各個 2D 視角都符合輸入和先驗模型的期待。由于這樣的優化通常需要成千上萬次迭代，因此通常非常耗時。例如，在 Magic3D 中生成單個 3D 網格模型可能需要長達 40 分鍾，ProlificDreamer 則需要數小時。此外，3D 生成的一個巨大挑戰便是 3D 模型必須具備從不同角度看物體形狀的一致性。現有的 3D AIGC 方法常遇到雅努斯問題（Janus Problem），即 AI 生成的 3D 對象有多個頭或者多個面。

由于 ProlificDreamer 缺乏 3D 形狀一致性而出現的雅努斯問題。左邊是一只看似正常的藍鳥的正面視圖。右邊是一幅令人困惑的影像，描繪了一只有雙面的鳥。

但另外一方面，一些團隊正在嘗試突破現有的基于優化的生成範式，通過單次前向預測的技術路線來生成 3D 模型，這大大提高了 3D 生成速度和準确度。這些方法包括 Point-E 和 Shap-E（分别于 2022 年和 2023 年由 OpenAI 發布）和 One-2 – 3 – 45（2023 年由加州大學聖地亞哥分校發布）。特别值得注意的是，最近一個月發布的 One-2 – 3 – 45 能夠在僅 45 秒的時間内從 2D 影像生成高質量和具備一致性的 3D 網格！

對單影像到 3D 網格方法的比較分析。從左到右，我們可以觀察到，處理時間從超過一個小時大幅度減少到不到一分鍾。Point-E、Shap-E 和 One-2 – 3 – 45 在速度和準确性上都有出色表現。

這些 3D AIGC 領網域最新的技術突破，不僅大大提高了生成速度和質量，同時讓用戶的輸入也變得更加靈活。用戶既可以通過文本提示進行輸入，也可以通過信息量更加豐富的單張 2D 影像來生成想要的 3D 模型。這大大擴展了 3D AIGC 在商業應用方面的可能性。

AI 革新 3D 生產過程

首先，讓我們了解一下傳統 3D 設計師創建 3D 模型，所需要經歷的工作流程：

1. 概念草圖：概念藝術設計師根據客戶輸入和視覺參考進行頭腦風暴和構思所需的模型。

2.3D 原型制作：模型設計師使用專業軟體創建模型的基本形狀，并根據客戶反饋進行迭代。

3. 模型細化：将細節、顏色、紋理和動畫屬性（如綁定、照明等）添加到粗糙的 3D 模型中。

4. 模型最終定型：設計師使用影像編輯軟體增強最終的渲染效果，調整顏色，添加效果，或進行元素合成。

這個過程通常需要幾周的時間，如果涉及到動畫，甚至可能需要更長。然而，如果有 AI 的幫助，上述每個步驟都可能會更快。

1. 強大的多視圖影像生成器（例如，基于 Stable Diffusion 和 Midjourney 的 Zero-1 – to – 3）有助于進行創意頭腦風暴，并生成多視圖影像草圖。

2. 文本到 3D 或影像到 3D 技術（例如，One-2 – 3 – 45 或 Shap-E）可以在幾分鍾内生成多個 3D 原型，為設計師提供了廣泛的選擇空間。

3. 利用 3D 模型優化（例如，Magic 3D 或 ProlificDreamer），選定的原型可以在幾小時内自動進行精煉。

4. 一旦精煉的模型準備好，3D 設計師就可以進一步設計并完成高保真模型。

傳統與 AI 驅動的 3D 生產工作流程對比

3D AIGC 是否會取代人類？

我們的結論是，暫時不會。人仍然是 3D AIGC 環節中不可缺失的一環。

盡管以上提到的 3D 模型生成技術，能在機器人技術、自動駕駛和 3D 遊戲中有許多應用，然而目前的生產流程仍然不能滿足廣泛的應用。

為此，矽兔君采訪了來自加州大學聖迭戈分校的蘇昊教授，他是 3D 深度學習（3D Deep Learning）和具身人工智能（Embodied AI）領網域的領軍專家，也是 One-2 – 3 – 45 模型的作者之一。蘇昊教授認為，目前 3D 生成模型的主要瓶頸是缺乏大量高質量的 3D 數據集。目前常用的 3D 數據集如 ShapeNet（約 52K 3D 網格）或 Objaverse（約 800K 3D 模型）包含的模型數量和細節質量都有待提升。尤其是比起 2D 領網域的大數據集（例如，LAION-5B），它們的數據量仍然遠不夠來訓練 3D 大模型。

蘇昊教授曾師從幾何計算的先驅、美國三院院士Leonidas Guibas 教授，并曾作為早期貢獻者參與了李飛飛教授領導的 ImageNet 項目。受到他們的啟發，蘇昊教授強調廣泛的 3D 數據集在推進技術方面的關鍵作用，為 3D 深度學習領網域的出現和繁榮做出了奠基性工作。

此外，3D 模型遠比 2D 影像的復雜很多，例如 :

1. 部件結構：遊戲或數字孿生應用需要 3D 對象的結構化部件（例如，PartNet），而不是單一的 3D 網格；

2. 關節和綁定：與 3D 對象互動的關鍵屬性；

3. 紋理和材料：例如反光率、表面摩擦系數、密度分布、楊氏模量等支持互動的關鍵性質；

4. 操作和操控：讓設計師能夠對 3D 模型進行更有效地互動和操縱。

而以上幾點，就是人類專業知識能夠繼續發揮重要作用的地方。

蘇昊教授認為，在未來，AI 驅動的 3D 數據生成應具有以下特性：

1. 支持生成支撐互動性應用的 3D 模型，這種互動既包括物體與物體的物理互動（如碰撞），也包括人與物體的互動（物理與非物理的互動方式），使得 3D 數據在遊戲、元宇宙、物理仿真等場景下能夠被廣泛應用；

2. 支持 AI 輔助的 3D 内容生成，使得建模的生產效率更高；

3. 支持 Human-in-the-loop 的創作過程，利用人類藝術天賦提升生成數據的質量，從而進一步提升建模性能，形成閉環的數據飛輪效應。

類似于過去 18 個月來像 DALL-E 和 ChatGPT 這樣的技術所取得的驚人發展，我們堅信在 3D AIGC 領網域即将發生，其創新和應用極有可能會超過我們的預期，矽兔君會持續深入探索和輸出。

文末互動：

你認為 AIGC 會對人類產生哪些深遠影響？

評論區留言告訴我們哦～

别忘了點關注，不迷路啊。

食品科技又整新活！連植物都不用，有空氣就能 " 無中生肉 "