今天小編分享的互聯網經驗:用AI創造元宇宙,Meta發布最強3D素材生成模型,一分鍾創造一個世界,歡迎閲讀。
文|王沁 王奕昕
編輯|李然
因為有了 AI,Meta 的元宇宙夢不死!
Meta 3D Gen
Meta 推出了一種名為 Meta 3D Gen 的端到端 3D 素材生成模型,可以在不到一分鍾的時間内根據文本描述創建高質量的 3D 素材。
圖源 :X ( @AIatMeta )
Meta 3D Gen 結合了 Meta 的兩個現有模型:用于生成 3D 網格素材的 AssetGen 和用于精細紋理化的 TextureGen。 Meta 表示,這種集成可以為沉浸式内容帶來更高質量的 3D 生成。
據 Meta 稱,3D Gen 在速度和質量方面都超過了領先的行業解決方案。技術報告中稱,專業 3D 藝術家在大多數類别中對該工具的評分都好于競争對手,特别是對于復雜的請求。Meta 表示,**它的速度是同類系統的 3 到 60 倍。**
VR 行業發展速度不及預期,其中一個最重要的原因就是創建内容的成本過高,很難吸引内容創作者為元宇宙創建素材。而且人工創建的 VR 3D 素材質量因為硬體性能等各種因素的限制,相比平面素材過于 " 簡陋 ",使得用户的沉浸感不足。
和現有的業界產品(Meshy、Tripo 等)相比,Meta 的 Gen 3D 生成的效果确實要好上不少,而且用時還是最少的。圖源:Meta 論文
而如果用户能夠非常方便且高效地創造 3D 素材,至少将能大大改善 VR 内容缺乏的問題。如果素材的質量再能得到進一步的提高,生成的虛拟現實世界真的能夠達到以假亂真的地步。在 Gen AI 的加持之下,也許 VR 中的虛拟世界未來要成為第一個 AI 生成比例大于人工生成的領網域。
也許小扎的 VR 夢,在 AI 的加持下,就真的要成了。
圖源 :X ( @KaladinFree )
網友驚呼:這個技術對于 VR 以及 Meta 自身的發展策略來説太重要了。Meta 可能是除了英偉達以外 AI 發展最大的赢家!
圖源 :X ( @sonieashan )
從文本到 3D,是怎樣煉成的?
從文本提示詞生成 3D 素材的模型,在 3D 圖形、動畫、遊戲和 AR/VR 等領網域都具有巨大的發揮潛力。
雖然在文生圖和文生視頻模型領網域,已經取得了世界矚目的進展(例如 MidJourney、Sora、Runway 等等),但在 3D 生成模型領網域,以往的模型質量仍然不足以用于專業用途。
**以往 3D 生成模型有很多缺陷,比如生成速度慢,生成的 3D 網格和紋理中存在偽影。此外,以往的很多模型仍然将物體外觀渲染為固有的顏色,忽略了 3D 物體的顏色應該随着環境光的變化而變化**。特别是對于反光材料,當把它們放置在新環境中時,它們會顯得格格不入。
而 Meta 的 3D Gen 能在不到 30 秒内生成 3D 素材,相比于以往具有同等速度的模型,在保真度、生成的 3D 網格質量、特别是材料的質量和控制等方面,表現更好。
3D Gen 是如何做到如此栩栩如生的 3D 素材生成的呢?
3D Gen 采用了兩階段的方法,結合了兩個組件,第一階段使用 AssetGen 組件,第二階段使用 TextureGen 組件。
第一階段:從文本到影像
這一階段的目标是,從文本生成有着色和陰影的影像,從四個标準視角,生成這些角度的 4 張視圖。為此,Meta 團隊使用了一個經過預訓練的文生圖的擴散模型,該模型在數十億張帶标籤的影像上進行訓練。
第一階段的推理時間約為 30 秒。
左為其他模型效果,右為 3D Gen 模型效果。圖源:Meta 論文
和其他 3D 素材生成模型相比,Meta 的 AssetGen 的細節,光照的效果都明顯要豐富和真實得多。
值得一提的是,Meta 團隊使用的這個文生圖模型,其架構與國内智源研究院的「悟道 3.0」Emu 開源多模态模型類似。
第二階段:從影像到 3D
根據第一階段生成的 3D 素材和最初的文本提示詞,**對第一階段的素材進行紋理細化或者重新着色,來生成更高質量的紋理和 PBR(physically based rendering,基于物理的渲染)圖 **。這一階段使用了 Meta 團隊的從文本到紋理( text-to-texture)的生成模型 3D TextureGen。
第二階段推理時間約為 20 秒。
相比業内其他技術,Meta 的 TextureGen 生成的紋理質量非常高。圖源:Meta 論文
通過構建 AssetGen 和 TextureGen 兩個組件,3D Gen 模型将 3D 物體的三種高度互補的表現方式結合起來:視覺空間(影像)、體積空間(3D 形狀和外觀)以及 UV 空間(紋理與質地)。
與許多最先進的解決方案不同,AssetGen 和 TextureGen 都是前饋生成器,因此在部署後既快速又高效。
下圖顯示了 3D Gen 從第一階段到第二階段處理後的效果對比。第二階段後通常具有更高的視覺美學,看起來更逼真,并且在高頻顏色區有更多細節。
△第一階段效果。圖源:Meta 論文
△第二階段處理後的效果。圖源:Meta 論文
Meta 團隊将 3D Gen 與其他文生 3D 模型同行們(Meshy v3、Tripo 等)進行了比較。Meta 表示,競争對手們在簡單物體上做得很好,但更復雜的物體組合和場景就有挑戰了,而且展現高頻區細節與暴露視覺偽影之間總是難以平衡。
3D Gen 還可以在同一形狀的物體上,進行不同的着色。在第一階段生成的 3D 網格,然後傳遞到第二階段,只要使用不同的提示詞,就能創建具有相同形狀但外觀不同的新素材。除了實現語義編輯并執行全局和局部修改之外,3D Gen 還可以成功地模仿不同的材料和藝術風格。
在同一形狀的物體上,進行不同的着色
除了對物體本身進行不同着色,3D Gen 還能調整整體場景的風格。通過對物體層面的提示詞進行加強,加上風格信息,就能将整個場景的風格進行調整,效果很協調。
在下圖中,3D Gen 就對同樣的物體,進行不同風格的場景渲染,有針織玩偶、恐怖電影、水下世界、像素藝術、聖誕節等風格。
調整整體場景的風格
90 後研發團隊
Gen 3D 的研發團隊也非常年輕,基本都是由 90 後組成。
**Raphael Bensadoun**
Raphael Bensadoun
他畢業于特拉維夫大學,之後在兩家小公司有過時間不長的工作經歷,之後來到 Meta 成為了 AI 研究人員。
**Tom Monnier**
Tom Monnier
他畢業于法國最好的工程師大學,然後在 Tinyclues 和 Adobe 工作了一段時間之後,進入 Meta 擔任研究科學家。
**Filippos Kokkinos**
Filippos Kokkinos
他是 Meta GenAI 的研究科學家,此前曾在 Facebook AI Research ( FAIR ) 工作。他的研究以生成性深度學習為中心,特别關注視頻和從文本、影像和視頻生成 3D 的技術。在加入 Meta 之前他曾經在華為等公司實習過。
他博士畢業于倫敦大學學院。
Meta 的 3D Gen 的潛在應用是巨大的。遊戲開發人員可以用 3D Gen 快速制作遊戲環境和角色原型,建築可視化公司則只需要文本描述,就能生成建築物整體和内部的詳細 3D 模型,簡化設計流程。在 VR/MR 領網域,3D Gen 可以快速創建沉浸式環境和物體,加速元宇宙應用程式的開發。AI 的未來将會進一步加速。