今天小編分享的互聯網經驗:前商湯通用模型負責人打造3D大模型「Tripo」,3D生成邁入「秒級」時代,歡迎閲讀。
在 AI 領網域的持續創新中,3D 建模一直是等待着自己的 "ChatGPT" 時刻。
傳統 3D 建模涉及遊戲、影視、建築等多個行業,其制作流程繁瑣,生產周期長,成本高昂。每個 3D 模型的創建成本至少需要數千元,而生成式 AI 技術在 2D 影像生成方面的成功為其在 3D 建模中的應用帶來了新的可能性。
2021 年,OpenAI 發布了 DALL · E,通過輸入文字 prompt 生成清晰的影像,标志着文字生成圖片技術的成熟。這個項目成功地将 AI 應用于 2D 影像生成,為 AI 在 3D 建模領網域的應用提供了啓示。
2023 年初,通用 3D 大模型公司「VAST」正式成立,算法團隊成員全部來自海内外的頂尖高校和技術大廠,具有豐富的人工智能及圖形學經驗。VAST 團隊的目标是減少制作高質量 3D 資產和環境所需的專業知識和成本,使 3D 内容生成變得更加容易。
3D 大模型生成的内容
通過集結來自全球頂級高校和技術大廠的團隊,VAST 在技術和數據方面取得了雙重優勢,尤其是 3D 大模型的算法方面。此外,他們擁有千萬級别的 3D 原生數據庫,為 AI 模型提供了豐富的學習資源。
與過去 3D 生成的技術路線不同的是,VAST 團隊認為通過統一表示、模型和數據,以及借鑑其他模态的成功經驗,可以有效地解決當前 3D 内容生成面臨的挑戰,實現通用且可擴展的解決方案。這對算法、數據量、伺服器等有很高的要求一一不過這恰恰也是 VAST 團隊的核心優勢。
VAST 這一思路提高了生成模型的成功率和效率。目前,已經實現 8 秒鍾生成帶紋理 3D 網格模型,可以進入傳統管線進行二次編輯和調整。在此基礎上,可以再用 5 分鍾的時間進行優化,優化後的 3D 模型可以接近人類手工制作的 3D 模型質量,成功率超過 95%。
在 3D 内容的生成上,AI 同樣面臨着諸多挑戰。傳統流程中,3D 數字内容的生成由積累長時間學習和工作經驗的專業藝術家進行創作,且不同藝術家的工作流程不同,缺乏統一标準。對于現有的生成式大模型來説,3D 數字内容是一種全新的語言體系,使得 AI 學習生成高質量 3D 模型變得復雜。
宋亞宸認為,要實現 AI 在 3D 生成領網域的長足發展,需要跳出對人類知識的依賴,通過更龐大的數據和更多的計算,學習一種通用方法。
經過近一年的探索,VAST 在 2023 年 12 月上線通用 3D 大模型 Tripo。Tripo 基于海量 3D 高質量原生數據庫訓練,是一個數十億參數級别的 3D 大模型。與傳統的 3D 建模相比,Tripo 在生成的質量、速度、成功率上取得了領先地位。
Tripo 的成功主要得益于 VAST 在 " 通用 3D 大模型 " 路線上的技術探索。通過 Tripo,VAST 展示了強大的泛化能力,不論是寫實還是風格化任務,亦或是結構復雜的幻想生物,都能在短時間内完成,為 3D 創意内容的未來發展描繪了巨大的潛力。
現階段,用户使用 Tripo 生成的 3D 模型資產可以直接應用于影視、遊戲、設計等多個領網域,且單個模型的生成時間可以控制在幾秒時間——相較于傳統渲染引擎的數十分鍾甚至幾個小時,Tripo 的效率提升了幾個量級。
長期來看,VAST 對于 3D 大模型的發展前景充滿信心。宋亞宸表示,未來團隊會持續優化大模型,并基于數據和技術積累,推出 AIGC 遊戲和生成式 AI 多人競技產品。" 做好大模型,不斷驗證内容範式,一定會迎來平台型機會。"