今天小編分享的科學經驗:一張圖轉3D質量起飛!GitHub剛建空倉就有300+人趕來标星,歡迎閱讀。
最新" 只用一張圖轉 3D"方法火了,高保真那種。
對比之前一眾方法,算得上跨越式提升。(新方法在最後一行)
挑出一個結果放大來看,幾何結構細節豐富,渲染分辨率也高達1024x1024。
新方法Magic123,來自 KAUST、Snap 和牛津聯合團隊,一作為 KAUST 博士生錢國成。
只需輸入單個影像,不光生成高質量 3D 網格,連有視覺吸引力的紋理也一起打包生成。
甚至論文剛挂在 arXiv 上,代碼還沒來得及上傳時,就已經有 300+ 人趕來标星碼住(順便催更)。
以往 2D 轉 3D 最常見方法就是 NeRF。但 NeRF 不光占顯存高,分辨率還低。
論文中指出,即使資源效率更高的 Instant-NGP 方案在 16G 顯存 GPU 上也只能達到128x128的分辨率。
為進一步提高 3D 内容的質量,團隊在 NeRF 之後引入了第二階段,采用 DMTet 算法将分辨率提高到1024x1024,并且細化 NeRF 得出的幾何結構和紋理。
對于僅有一張的 2D 參考影像,首先使用現成的 Dense Prediction Transformer 模型進行分割,再使用預訓練的 MiDaS 提取深度圖,用于後續優化。
然後進入第一步粗階段,采用 Instant-NGP 并對其進行優化,快速推理并重建復雜幾何,但不需要太高分辨率,點到為止即可。
在第二步精細階段,在用内存效率高的 DMTet 方法細化和解耦 3D 模型。DMTet 是一種混合了 SDF 體素和 Mesh 網格的表示方法,生成可微分的四面體網格。
并且在兩個階段中都使用 Textural inversion 來保證生成與輸入一致的幾何形狀和紋理。
團隊将輸入影像分為常見對象(如玩具熊)、不太常見對象(如兩個疊在一起的甜甜圈)、不常見對象(如龍雕像)3 種。
發現僅使用 2D 先驗信息可以生成更復雜的 3D 結構,但與輸入影像的一致性不高。
僅使用 3D 先驗信息能產生精确但缺少細節的幾何體。
團隊建議綜合使用 2D 和 3D 先驗,并經過反復試驗,最終找到了二者的平衡點。
2D 先驗信息使用了 Stable Diffusion 1.5,3D 先驗信息使用了哥倫比亞大學 / 豐田研究所提出的 Zero-1-to-3。
在定性比較中,結合兩種先驗信息的 Magic123 方法取得了最好的效果。
在定量比較中,評估了 Magic123 在 NeRF4 和 RealFusion15 數據集上的表現,與之前 SOTA 方法相比在所有指标上取得 Top-1 成績。
那麼 Magic123 方法有沒有局限性呢?
也有。
在論文最後,團隊指出整個方法都建立在" 假設參考影像是正視圖 "的基礎上,輸入其他角度的影像會導致生成的幾何性質較差。
比如從上方拍攝桌子上的食物,就不适合用這個方法了。
另外由于使用了 SDS 損失,Magic123 傾向于生成過度飽和的紋理。尤其是在精細階段,更高分辨率會放大這種問題。
項目主頁:
https://guochengqian.github.io/project/magic123/
論文:
https://arxiv.org/abs/2303.11328
GitHub:
https://github.com/guochengqian/Magic123
參考鏈接:
[ 1 ] https://twitter.com/_akhaliq/status/1675684794653351936