單張照片生成360°3D場景，支持靈活視角漫遊

今天小編分享的科學經驗：單張照片生成360°3D場景，支持靈活視角漫遊，歡迎閱讀。

從單張影像生成靈活視角 3D 場景的技術來了，在考古保護、自主導航等直接獲取 3D 數據成本高昂或不可行的領網域具有重要應用價值。

這一任務本質上是高度不适定的：單一的 2D 影像無法提供足夠的信息來消除完整 3D 結構的歧義，尤其是在極端視角（如 180 ° 旋轉）下，先前被遮擋或缺失的内容可能會引入顯著的不确定性。

生成模型，特别是擴散模型，為解決這一問題提供了一種潛在的技術路徑。盡管現有方法通常依賴預訓練的生成模型作為新視角合成的先驗，但它們仍面臨顯著挑戰。

例如，基于影像的擴散方法容易累積内容誤差，基于視頻的擴散方法則難以處理可能生成的動态内容構建靜态 3D 場景的影響。最近的研究嘗試通過在視頻擴散模型中引入點雲先驗來提升一致性，雖然取得了一定進展，但在可擴展性方面仍存在局限，尤其是在大視角變化下的表現有待提升。

針對上述問題，人大高瓴李崇軒、文繼榮團隊、北師大王一凱團隊與字節跳動的研究員提出了一種新方法 FlexWorld，用于從單張影像生成靈活視角的 3D 場景。

與現有方法不同，FlexWorld 通過合成和整合新的 3D 内容，逐步構建并擴展一個持久的 3D 表示。

該方法包含兩個核心組件：

( 1 ) 一個強大的視頻到視頻（video-to-video, V2V）擴散模型，用于從粗糙場景渲染的不完整影像生成完整的視角影像； ( 2 ) 一個幾何感知的 3D 場景擴展過程，用于提取新的 3D 内容并将其整合到全局結構中。研究團隊在精确深度估計的訓練數據上對先進的視頻基礎模型進行了微調，使其能夠在大幅度相機變化下生成高質量内容。

基于 V2V 模型，場景擴展過程通過相機軌迹規劃、場景整合和細化步驟，逐步從單張影像構建出支持靈活視角觀察（包括 360 ° 旋轉和縮放等）的 3D 場景生成。

通過大量實驗，研究團隊驗證了 FlexWorld 在高質量視頻和靈活視角 3D 場景合成方面的性能。FlexWorld 在生成大幅度相機變化控制下的視頻中展現了出色的視覺質量，同時在生成靈活視角 3D 場景時保持了較高的空間一致性。為促進學術交流和技術推廣，團隊已開源相關代碼倉庫與訓練權重，供研究社區進一步探索和應用。

性能展示

支持大幅轉角的視頻到視頻生成‍

在多種不同來源的輸入影像和相機軌迹下，FlexWorld 中微調的視頻模型可以生成較高質量且 3D 一致的視頻内容。受益于較好的一致性，這些視頻可以直接用于 3D 重建，為後續生成靈活視角的場景提供了較好的視覺内容。

靈活視角的場景生成

根據單張圖片輸入，FlexWorld 可以生成靈活視角下的 3D 場景，這些生成的場景可以在 360 度旋轉，前進和後退等視角進行探索。這些場景通過多段視頻逐漸構築生成，旨在擴展出更大的可探索區網域，而非僅關注前方區網域。

核心方法

下圖展示了 FlexWorld 的整體框架。

逐步構建場景

FlexWorld 采用多段視頻逐步構建出一個具有更大可探索區網域的場景。在場景内容不足的區網域，FlexWorld 渲染出該區網域的殘缺場景視頻，并通過一個經過微調的視頻到視頻模型，獲得補完的場景視頻。在場景融合階段，視頻中的關鍵幀将會被填充置入場景的不足區網域，其他幀則會作為場景表示（即 3D Gaussian splatting）的參考影像優化整體場景表征。

支持大轉角的視頻到視頻模型

FlexWorld 中包含一個經過微調的視頻模型，該模型以視頻作為條件，可以從殘缺的輸入視頻中捕捉到相機運行軌迹，輸出符合輸入軌迹的完好視頻，保持良好的 3D 一致性。該視頻模型選用 CogVideoX-5B-I2V 作為基座模型，并構造了一系列深度良好的殘缺視頻 - 良好視頻訓練對。不同于依賴深度估計模型獲得的訓練對，FlexWorld 構建的訓練對來自于同一場景密集重建提供的深度，這種訓練對使模型始終明确應該修復的區網域，從而能夠在推理時支持更大轉角的相機運動。

基于視頻内容的場景融合

FlexWorld 一方面通過高斯優化将多段視頻内容融合進持久化的 3D 表征中，另一方面通過密集立體模型和深度融合策略，将多段視頻的關鍵幀直接作為初始三維高斯加入表征作為初始化，以充分利用深度估計模型提供的先驗和視頻内部的一致性。

總結

本文介紹了 FlexWorld，這是一個從單張影像生成靈活視角 3D 場景的框架。它結合了一個微調的視頻到視頻擴散模型，用于高質量的新視角合成，以及一個漸進的靈活視角 3D 場景生成過程。通過利用先進的預訓練視頻基礎模型和精确的訓練數據，FlexWorld 能夠處理大幅度的相機姿态變化，從而實現一致的、支持 360 ° 旋轉和前進後退觀察的 3D 場景生成。大量實驗表明，與現有方法相比，FlexWorld 在視角靈活性和視覺質量性能方面表現優異。我們相信 FlexWorld 具有廣闊的前景，并在虛拟現實内容創作和 3D 旅遊領網域具有重要潛力。

本文由中國人民大學高瓴人工智能學院李崇軒、文繼榮教授團隊、北京師範大學人工智能學院王一凱副教授和字節跳動共同完成。共同一作陳路晰和周子晗分别是中國人民大學高瓴人工智能學院的博士生與碩士生，導師為李崇軒副教授。王一凱副教授、李崇軒副教授為共同通訊作者。

論文鏈接：https://arxiv.org/abs/2503.13265

項目地址：https://ml-gsai.github.io/FlexWorld/

代碼倉庫：https://github.com/ML-GSAI/FlexWorld

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法！

— 完 —

學術投稿請于工作日發郵件到：

[email protected]

标題注明【投稿】，告訴我們：

你是誰，從哪來，投稿内容‍

附上論文 / 項目主頁鏈接，以及聯系方式哦

我們會（盡量）及時回復你

點亮星标

科技前沿進展每日見