單圖就能解鎖全景視角！北大/港中文/騰訊等推出ViewCrafter

今天小編分享的科技經驗：單圖就能解鎖全景視角！北大/港中文/騰訊等推出ViewCrafter，歡迎閱讀。

随便給張圖就能從更多視角查看全景了？！

話不多說，先看一波效果，單視角輸入be like：

難度更新，接下來換成雙視角，看起來銜接也非常絲滑。

以上來自ViewCrafter，由北大、港中文、騰訊等機構的研究人員提出，可以從單張或稀疏輸入影像生成精确相機可控的新視角視頻。

還支持場景級文生 3D、圖生 3D、以及稀疏視角重建等應用。

目前論文和代碼均已開源，并提供了在線 Huggingface demo 供用戶使用。

ViewCrafter：一種新視角生成方法

傳統的新視角生成方法，如 NeRF 和 3D-GS 等技術，存在一個痛點：

依賴于密集的多視角訓練數據

這限制了它們在僅有稀疏（輸入影像數量有限，不能提供完整視角或詳盡場景信息）甚至單張輸入視角的情況下的應用。

同時，傳統方法對訓練資源的需求較高，且不具備泛化能力，這限制了它們在訓練資源受限場景下的應用。

因此，ViewCrafter 最終想實現：

從稀疏視角影像甚至單張輸入影像中生成任意規模場景的新視角。

這需要模型對 3D 物理世界有全面的理解。

接下來一起康康具體咋實現的。

概括而言，ViewCrafter 是基于點雲先驗的可控視角視頻生成。

首先，快速多視圖 / 單視圖 stereo 技術的發展，使得從單張或稀疏影像中快速重建點雲表征成為可能。

點雲表征能夠提供 3D 場景的粗略信息，支持精确的相機位置控制以實現自由視角渲染。

然而，由于點雲的表示能力較弱，加之極其稀疏的輸入影像只能提供有限的 3D 線索，重建出的點雲存在大面積的遮擋和缺失區網域，并可能面臨幾何形變和點雲噪聲。

這些問題限制了其在新視角合成上的應用。

與此同時，在大規模視頻數據集上訓練的視頻擴散模型能夠深入理解 3D 物理世界，支持從單張影像或文本提示中生成符合物理規律和現實世界規則的視頻内容。

然而，現有的視頻擴散模型缺乏顯式的場景 3D 信息，因此在視頻生成過程中難以實現精确的相機視角控制。

針對這些優缺點，團隊提出将視頻擴散模型的生成能力與點雲表征提供的顯式 3D 先驗相結合，以實現相機精準可控的任意場景高保真度新視角視頻生成。

具體而言，給定單張或稀疏視角輸入影像，團隊首先使用快速多視圖 stereo 方法構建其點雲表征，以實現精準地移動相機進行自由視角渲染。

随後，為了解決點雲渲染結果中存在的大面積缺失區網域、幾何失真和點雲偽影，團隊訓練了一個以點雲渲染結果為控制信号的視頻擴散模型作為增強渲染器。

這一渲染器能在粗糙的點雲渲染結果的基礎上進一步生成具有高保真度和 3D 一致性的新視角。

通過結合點雲提供的顯式 3D 信息以及視頻擴散模型的強大生成能力，新方法能夠在視頻生成過程中實現6 自由度的精準相機位姿控制，并生成高保真度、一致性強的新視角視頻。

△相機軌迹規劃算法

此外，現有的視頻擴散模型難以生成長視頻，因為長視頻推理會造成巨大的計算開銷。

為了解決這一問題，研究采用了一種迭代式的新視角生成策略，并提出了一種内容自适應的像機軌迹規劃算法，以逐步擴展新視角覆蓋的區網域和重建的點雲。

具體來說，從初始輸入影像構建的點雲開始，團隊首先利用相機軌迹規劃算法，從當前點雲預測一段相機軌迹，以有效揭示遮擋和确實區網域。

接着，團隊根據預測的軌迹渲染點雲，并利用 ViewCrafter 根據渲染的點雲生成高質量的新視角。

随後利用生成的新視角更新點雲，以擴展全局點雲表征。

通過迭代執行這些步驟，最終可以獲得覆蓋大視場範圍和擴展點雲的高保真新視圖，并支持高斯重建等下遊任務。

具體應用上，基于 ViewCrafter 和提出的迭代式新視角生成算法，可以從單張影像 / 稀疏視角甚至一段文字描述中進行 3D 高斯重建，以支持實時渲染和沉浸式 3D 體驗。

對比實驗

團隊從多個角度對比了新方法。

從新視角生成來看，團隊在 Tanks-and-Temples，CO3D， RealEstate10K 這三個真實世界數據集上與 SOTA 方法進行了定量和定性比較。

實驗結果證明，ViewCrafter 在相機位姿控制的精準程度，以及生成新視角的視覺質量上都優于對比方法。

在場景重建方面，團隊在 Tanks-and-Temples 數據集上與稀疏視角重建領網域的 SOTA 方法進行了定量和定性比較。

結果證明，ViewCrafter 在3D 高斯重建渲染出的新視角的視覺質量上也超過了對比方法。

文生 3D 結果如下。左邊顯示了文本提示以及文生圖效果，後面是最終的 3D 效果。

當然，團隊也進行了消融實驗。

比如利用點雲先驗作為視頻擴散模型控制信号的有效性。

具體而言，一些同期工作采用普呂克坐标作為視頻生成模型的控制信号，以實現相機可控的新視角生成。

作為對比，為了驗證點雲控制信号的優越性，團隊訓練了一個以普呂克坐标為控制信号的新視角生成模型，并進行控制變量實驗，保證除了控制信号外其他模型結構與 ViewCrafter 一致。

兩個模型在新視角生成任務上對比結果如下所示：

實驗結果證明，不管是在新視角生成質量還是在相機控制的精準程度上，團隊使用的基于點雲的控制信号都要優于基于普呂克坐标的控制信号。

另外，團隊驗證了模型對粗糙點雲的魯棒性。

如圖所示，對于作為控制信号的點雲具有嚴重幾何形變的情況，模型依然能夠有效地進行幾何糾錯和空洞修補。

這證明了新方法對點雲控制信号的魯棒性。

概括下來，團隊驗證了 ViewCrafter 對于靜态場景的強大新視角生成能力。

接下來，團隊計劃探索和單目視頻深度估計方法結合，實現單目動态視頻的新視角生成和 4D 重建。

更多細節歡迎查閱原論文。

GitHub：

https://github.com/Drexubery/ViewCrafter

項目主頁 :

https://drexubery.github.io/ViewCrafter/

論文 :

https://arxiv.org/abs/2409.02048

Huggingface Demo:

https://huggingface.co/spaces/Doubiiu/ViewCrafter

— 完 —

投稿請發郵件到：

[email protected]

标題注明【投稿】，告訴我們：

你是誰，從哪來，投稿内容‍

附上論文 / 項目主頁鏈接，以及聯系方式哦

我們會（盡量）及時回復你

點這裡關注我，記得标星哦～

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~