今天小編分享的科技經驗:NeRF新研究來了:3D場景無痕移除不需要對象,精确到毛發,歡迎閱讀。
機器之心報道
機器之心編輯部
神經輻射場(Neural Radiance Fields,簡稱 NeRF)已經成為一種流行的新視角合成方法。盡管 NeRF 迅速适應了更廣泛的應用領網域,但直觀地編輯 NeRF 場景仍然是一個待解決的挑戰。其中一個重要的編輯任務是從 3D 場景中移除不需要的對象,以使替換區網域在視覺上是合理的,并與其上下文保持一致。本文提出了一種新穎的 3D 修復方法來解決這些挑戰。
神經輻射場(NeRF)已經成為一種流行的新視圖合成方法。雖然 NeRF 正在快速泛化到更廣泛的應用以及數據集中,但直接編輯 NeRF 的建模場景仍然是一個巨大的挑戰。一個重要的任務是從 3D 場景中删除不需要的對象,并與其周圍場景保持一致性,這個任務稱為 3D 影像修復。在 3D 中,解決方案必須在多個視圖中保持一致,并且在幾何上具有有效性。
本文來自三星、多倫多大學等機構的研究人員提出了一種新的三維修復方法來解決這些挑戰,在單個輸入影像中給定一小組姿态影像和稀疏注釋,提出的模型框架首先快速獲得目标對象的三維分割掩碼并使用該掩碼,然後引入一種基于感知優化的方法,該方法利用學習到的二維影像再進行修復,将他們的信息提取到三維空間,同時确保視圖的一致性。
該研究還通過訓練一個很有挑戰性的現實場景的數據集,給評估三維場景内修復方法帶來了新的基準測試。特别是,該數據集包含了有或沒有目标對象的同一場景的視圖,從而使三維空間内修復任務能夠進行更有原則的基準測試。
論文地址:https://arxiv.org/pdf/2211.12254.pdf
論文主頁:https://spinnerf3d.github.io/
下面為效果展示,在移除一些對象後,還能與其周圍場景保持一致性:
本文方法和其他方法的比較,其他方法存在明顯的偽影,而本文的方法不是很明顯:
方法介紹
作者通過一種集成的方法來應對三維場景編輯任務中的各種挑戰,該方法獲取場景的多視圖影像,以用戶輸入提取到的 3D 掩碼,并用 NeRF 訓練來拟合到掩碼影像中,這樣目标對象就被合理的三維外觀和幾何形狀取代。現有的互動式二維分割方法沒有考慮三維方面的問題,而且目前基于 NeRF 的方法不能使用稀疏注釋得到好的結果,也沒有達到足夠的精度。雖然目前一些基于 NeRF 的算法允許去除物體,但它們并不試圖提供新生成的空間部分。據目前的研究進展,這個工作是第一個在單一框架中同時處理互動式多視圖分割和完整的三維影像修復的方法。
研究者利用現成的、無 3D 的模型進行分割和影像修復,并以視圖一致性的方式将其輸出轉移到 3D 空間。建立在 2D 互動式分割工作的基礎上,作者所提出的模型從一個目标對象上的少量用戶用滑鼠标定的影像點開始。由此,他們的算法用一個基于視頻的模型初始化掩碼,并通過拟合一個語義掩碼的 NeRF ,将其訓練成一個連貫的 3D 分割。然後,再應用預先訓練的二維影像修復到多視圖影像集上,NeRF 拟合過程用于重建三維影像場景,利用感知損失去約束 2 維畫影像的不一致,以及畫深度影像規範化掩碼的幾何區網域。總的來說,研究者們提供了一個完整的方法,從對象選擇到嵌入的場景的新視圖合成,在一個統一的框架中對用戶的負擔最小,如下圖所示。
綜上所述,這篇工作的貢獻如下:
一個完整的 3D 場景操作過程,從用戶互動的對象選擇開始,到 3D 修復的 NeRF 場景結束;
将二維的分割模型擴展到多視圖情況,能夠從稀疏注釋中恢復出具有三維一致的掩碼;
确保視圖一致性和感知合理性,一種新的基于優化的三維修復公式,利用二維影像修復;
一個新的用于三維編輯任務評估的數據集,包括相應的操作後的 Groud Truth。
具體到方法上面,該研究首先描述了如何從單視圖注釋中初始化一個粗略的 3D 掩碼。将已标注的源代碼視圖表示為 I_1。将對象和源視圖的稀疏信息給一個互動式分割模型,用來估計初始源對象掩碼。然後将訓練視圖作為一個視頻序列,與一起給出一個視頻實例分割模型 V ,以計算,其中是 I_i 的對象掩碼的初始猜測。初始的掩碼通常在邊界附近是不準确的,因為訓練視圖實際上并不是相鄰的視頻幀,而視頻分割模型通常是未知 3D 的。
多視圖分割模塊獲取輸入的 RGB 影像、相應的相機内在和外部參數,以及初始掩碼去訓練一個語義 NeRF 。上圖描述了語義 NeRF 中使用的網絡;對于點 x 和視圖目錄 d,除了密度 σ 和顏色 c 外,它還返回一個 pre-sigmoid 型的對象 logit,s ( x ) 。為了其快速收斂,研究者使用 instant-NGP 作為他們的 NeRF 架構。與光線 r 相關聯的期望客觀性是通過在等式中呈現 r 上的點的對數而不是它們相對于密度的顏色而得到的:
然後使用分類損失進行監督:
用于監督基于 NeRF 的多視圖分割模型的總體損失為:
最後,采用兩個階段進行優化,進一步改進掩碼;在獲得初始三維掩碼後,從訓練視圖呈現掩碼,并用于監督二次多視圖分割模型作為初始假設(而不是視頻分割輸出)。
上圖顯示了視圖一致的修復方法概述。由于數據的缺乏妨礙了直接訓練三維修改修復模型,該研究利用現有的二維修復模型來獲得深度和外觀先驗,然後監督 NeRF 對完整場景的渲染拟合。這個嵌入的 NeRF 使用以下損失進行訓練:
該研究提出具有視圖一致性的修復方法,輸入為 RGB。首先,該研究将影像和掩碼對傳輸給影像修復器以獲得 RGB 影像。由于每個視圖都是獨立修復的,因此直接使用修復完的視圖監督 NeRF 的重建。本文中,研究者并沒有使用均方誤差(MSE)作為 loss 生成掩碼,而是建議使用感知損失 LPIPS 來優化影像的掩碼部分,同時仍然使用 MSE 來優化未掩碼部分。該損失的計算方法如下:
即使有感知損失,修復視圖之間的差異也會錯誤地引導模型收斂到低質量幾何(例如,攝影機附近可能形成 " 模糊 " 幾何測量,以解釋每個視圖的不同信息)。因此,研究員使用已生成的深度圖作為 NeRF 模型的額外指導,并在計算感知損失時分離權值,使用感知損失只拟合場景的顏色。為此,研究者使用了一個對包含不需要的對象的影像進行了優化的 NeRF,并渲染了與訓練視圖對應的深度圖。其計算方法是用到相機的距離而不是點的顏色代替的方法:
然後将渲染的深度輸入到修復器模型,以獲得修復完的深度圖。研究發現,使用 LaMa 進行深度繪制,如 RGB,可以得到足夠高質量的結果。這個 NeRF 可以是與用于多視圖分割的相同模型,若使用其他來源來獲取掩碼,如人工注釋的掩碼,一個新的 NeRF 将被安裝到場景中。然後,這些深度圖被用來監督已修復的 NeRF 的幾何形狀,通過其渲染深度到修復的深度的距離:
實驗結果
多視圖分割:首先評估 MVSeg 模型,沒有任何編輯修復。在本實驗中,假設稀疏影像點已經給出了一個現成的互動式分割模型,并且源掩碼是可用的。因此,該任務是将源掩碼傳輸到其他視圖中。下表顯示,新模型優于 2D(3D 不一致)和 3D 基線。此外研究者提出的兩階段優化有助于進一步改進所得到的掩碼。
定性分析來說,下圖将研究人員的分割模型的結果與 NVOS 和一些視頻分割方法的輸出進行了比較。與 3D 視頻分割模型的粗邊相比,他們的模型降低了噪聲并提高了視圖的一致性。雖然 NVOS 使用塗鴉(scribbles)不是研究者新模型中使用的稀疏點,但新模型的 MVSeg 在視覺上優于 NVOS。由于 NVOS 代碼庫不可用,研究人員復制了已發布的 NVOS 的定性結果(更多的例子請參見補充文檔)。
下表顯示了 MV 方法與基線的比較,總的來說,新提出的方法明顯優于其他二維和三維修復方法。下表進一步顯示,去除幾何圖形結構的引導會降低已修復的場景質量。
定性結果如圖 6、圖 7 所示。圖 6 表明,本文方法可以重建具有詳細紋理的視圖一致場景,包括有光澤和無光澤表面的連貫視圖。圖 7 表明, 本文的感知方法減少了掩碼區網域的精确重建約束,從而在使用所有影像時防止了模糊的出現,同時也避免了單視圖監督造成的偽影。
© THE END
轉載請聯系本公眾号獲得授權
投稿或尋求報道:[email protected]