今天小編分享的科學經驗:跑男後期狂喜:編輯一幀,整個視頻跟着變!比LNA渲染快5倍,Adobe聯合出品,歡迎閱讀。
前不久跑男為了讓 "kunkun" 原地消失,後期只能一幀一幀的摳圖。
現在,只要編輯一幀,整個視頻就跟着變!
就是點點 kunkun,整集就自動消失的那種(手動狗頭)。
Adobe Research 和英屬哥倫比亞大學的研究人員發現,使用INVE(互動式神經視頻編輯),只需在單幀上 " 畫筆塗鴉 ",就能自動應用改動到整個視頻中。
不僅可以編輯視頻中的對象并保留空間和光影關系,甚至可以編輯移動對象的紋理色彩。
網友驚呼:太牛了!
互動式神經視頻編輯
INVE(Interactive Neural Video Editing)是一種實時視頻編輯解決方案。
研究團隊受到分層神經圖集(LNA)的研究啟發。測試發現,通過使用 INVE,可以将稀疏幀編輯一致地傳播到整個視頻剪輯,輔助視頻編輯過程。
視頻中的場景通常由非靜态背景和一個或多個前景物體組成,運動軌迹也會不同。
早期的 2D 方法需要獨立編輯每一幀,并使用幀間跟蹤來協調整個視頻。
假如我們要把這個小狗頭像放在車門上,按照傳統方式,視頻中車是往前移動的,為避免不出現溢出效果,就需要一幀一幀訓練和測試反復編輯。
這種方式費時費力不說,還容易導致明顯的視覺偽影。
而最近發展起來的分層神經圖集(LNA)方法,可以通過一組分層神經網絡 2D 圖集對單個訓練和測試,達到編輯整個視頻的效果。
雖避免了逐幀編輯,但也有一些問題,比如處理速度較慢、對某些編輯用例支持不足。
因此,研究團隊基于 LNA 方法,通過學習影像圖集和影像之間的雙向函數映射,并引入矢量化編輯,使得在圖集和影像中一致編輯成為可能。
同時,采用多分辨率哈希編碼來改善模型的收斂速度。
如何實現
研究團隊基于光流提取算法 RAFT,在包含 70 幀且分辨率為 768 × 432 的視頻上訓練和測試模型。
首先,團隊在每個訓練批次中随機采樣了 10,000 個視頻像素,然後設定了一個模型參數值。
通過将 GPU 優化的 Fully Fused MLP 架構引入,僅迭代大約 12,000 個次數就完成訓練,相比于 LNA 的 300,000 個迭代次數要少得多。
測試顯示該方法在單個 NVIDIA RTX 4090 GPU 上的渲染速度為 24.81 FPS,對比 LNA 的渲染速度 5.34 FPS,渲染速度快了近 5 倍。
經過相同數量的迭代訓練,團隊模型的重建、流場損失都比 LNA 更快地收斂。
此外,為實現點跟蹤,團隊選擇逆映射的方法,允許添加跟蹤單個 / 少數點的剛性紋理。
團隊提出 " 矢量化素描技術 ",将多邊形鏈直接映射到圖集中,更精确地控制線條,從而減少計算成本并避免有視覺偽影。
再通過分層編輯,允許在圖集之上疊加多個可編輯圖層,使每個圖層都可獨立訪問和編輯。
分層編輯支持多種類型的編輯,包括畫筆塗鴉、局部調整、紋理編輯。
比如畫筆塗鴉,就可以直接使用畫筆工具草圖塗鴉。
比如紋理編輯,可以導入外部圖形,跟蹤和變形的運動對象。
研究團隊
作者團隊由來自 Adobe Research、英屬哥倫比亞大學、AI Vector 研究所和 CIFAR AI 組成。
第一作者是 Jiahui Huang,目前是 Adobe Research 的研究工程師,碩士畢業于英屬哥倫比亞大學。
其他作者包括 Kwang Moo Yi、Oliver Wang 和 Joon Young Lee,整個團隊研究方向主要也是在計算機視覺、機器學習和視頻編輯領網域。
論文傳送門 :
https://arxiv.org /abs/2307.07663
參考鏈接:
[ 1 ] https://twitter.com/_akhaliq/status/1681162394393886720/
[ 2 ] https://gabriel-huang.github.io/inve/