今天小編分享的科技經驗:随時随地,追蹤每個像素,連遮擋都不怕的「追蹤一切」視頻算法來了,歡迎閱讀。
機器之心報道
機器之心編輯部
Tracking Everything Everywhere All at Once.
前段時間,Meta 發布「分割一切(SAM)」AI 模型,可以為任何影像或視頻中的任何物體生成 mask,讓計算機視覺(CV)領網域研究者驚呼:「CV 不存在了」。之後,CV 領網域掀起了一陣「二創」狂潮,一些工作陸續在分割的基礎上結合目标檢測、影像生成等功能,但大部分研究是基于靜态影像的。
現在,一項稱為「追蹤一切」的新研究為動态視頻中的運動估計提出了新方法,能夠準确、完整地追蹤物體的運動軌迹。
該研究由來自康奈爾大學、谷歌研究院和 UC 伯克利的研究者共同完成。他們聯合提出了一種完整且全局一致的運動表征 OmniMotion,并提出一種新的測試時(test-time)優化方法,對視頻中每個像素進行準确、完整的運動估計。
論文地址:https://arxiv.org/abs/2306.05422
項目主頁:https://omnimotion.github.io/
有網友在推特上轉發了這項研究,僅一天時間就收獲了 3500 + 的點贊量,研究内容大受好評。
從該研究發布的 demo 看,運動追蹤的效果非常好,例如追蹤跳躍袋鼠的運動軌迹:
蕩秋千的運動曲線:
還能互動式查看運動追蹤情況:
即使物體被遮擋也能追蹤運動軌迹,如狗在跑動的過程中被樹遮擋:
在計算機視覺領網域,常用的運動估計方法有兩種:稀疏特征追蹤和密集光流。但這兩種方法各有缺點,稀疏特征追蹤不能建模所有像素的運動;密集光流無法長時間捕獲運動軌迹。
該研究提出的 OmniMotion 使用 quasi-3D 規範體積來表征視頻,并通過局部空間和規範空間之間的雙射(bijection)對每個像素進行追蹤。這種表征能夠保證全局一致性,即使在物體被遮擋的情況下也能進行運動追蹤,并對相機和物體運動的任何組合進行建模。該研究通過實驗表明所提方法大大優于現有 SOTA 方法。
方法概述
該研究将幀的集合與成對的噪聲運動估計(例如光流場)作為輸入,以形成整個視頻的完整、全局一致的運動表征。然後,該研究添加了一個優化過程,使其可以用任何幀中的任何像素查詢表征,以在整個視頻中產生平滑、準确的運動軌迹。值得注意的是,該方法可以識别畫面中的點何時被遮擋,甚至可以穿過遮擋追蹤點。
OmniMotion 表征
傳統的運動估計方法(例如成對光流),當物體被遮擋時會失去對物體的追蹤。為了在遮擋的情況下也能提供準确、一致的運動軌迹,該研究提出全局運動表征 OmniMotion。
該研究試圖在沒有顯式動态 3D 重建的情況下準确追蹤真實世界的運動。OmniMotion 表征将視頻中的場景表示為規範的 3D 體積,通過局部規範雙射(local-canonical bijection)映射成每個幀中的局部體積。局部規範雙射被參數化為神經網絡,并在不分離兩者的情況下捕獲相機和場景運動。基于此種方法,視頻可以被視為來自固定靜态相機局部體積的渲染結果。
由于 OmniMotion 沒有明确區分相機和場景運動,所以形成的表征不是物理上準确的 3D 場景重建。因此,該研究稱其為 quasi-3D 表征。
OmniMotion 保留了投影到每個像素的所有場景點的信息,以及它們的相對深度順序,這讓畫面中的點即使暫時被遮擋,也能對其進行追蹤。
實驗及結果
定量比較
研究者将提出的方法與 TAP-Vid 基準進行比較,結果如表 1 所示。可以看出,在不同的數據集上,他們的方法始終能實現最佳的位置準确性、遮擋準确性和時序一致性。他們的方法可以很好地處理來自 RAFT 和 TAP-Net 的不同的成對對應輸入,并且在這兩種基準方法上提供了一致的改進。
定性比較
如圖 3 所示,研究者對他們的方法和基線方法進行了定性比較。新方法在(長時間)遮擋事件中顯示出了出色的識别和追蹤的能力,同時在遮擋期間為點提供合理的位置,并處理很大的攝影機運動視差。
消融實驗與分析
研究者利用消融實驗來驗證他們設計決策的有效性,結果如表 2 所示。
在圖 4 中,他們展示了由他們的模型生成的偽深度圖,以展示學習到的深度排序。
需要注意的是,這些圖并不對應于物理深度,然而,它們展示了僅使用光度和光流信号時,新方法能夠有效地确定不同表面之間的相對順序,這對于在遮擋中進行追蹤至關重要。更多的消融實驗和分析結果可以在補充材料中找到。
© THE END
投稿或尋求報道:[email protected]