經典卡爾曼濾波器改進視頻版「分割一切」，網友：好優雅的方法 - 大酷樂

今天小編分享的科學經驗：經典卡爾曼濾波器改進視頻版「分割一切」，網友：好優雅的方法，歡迎閲讀。

Meta 的視頻版分割一切—— Segment Anything Model 2（SAM 2），又火了一把。

因為這一次，一個全華人團隊，僅僅是用了個經典方法，就把它的能力拔到了一個新高度——

任你移動再快，AI 跟丢不了一點點！

例如在電影《1917》這段畫面裏，主角穿梭在眾多士兵之中，原先的 SAM 2 表現是這樣的：

嗯，當一大群士兵湧入畫面的時候，SAM 2 把主角給跟丢了。

但改進版的 SAM 2，它的表現截然不同：

這個改進版的 SAM 2，名叫SAMURAI（武士），由華盛頓大學全華人研究團隊提出。

一言蔽之，這項工作就是把 SAM 2 之前存在的缺點（記憶管理方面的局限性）給填補上了。

更有意思的是，這項改進工作所用到的核心關鍵方法，是非常經典的卡爾曼濾波器（Kalman Filter，KF）。

并且還是無需重新訓練、可以實時運行的那種！

前谷歌產品經理、國外知名博主 Bilawal Sidhu 在看完論文後直呼" 優雅 "：

有時候你不需要復雜的全新架構——只需要聰明地利用模型已知的信息，再加上一些經過驗證的經典方法。

我們的 " 老朋友 " 卡爾曼濾波器，這麼多年過去了，它的表現依然如此出色。有時候老派的方法就是管用。

嗯，頗有一種 " 姜還是老的辣 " 的感覺了。

黑悟空、女團舞蹈，統統都能 hold 住

我們先繼續看下 SAMURAI 能力實現的更多效果。

團隊在項目主頁中便從多個不同維度秀了一波實力。

首先就是打鬥遊戲場景，例如在《只狼：影逝二度》中，即便人物都 " 彈出 " 了畫面，SAMURAI 也能再次把目标捕捉回來：

《黑神話：悟空》的打鬥名場面，人物動作變化可以説是非常之快，而且和背景非常復雜的交織在一起。

即便如此，SAMURAI 也能精準跟蹤，細節到金箍棒的那種：

但畢竟這兩個遊戲場景的例子，所涉及到的主體還不夠多，那麼我們接下來繼續看下更復雜的 case。

例如橄榄球比賽場景，不僅人物移動的快，後來隊員們都撲到了一起，SAMURAI 也能 hold 住：

在女團舞蹈的案例中，人物在變換隊形的時候都已經被其他隊員擋住了，也擋不住 SAMURAI 的 " 眼神鎖定你 "：

很 work 的經典方法

在看完效果之後，我們接下來扒一扒 SAMURAI 的技術細節。

正如我們剛才提到的，這項工作彌補了 SAM 2 此前存在的缺點。

主要的問題就是處理視覺目标跟蹤時，尤其是在擁擠場景中快速移動或遮擋的物體時，它會出現跟丢了的情況。

SAM 2 的組成部分包括影像編碼器、掩碼解碼器、提示編碼器、記憶注意力層和記憶編碼器。

在視覺目标跟蹤中，SAM 2 使用提示編碼器來處理輸入的提示信息，如點、框或文本，這些提示信息用于指導模型分割影像中的特定對象。

掩碼解碼器則負責生成預測的掩碼，而記憶注意力層和記憶編碼器則用于處理跨幀的上下文信息，以維持長期跟蹤。

然而，SAM 2 在處理快速移動的對象或在擁擠場景中，往往忽視了運動線索，導致在預測後續幀的掩碼時出現不準确。

特别是在遮擋發生時，SAM 2 傾向于優先考慮外觀相似性而非空間和時間的一致性，這可能導致跟蹤錯誤。

而 SAMURATI，作為 SAM 2 的增強版，可以説是很好地解決了此前的痛點。

整體來看，SAMURAI 主要包含兩個技術關鍵點：

運動建模（Motion Modeling）

運動感知記憶選擇（Motion-Aware Memory Selection）

讓目标 " 動 " 起來

運動建模部分的目的是有效地預測目标的運動，從而在復雜場景中，如擁擠場景或目标快速移動和自遮擋的情況下，提高跟蹤的準确性和魯棒性。

而這裏用到的具體方法，就是那個經典的卡爾曼濾波器，以此來增強邊界框位置和尺寸的預測，從而幫助從多個候選掩碼中選擇最有信心的一個。

在 SAMURAI 中，狀态向量包括目标的位置、尺寸及其變化速度；通過預測 - 校正循環，卡爾曼濾波器能夠提供關于目标未來狀态的準确估計。

目标的狀态向量被定義為：

其中，x 和 y 表示目标邊界框的中心坐标；w 和 h 表示邊界框的寬度和高度；後四個變量則表示坐标與尺寸的速度。

濾波的過程則主要分為兩個步驟。

第一個就是預測階段，即根據目标的上一幀狀态，預測下一幀位置：

其中，F 是狀态轉移矩陣。

第二個則是更新階段，會結合實際測量值（目标的候選掩膜），校正預測值：

在運動建模部分，除了基于卡爾曼濾波器的運動預測之外，還涉及運動分數（Motion Score）。

主要是通過計算 Kalman 濾波器預測的邊界框與候選掩膜之間的交并比（IoU），生成運動分數 sKf，用以輔助掩膜選擇：

最終的掩膜選擇基于運動分數與掩膜親和分數的加權和：

挑出最關鍵的記憶

SAMURAI 第二個關鍵技術，則是運動感知記憶選擇（Motion-Aware Memory Selection）。

主要是為了解決 SAM 2 的固定視窗記憶機制容易引入錯誤的低質量特征，導致後續跟蹤的誤差傳播的情況。

這部分首先涉及一個混合評分系統，包括掩膜分數、目标出現分數和運動分數三種評分，用于動态選擇記憶庫中最相關的幀。

掩膜分數 smask：衡量掩膜的準确性。

目标出現分數 sobj：判斷目标是否存在于該幀中。

運動分數 skf：預測目标位置的準确性。

其次是一個記憶選擇機制——

如果某幀滿足以下條件，則其特征會被保留到記憶庫中：

動态選擇的記憶庫可以跳過遮擋期間的低質量特征，從而提高後續幀的預測性能。

從實驗結果來看，SAMURAI 在多個視覺目标跟蹤基準上表現出色，包括 LaSOT、LaSOText 和 GOT-10k 數據集。

值得一提的是，SAMURAI 是在無需重新訓練或微調的情況下，在所有基準上都超過了 SAM 2，并與部分有監督方法（如 LoRAT 和 ODTrack）表現相當。

全華人團隊出品

SAMURAI 這項工作背後的研究團隊，有一個亮點便是全華人陣容。

例如 Cheng-Yen Yang，目前是華盛頓大學電氣與計算機工程系的一名四年級博士生。

研究方向主要包括在復雜場景（水下，無人機，多相機系統）中的多目标跟蹤（單視圖，多視圖，交叉視圖）。

Hsiang-Wei Huang 和 Zhongyu Jiang 也是華盛頓大學電氣與計算機工程系的博士生，而 Wenhao Chai 目前則是攻讀研究生。

他們的導師是華盛頓大學教授Jenq-Neng Hwang。

他是 IEEE 信号處理協會多媒體信号處理技術委員會的創始人之一，自 2001 年以來，黃教授一直是 IEEE 院士。

關于 SAMURAI 更多内容，可戳下方鏈接。

項目地址：

https://yangchris11.github.io/samurai/

論文地址：

https://arxiv.org/abs/2411.11922

參考鏈接：

[ 1 ] https://x.com/EHuanglu/status/1860090091269685282

[ 2 ] https://x.com/bilawalsidhu/status/1860348056916369881