今天小編分享的科學經驗:GPT-4結合SAM2:免訓練多模态分割的全新解決方案!,歡迎閱讀。
免訓練多模态分割領網域有了新突破!
中科院信工所、北航、合工大、美團等部門聯合提出了一種名為AL-Ref-SAM 2的方法。
這種方法利用 GPT-4 和 SAM-2 來統一多模态分割,讓系統在免訓練的情況下,也能擁有不亞于全監督微調的性能!
≥ 全監督方法
多模态分割主要有兩種方法:一種是依據文字描述找到視頻中特定對象的分割方法(RVOS),另一種是通過聲音識别視頻中發聲對象的方法(AVS)。
免訓練的多模态視頻指代分割雖然在數據和訓練成本上有較大優勢,卻由于缺乏在特定任務數據上針對性的模型參數調整,導致性能與全監督方法有較大差距。
而研究團隊要解決的就是這個問題。
實驗中,他們對多個 RVOS 基準數據集進行了廣泛驗證,包括 Ref-YouTube-VOS、Ref-DAVIS17 和 MeViS,同時在 AVSBench 的多個子集上也進行了測試。
最後的實驗結果顯示,AL-Ref-SAL 2 在這些數據集上的表現不僅優于其他無需訓練和弱監督的方法,并且甚至在一定情況下,系統的性能可以與全監督方法相媲美。
特别是在 Ref-YouTube-VOS 和 Ref-DAVIS17 這兩個數據集上,AL-Ref-SAM 2 的表現甚至超過了大多數全監督方法。
△ 免訓練設定下三階段分割基線方法 ( a ) 與本文方法 ( b ) 的比較具體咋實現的?
研究團隊把 AL-Ref-SAM 2 的算法抽成了三個階段:
第一階段:獲取形式統一的指代信息,對于 RVOS 任務,指代信息是輸入的文本描述本身,而對于 AVS 任務,研究人員們利用 LBRU 模塊将音頻轉化為對發聲對象的語言形式描述。
第二階段:根據語言指代和視頻内容,利用 GPT-4 進行兩階段時空推理,從視頻中逐步選出關鍵幀和關鍵框。
第三階段:以關鍵幀為分割起點,關鍵框為初始提示,利用 SAM 2 獲得目标對象在整段視頻中的分割掩碼序列。
△ AL-Ref-SAM 2 的整體流程
具體實驗細節,請看下文展開 ~
語言綁定的音頻指代轉換(LBRU)
LBRU 将音頻信号轉換為與語言描述統一的格式(例如 " [ CLS ] that is making sound",其中 [ CLS ] 代表了具體的發聲對象類别),以減少音頻信息中的語義模糊性和冗餘性。
為了獲取發聲對象的準确類别,LBRU 利用了一個預訓練音頻分類器,如BEATs,對音頻進行分類,并保留置信度前 k 高的類别文本。
由于這些類别中可能包含了重復類别或背景聲類别,LBRU 進一步引入了視頻作為視覺上下文,利用 GPT-4根據視頻内容對音頻類别進行過濾、合并,并将保留的音頻類别轉化為發出該聲音的對象類别。
△ 語言綁定的音頻指代轉換模塊
GPT 輔助的關鍵幀 / 框選擇(GPT-PS)
GPT-PS 利用GPT-4分别進行時序推理選出關鍵幀,以及空間推理選出關鍵框。
在時序推理階段,為了使 GPT 可以處理視頻格式的内容,研究團隊首先對視頻幀進行采樣,将采樣後的若幹幀拼接為一張圖并在圖上标出幀号。
為了顯式引導 GPT 在理解視頻内容的基礎上選擇關鍵幀,他們還針對性地設計了關鍵幀思維鏈提示模板,要求 GPT 首先描述整段視頻的場景,再根據語言指代選出關鍵幀。
之後,研究人員将語言指代信息和關鍵幀輸入 GroundingDINO 模型中,獲得多個可能的候選框。
在空間推理階段,首先将候選框畫在關鍵幀上,并且依舊将其與其他采樣幀順序拼接作為視覺信号輸入 GPT。
類似地,他們也設計了關鍵框思維鏈提示模板,要求 GPT 描述每個候選框中對象的特征和不同對象之間的關系,并對指代信息進行語法分析确定真正的指代主體,最後再根據語言指代選出包含目标對象的候選框作為關鍵框。
以下是研究團隊得出的相關數據:
論文鏈接:https://arxiv.org/pdf/2408.15876
代碼鏈接:https://github.com/appletea233/AL-Ref-SAM2
— 完 —
投稿請發郵件到:
标題注明【投稿】,告訴我們:
你是誰,從哪來,投稿内容
附上論文 / 項目主頁鏈接,以及聯系方式哦
我們會(盡量)及時回復你
點這裡關注我,記得标星哦~
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~
>