大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

讓AI更懂物理世界!人大北郵上海AI Lab等提出多模态分割新方法

2024-08-31 简体 HK SG TW

今天小編分享的科學經驗:讓AI更懂物理世界!人大北郵上海AI Lab等提出多模态分割新方法,歡迎閲讀。

讓 AI 像人類一樣借助多模态線索定位感興趣的物體,有新招了!

來自人大高瓴 GeWu-Lab、北郵、上海 AI Lab 等機構的研究人員提出Ref-AVS(Refer and Segment Objects in Audio-Visual Scenes,視聽場景下的指代分割),讓 AI 能看、會聽,更懂真實物理世界。

相關論文已入選頂會 ECCV2024。

舉個例子,在下面這張圖中,機器如何準确定位真正在演奏樂器的人?

搞單打獨鬥肯定不行,但這正是已有研究正在做的。(各自從視覺、文本和音頻線索的角度出發)

視頻對象分割(VOS,Video Object Segmentation):通常以第一幀中的對象掩碼作為參考,指導後續幀中特定對象的分割。(嚴重依賴于第一幀的精确标注)

視頻對象參考分割(Ref-VOS,Referring Video Object Segmentation):基于自然語言描述分割視頻中的物體,取代了 VOS 中的掩碼标注。(雖然更易于訪問,但能力有限)

視聽分割(AVS,Audio-Visual Segmentation):以音頻為指導來分割視頻中發聲的物體。(無法應對不發聲的物體)

而新方法 Ref-AVS,整合了多個模态(文本,音頻和視覺)之間的關系來适應更真實的動态視聽場景。

這下,同時在唱歌和彈吉他的人也能被輕松找到了。

且同一段素材還能拿來反復用,找出正在發聲的吉他也不在話下。

與此同時,研究人員構建了一個名為 Ref-AVS Bench 的數據集,并設計了一個端到端框架來高效處理多模态線索。

具體如下。

構建了數據集 Ref-AVS Bench

概括而言,數據集 Ref-AVS Bench 共有 40020 個視頻幀,包含 6888 個物體和 20261 個指代表達式(Reference Expression)。

每個數據都包含與視頻幀對應的音頻,并提供逐幀的像素級标注。

為了确保所指代對象(Object)的多樣性,團隊選擇了包含背景的 52 個類别 , 其中 48 個類别的可發聲物體,以及 3 個類别的靜态、不可發聲物體。

在視頻收集過程中,所有視頻均來自油管并截取 10 秒。

在整個手動收集過程中,團隊刻意避免以下情況的視頻 :

a ) 包含大量相同語義實例的視頻;

b ) 有大量編輯和相機視角切換的視頻;

c ) 包含合成創作的非現實視頻。

同時,為了提高與真實世界分布的一致性,團隊挑選了有助于數據集内場景多樣化的視頻。

比如涉及多個對象(如樂器、人、車輛等)之間互動的視頻。

另外,表達式(Expression)的多樣性是 Ref-AVS 數據集構建的核心要素之一。

除去本身固有的文本語義信息,表達式還由聽覺、視覺和時間三個維度的信息組成。

聽覺維度包含音量、節奏等特征,而視覺維度則包含物體的外觀和空間等屬性。

團隊還利用時間線索來生成具有時序提示的引用,例如 " 先發出聲音的 ( 物體 ) " 或 " 後出現的 ( 物體 ) "。

通過整合聽覺、視覺和時間信息,研究設計出豐富的表達式,不僅可以準确反映多模态場景,還可以滿足用户對精确引用的特定需求。

而且,表達式的準确性也是一個核心關注點。

研究遵循三個規則來生成高質量的表達式:

1)唯一性:一個表達式所指代的對象必須是唯一的,不能同時指代多個對象。

2)必要性:可以使用復雜的表達式來指代對象,但句子中的每個形容詞都應該縮小目标對象的範圍,避免對所要指代的對象進行不必要和冗餘的描述。

3)清晰度:某些表達模板涉及主觀因素,例如 " 聲音更大的 __"。只有在情況足夠清晰時才應使用此類表達,以避免產生歧義。

團隊将每段 10 秒的視頻抽成十個相等的 1 秒片段,利用 Grounding SAM 來分割和标記關鍵幀,随後要求标注員手動檢查和更正這些關鍵幀。

此過程使團隊能夠在關鍵幀内為多個目标對象生成掩碼和标籤。

一旦确定了關鍵幀的掩碼,研究就會應用跟蹤算法來跟蹤目标對象,并在 10s 的跨度内獲得目标對象的最終掩碼标籤 ( Ground Truth Mask ) 。

到了數據分割與統計,測試集中的視頻及其對應的注釋會經過訓練過的标注人員的細致審查和校正。

為了全面評估模型在 Ref-AVS 任務中的表現,測試集進一步被劃分為三個不同的子集。

具體而言,三個測試子集包括:

已見子集 ( Seen ) :包括那些在訓練集中出現過的物體類别,建立該子集的目的是評估模型的基本性能。

未見子集 ( Unseen ) :專門用于評估模型在未見音視頻場景中的泛化能力。

空指代子集 ( Null ) :測試模型對空引用的魯棒性,即表達式與視頻中的任何對象都不相關。

具體咋實現的?

完成了數據集準備後,團隊利用多模态線索來增強表達式指代能力(Expression Enhancing with Multimodal Cues, EEMC),以實現更好的視聽指代分割。

具體而言,在時序雙模态融合(Temporal Bi-Modal Transformer)模塊中,團隊将包含時序信息的視聽模态信息(FV, FA)分别與文本信息 FT 進行融合。

注意, 為了讓模型更好的感知時序信息,研究提出了一種直觀的 Cached memory 機制(CV,CA  )。

Cached memory 需要存儲從開始到當前時刻的時序平均模态特征,以捕捉時序變化中多模态信息的變化幅度。多模态特征(QV, QA)計算方式如下 :

其中,表示時序中的特定時間步, 則是一個可調節的超參數用于控制時序過程中模型對特征時序變化的敏感度。

當此刻的音頻或視覺特征與過去特征的均值相比變化不大時 , 輸出的特征保持幾乎不變。

然而,當變化較為明顯時,cached memory 可以放大當前特征的差異,從而產生具有顯著特征的輸出。

此後,拼接的多模态特征被送入 Multimodal Integration Transformer 模塊中進行多模态融合 , 產生包含多模态信息的指代表達式的最終特征(QM)作為掩碼解碼器的輸入。

掩碼解碼器是一個 Transformer 架構的分割基礎模型如 MaskFormer,Mask2Former 或者 SAM。

團隊選擇Mask2Former作為分割基礎模型,将其預訓練的 mask queries 作為,将多模态指代表達式特征作為 和 。

經過一個 cross-attention transformer(CATF)将多模态指代表達式特征遷移到 mask queries 中,從而實現讓分割基礎模型根據多模态特征進行分割。

實驗結果

在定量實驗中,團隊将研究提出的基線方法與其它方法進行對比,且為了公平補充了其他方法缺失的模态信息。

在 Seen 子集上的測試結果顯示,新方法 Ref-AVS超越了其它方法的性能。

同時在 Unseen 子集和 Null 子集上,Ref-AVS 展示了可泛化性,并且可以準确地跟随指代表達。

在定性實驗中, 團隊在 Ref-AVS Bench 測試集上對分割掩碼進行可視化,并與 AVSegFormer 和 ReferFormer 進行比較。

結果顯示,ReferFormer 在 Ref-VOS 任務中的表現以及 AVSegFormer 在 AVS 任務中的表現都未能準确分割出表達中描述的對象。

具體來説,AVSegFormer 在理解表達時遇到困難,往往直接生成聲音源。

例如,在左下角的樣本中,AVSegFormer 錯誤地将吸塵器分割為目标,而不是男孩。

另一方面,Ref-VOS 可能無法充分理解音頻 - 視覺場景,因此誤将幼童識别為鋼琴演奏者,如右上角的樣本所示。

相比之下,Ref-AVS 方法展現了更出色的能力,能夠同時處理多模态表達和場景,從而準确地理解用户指令并分割出目标對象。

未來,可以考慮更優質的多模态融合技術、模型應用的實時性以及數據集的擴展與多樣化 , 以将多模态指代分割應用到視頻分析、醫療影像處理、自動駕駛和機器人導航等挑戰中。

更多詳情歡迎查閲原論文。

論文地址 :

https://arxiv.org/abs/2407.10957

項目主頁 :

https://gewu-lab.github.io/Ref-AVS/

—  完  —

投稿請發郵件到:

[email protected]

标題注明【投稿】,告訴我們:

你是誰,從哪來,投稿内容‍

附上論文 / 項目主頁鏈接,以及聯系方式哦

我們會(盡量)及時回復你

點這裏關注我,記得标星哦~

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~  

>
熱門排行
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裏面都有啥? 曹操墓,裏面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 200户連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200户連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們