大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

让AI更懂物理世界!人大北邮上海AI Lab等提出多模态分割新方法

2024-08-31 简体 HK SG TW

今天小编分享的科学经验:让AI更懂物理世界!人大北邮上海AI Lab等提出多模态分割新方法,欢迎阅读。

让 AI 像人类一样借助多模态线索定位感兴趣的物体,有新招了!

来自人大高瓴 GeWu-Lab、北邮、上海 AI Lab 等机构的研究人员提出Ref-AVS(Refer and Segment Objects in Audio-Visual Scenes,视听场景下的指代分割),让 AI 能看、会听,更懂真实物理世界。

相关论文已入选顶会 ECCV2024。

举个例子,在下面这张图中,机器如何准确定位真正在演奏乐器的人?

搞单打独斗肯定不行,但这正是已有研究正在做的。(各自从视觉、文本和音频线索的角度出发)

视频对象分割(VOS,Video Object Segmentation):通常以第一帧中的对象掩码作为参考,指导后续帧中特定对象的分割。(严重依赖于第一帧的精确标注)

视频对象参考分割(Ref-VOS,Referring Video Object Segmentation):基于自然语言描述分割视频中的物体,取代了 VOS 中的掩码标注。(虽然更易于访问,但能力有限)

视听分割(AVS,Audio-Visual Segmentation):以音频为指导来分割视频中发声的物体。(无法应对不发声的物体)

而新方法 Ref-AVS,整合了多个模态(文本,音频和视觉)之间的关系来适应更真实的动态视听场景。

这下,同时在唱歌和弹吉他的人也能被轻松找到了。

且同一段素材还能拿来反复用,找出正在发声的吉他也不在话下。

与此同时,研究人员构建了一个名为 Ref-AVS Bench 的数据集,并设计了一个端到端框架来高效处理多模态线索。

具体如下。

构建了数据集 Ref-AVS Bench

概括而言,数据集 Ref-AVS Bench 共有 40020 个视频帧,包含 6888 个物体和 20261 个指代表达式(Reference Expression)。

每个数据都包含与视频帧对应的音频,并提供逐帧的像素级标注。

为了确保所指代对象(Object)的多样性,团队选择了包含背景的 52 个类别 , 其中 48 个类别的可发声物体,以及 3 个类别的静态、不可发声物体。

在视频收集过程中,所有视频均来自油管并截取 10 秒。

在整个手动收集过程中,团队刻意避免以下情况的视频 :

a ) 包含大量相同语义实例的视频;

b ) 有大量编辑和相机视角切换的视频;

c ) 包含合成创作的非现实视频。

同时,为了提高与真实世界分布的一致性,团队挑选了有助于数据集内场景多样化的视频。

比如涉及多个对象(如乐器、人、车辆等)之间互動的视频。

另外,表达式(Expression)的多样性是 Ref-AVS 数据集构建的核心要素之一。

除去本身固有的文本语义信息,表达式还由听觉、视觉和时间三个维度的信息组成。

听觉维度包含音量、节奏等特征,而视觉维度则包含物体的外观和空间等属性。

团队还利用时间线索来生成具有时序提示的引用,例如 " 先发出声音的 ( 物体 ) " 或 " 后出现的 ( 物体 ) "。

通过整合听觉、视觉和时间信息,研究设计出丰富的表达式,不仅可以准确反映多模态场景,还可以满足用户对精确引用的特定需求。

而且,表达式的准确性也是一个核心关注点。

研究遵循三个规则来生成高质量的表达式:

1)唯一性:一个表达式所指代的对象必须是唯一的,不能同时指代多个对象。

2)必要性:可以使用复杂的表达式来指代对象,但句子中的每个形容词都应该缩小目标对象的范围,避免对所要指代的对象进行不必要和冗余的描述。

3)清晰度:某些表达模板涉及主观因素,例如 " 声音更大的 __"。只有在情况足够清晰时才应使用此类表达,以避免产生歧义。

团队将每段 10 秒的视频抽成十个相等的 1 秒片段,利用 Grounding SAM 来分割和标记关键帧,随后要求标注员手动检查和更正这些关键帧。

此过程使团队能够在关键帧内为多个目标对象生成掩码和标签。

一旦确定了关键帧的掩码,研究就会应用跟踪算法来跟踪目标对象,并在 10s 的跨度内获得目标对象的最终掩码标签 ( Ground Truth Mask ) 。

到了数据分割与统计,测试集中的视频及其对应的注释会经过训练过的标注人员的细致审查和校正。

为了全面评估模型在 Ref-AVS 任务中的表现,测试集进一步被划分为三个不同的子集。

具体而言,三个测试子集包括:

已见子集 ( Seen ) :包括那些在训练集中出现过的物体类别,建立该子集的目的是评估模型的基本性能。

未见子集 ( Unseen ) :专门用于评估模型在未见音视频场景中的泛化能力。

空指代子集 ( Null ) :测试模型对空引用的鲁棒性,即表达式与视频中的任何对象都不相关。

具体咋实现的?

完成了数据集准备后,团队利用多模态线索来增强表达式指代能力(Expression Enhancing with Multimodal Cues, EEMC),以实现更好的视听指代分割。

具体而言,在时序双模态融合(Temporal Bi-Modal Transformer)模块中,团队将包含时序信息的视听模态信息(FV, FA)分别与文本信息 FT 进行融合。

注意, 为了让模型更好的感知时序信息,研究提出了一种直观的 Cached memory 机制(CV,CA  )。

Cached memory 需要存储从开始到当前时刻的时序平均模态特征,以捕捉时序变化中多模态信息的变化幅度。多模态特征(QV, QA)计算方式如下 :

其中,表示时序中的特定时间步, 则是一个可调节的超参数用于控制时序过程中模型对特征时序变化的敏感度。

当此刻的音频或视觉特征与过去特征的均值相比变化不大时 , 输出的特征保持几乎不变。

然而,当变化较为明显时,cached memory 可以放大当前特征的差异,从而产生具有显著特征的输出。

此后,拼接的多模态特征被送入 Multimodal Integration Transformer 模块中进行多模态融合 , 产生包含多模态信息的指代表达式的最终特征(QM)作为掩码解码器的输入。

掩码解码器是一个 Transformer 架构的分割基础模型如 MaskFormer,Mask2Former 或者 SAM。

团队选择Mask2Former作为分割基础模型,将其预训练的 mask queries 作为,将多模态指代表达式特征作为 和 。

经过一个 cross-attention transformer(CATF)将多模态指代表达式特征迁移到 mask queries 中,从而实现让分割基础模型根据多模态特征进行分割。

实验结果

在定量实验中,团队将研究提出的基线方法与其它方法进行对比,且为了公平补充了其他方法缺失的模态信息。

在 Seen 子集上的测试结果显示,新方法 Ref-AVS超越了其它方法的性能。

同时在 Unseen 子集和 Null 子集上,Ref-AVS 展示了可泛化性,并且可以准确地跟随指代表达。

在定性实验中, 团队在 Ref-AVS Bench 测试集上对分割掩码进行可视化,并与 AVSegFormer 和 ReferFormer 进行比较。

结果显示,ReferFormer 在 Ref-VOS 任务中的表现以及 AVSegFormer 在 AVS 任务中的表现都未能准确分割出表达中描述的对象。

具体来说,AVSegFormer 在理解表达时遇到困难,往往直接生成声音源。

例如,在左下角的样本中,AVSegFormer 错误地将吸尘器分割为目标,而不是男孩。

另一方面,Ref-VOS 可能无法充分理解音频 - 视觉场景,因此误将幼童识别为钢琴演奏者,如右上角的样本所示。

相比之下,Ref-AVS 方法展现了更出色的能力,能够同时处理多模态表达和场景,从而准确地理解用户指令并分割出目标对象。

未来,可以考虑更优质的多模态融合技术、模型应用的实时性以及数据集的扩展与多样化 , 以将多模态指代分割应用到视频分析、医疗影像处理、自动驾驶和机器人导航等挑战中。

更多详情欢迎查阅原论文。

论文地址 :

https://arxiv.org/abs/2407.10957

项目主页 :

https://gewu-lab.github.io/Ref-AVS/

—  完  —

投稿请发邮件到:

[email protected]

标题注明【投稿】,告诉我们:

你是谁,从哪来,投稿内容‍

附上论文 / 项目主页链接,以及联系方式哦

我们会(尽量)及时回复你

点这里关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~  

>
熱門排行
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游 衛青柏 | 2023-05-04
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修 集玲琳 | 2023-05-02
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 — 袁曼雁 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花 謝飛揚 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压 習又夏 | 2023-05-05
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包 郟君昊 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”, 袁曼雁 | 2023-05-03
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《 惠惠君 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們