大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

AI危险检测再进化!三层级解析长视频异常,各种时序粒度均有明显优势

2025-04-08 简体 HK SG TW

今天小编分享的科学经验:AI危险检测再进化!三层级解析长视频异常,各种时序粒度均有明显优势,欢迎阅读。

多模态视频异常理解任务,又有新突破!

" 异常理解 " 是指在视频监控、自动驾驶等场景中,利用模型发现视频中的异常内容,从而预判危险,以便及时做出决策。

来自华中科大等机构的研究人员,提出了新的视频异常理解模型 Holmes-VAU,以及相关数据集。

与通用多模态大模型对比,Holmes-VAU 在各种时序粒度的视频异常理解上都展现出显著优势。

为了实现开放世界的多模态视频异常理解(VAU),已有的 VAU benchmark 只有短视频的 caption 标注或长视频的 instruction 标注,忽略了视频异常事件的时序复杂性。

为同时促进模型对短视频的感知能力和对长视频的推理能力,作者提出了一种高效半自动数据引擎并构建了 HIVAU-70k 数据集,包含超 7 万视频异常理解任务的多时序尺度指令数据。

同时作者提出了一种基于异常分数的时序采样器,从长视频中动态稀疏采样关键帧到后续多模态大模型中,显著提升了异常分析的准确性和推理效率。

多层级视频异常理解指令数据集

针对视频异常理解任务 ( Video Anomaly Understanding ) ,以往的一些异常视频指令数据集主要有两方面问题:

数据集中的视频时长较短,导致模型缺乏对长视频的异常理解能力;

即便包含长视频,也缺乏对长视频的细粒度和结构化的标注,导致模型的异常理解空间难以对齐。

为此,作者提出了一个大型多模态指令数据集 HIVAU-70k,其中包含多种时间粒度的视频异常标注,由粗到细分别为:

video-level:未裁剪长视频,包括视频中所有异常事件的文本描述分析;

event-level:从长视频中裁剪出的异常事件片段,包括单个异常事件的文本描述分析;

clip-level:从 event 中进一步裁剪出的视频片段,包括视频片段的文本描述。

HIVAU-70k 中的指令数据包括视频描述、异常判断、异常描述和异常分析等任务,为视频异常理解多模态大模型提供了丰富多样的数据来源。

这样的多层级指令数据集是怎么构造的呢?从一个未裁剪的长视频开始,需要依次经过以下三个步骤:

分层视频解耦(Hierarchical Video Decoupling):将 video-level 视频中的异常事件标注并裁剪出来,得到 event-level 视频 , 再对 event-level 视频进一步平均切分得到 clip-level 视频;

分层自由文本注释(Hierarchical Free-text Annotation):对于 clip-level 视频,使用人工或 caption model 得到 clip caption;对于 event-level 视频,结合所包含的 clip-level caption 和异常类别,提示 LLM 得到事件总结;对于 video-level 视频,结合所包含的事件总结和异常类别,提示 LLM 得到视频总结;

层次化指令数据构建(Hierarchical Instruction Data Construction):针对不同层级的视频及其文本标注,设计不同的任务,构造任务相关的问题并与文本注释组合,得到最终的指令数据。

与其他相关的数据集相比,HIVAU-70k 不仅有数量上的优势,还提供了多粒度的文本标注以及时序上的异常边界标注。

动态稀疏采样的视频异常理解模型

长视频异常理解在使用大型语言模型(LLMs)或视觉语言模型(VLMs)时,常因帧冗余问题而受到限制,导致异常检测的准确性变得复杂。

以往的 VAU(视频异常理解)方法难以聚焦异常。

例如,密集視窗采样方法会增加大量冗余帧的计算量,而均匀帧采样方法常常错过关键异常帧,使其应用范围局限于短视频。

为此,作者提出了 Anomaly-focused Temporal Sampler ( ATS ) ,并将其集成到 VLM 中,通过在 HIVAU-70k 上的指令微调,构建了 Holmes-VAU 模型。

异常帧通常比正常帧包含更多信息,并表现出更大的变化,基于这一观察,作者设计了一种采样策略,在异常分数较高的区網域采样更多帧,同时在分数较低的区網域减少采样。

为实现非均匀采样,作者提出了一种 " 密度感知采样器 "(density-aware sampler),用于从总共 T 个输入帧中选择 N 个帧。

具体来说,作者将异常分数 S 视为概率质量函数,并首先沿时间维度累积它们,得到累积分布函数(CDF),记为 S_cumsum:

接着,在累积轴上均匀采样 N 个点,并将这些点映射到累积分布 S_cumsum 上。相应的时间轴上的 N 个时间戳会被映射到最接近的帧索引,最终形成采样的帧索引集合 G。

△Holmes-VAU 模型框架图

下入展示了测试集上的异常分数和采样帧的可视化结果。这些结果表明了 ATS 的准确异常检测能力,最终输入到多模态大模型的采样帧也集中于异常区網域。

△Anomly-focused Temporal Sampler ( ATS ) 异常分数及采样帧示意图实验结果异常推理性能评估

作者在 HIVAU-70k 的测试集上,将模型输出的推理文本与注释的真实文本进行比较,计算了包括 BLEU、CIDEr、METEOR 和 ROUGE 等指标来衡量模型输出的异常理解文本质量。

与通用多模态大模型对比,Holmes-VAU 在各种时序粒度的视频异常理解上都展现出显著优势。

在多层级标注中,对不同层级指令数据集的组合,可以观察发现,单一层级的标注只能提升单一层级任务的性能。

不同层级的标注组合可以相互补充,实现从 clip-level 的基础视觉感知 , 到 event-level 单一异常事件的分析,再到 video-level 的长时序异常总结和推理等方面的全面提升,达到更细粒度和完整的多模态异常空间对齐。

对于非均匀采样器的作用,作者也对比了不同帧采样方式,包括本文提出的 ATS、之前方法用的 Top-K 采样和 Uniform 采样。

结果表明在相同的采样帧数下,ATS 展现出更优越的长视频异常理解能力,这是由于 Top-K 采样过于集中在异常帧,忽略了视频上下文的参考,Uniform 采样则容易忽略关键的异常帧。

而作者提出的 ATS 则有效结合了这两者的优势,关注异常帧的同时,能够保留部分上下文帧的采样。

定性比较

下图对比了 Holmes-VAU 和其他 MLLM 输出的异常分析文本,Holmes-VAU 表现出更准确的异常判断和分析能力,同时对长视频也表现出更完整的异常总结能力。

△Holmes-VAU 和其他 MLLM 的异常分析文本质量对比

论文:

https://arxiv.org/abs/2412.06171

代码:

https://github.com/pipixin321/HolmesVAU

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  完  —

学术投稿请于工作日发邮件到:

[email protected]

标题注明【投稿】,告诉我们:

你是谁,从哪来,投稿内容‍

附上论文 / 项目主页链接,以及联系方式哦

我们会(尽量)及时回复你

点亮星标

科技前沿进展每日见

熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他 王治郅:杨瀚森主要的问题是速度 他 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击 贸易战烧进电影院:特朗普拟重税打击 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回 手机电池突破8000mAh?硅碳技术的回 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵 任天堂对Genki提起Switch 2商标侵 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人 哪吒汽车APP和官网恢复正常 知情人 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌 极越汽车 CEO 夏一平名下青岛/义乌 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商 全国经济第一大省明确,推动组建农商 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅 桑保利:亚马尔有配合意识&有点像梅 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花板”? 謝飛揚 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 衛青柏 | 2023-05-04
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 寸飛蘭 | 2023-05-05
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 袁曼雁 | 2023-05-02
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修正案 集玲琳 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压处理器 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 袁曼雁 | 2023-05-07
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 郟君昊 | 2023-05-02
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 惠惠君 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 嬴覓晴 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們