大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

北大开源首个针对视频编辑的新指标,与人类感知高度对齐

2024-12-27 简体 HK SG TW

今天小编分享的科学经验:北大开源首个针对视频编辑的新指标,与人类感知高度对齐,欢迎阅读。

视频生成模型卷得热火朝天,配套的视频评价标准自然也不能落后。

现在,北京大学 MMCAL 团队开发了首个用于视频编辑质量评估的新指标——VE-Bench,相关代码与预训练权重均已开源。

它重点关注了 AI 视频编辑中最常见的一个场景:视频编辑前后结果与原始视频之间的联系。

例如,在 " 摘掉女孩的耳环 " 的任务中,需要保留人物 ID,源视频与编辑结果应该有着较强语义相关性,而在 " 把女孩换为钢铁侠 " 这样的任务中,语义就明显发生了改变。

此外,它的数据还更加符合人类的主观感受,是一个有效的主观对齐量化指标。

实验结果显示,与 FastVQA、StableVQA、DOVER、VE-Bench QA 等视频质量评价方法相比,VE-Bench QA 取得了SOTA 的人类感知对齐结果:

这到底是怎么做到的呢?

简单来说,VE-Bench 首先从原始视频收集、提示词收集、视频编辑方法、主观标注 4 个方面入手,构建了一个更加丰富的数据库VE-Bench DB。

此外,团队还提出了创新的测试方法VE-Bench QA,将视频的整体效果抽成了文字 - 目标一致性、参考源与目标的关系、技术畸变和美学标准多个维度进行综合评价,比当前常用的 CLIP 分数等客观指标、PickScore 等反映人类偏好的指标都更加全面。

相关论文已入选 AAAI 2025(The Association for the Advancement of Artificial Intelligence)会议。

更丰富全面的数据库 VE-Bench DB 原始视频收集

为了确保数据多样性,VE-Bench DB 除了收集来自真实世界场景的视频,还包括CG 渲染的内容以及基于文本生成的AIGC 视频。

数据来源包括公开数据集 DAVIS、Kinetics-700、Sintel、Spring 的视频,来自 Sora 和可灵的 AIGC 视频,以及来自互联网的补充视频。

来自互联网的视频包括极光、熔岩等常规数据集缺乏的场景。

所有视频都被调整为长边 768 像素,同时保持其原始宽高比。

由于目前主流视频编辑方法支持的长度限制,每段视频都被裁剪为 32 帧。

源视频的具体内容构成如下图所示,所有样本在收集时均通过人工筛选以保证内容的多样性并减少冗余:

△VE-Bench 原始视频构成。 ( a ) 视频来源 ( b ) 视频类型 ( c ) 视频运动种类 ( d ) 视频内容种类提示词收集

参考过往工作,VE-Bench 将用于编辑的提示词分为3大类别:

风格编辑(Style editing):包括对颜色、纹理或整体氛围的编辑。

语义编辑(Semantic editing):包括背景编辑和局部编辑,例如对某一对象的添加、替换或移除。

结构编辑(Structural editing):包括对象大小、姿态、动作等的变化。

针对每个类别,团队人工编写了相应的提示词,对应的词云与类别构成如下:

△VE-Bench 提示词构成。 ( a ) 词云 ( b ) 提示词类型占比统计编辑结果生成

VE-Bench 选取了 8 种视频编辑方法。

这些方法包括早期的经典方法与近期较新的方法,涵盖从 SD1.4~SD2.1 的不同版本,包括需要微调的方法、0-shot 的方法、和基于 ControlNet、PnP 等不同策略编辑的方法。

人类主观评价

在进行主观实验时,VE-Bench 确保了每个视频样本均由 24 位受试者进行打分,符合 ITU 标准中 15 人以上的人数要求。

所参与受试者均在 18 岁以上,学历均在本科及以上,包括商学、工学、理学、法学等不同的背景,有独立的判断能力。

在实验开始前,所有人会线下集中进行培训,并且会展示数据集之外的不同好坏的编辑例子。

测试时,受试者被要求根据其主观感受,并对以下几个方面进行综合评价:文本与视频的一致性、源视频与目标视频的相关度以及编辑后视频的质量,分数为十分制。

最后收集得到的不同模型平均得分的箱线图如下:

△VE-Bench 模型得分箱线图

其中,横坐标表示不同模型 ID,纵坐标表示 Z-score 正则化后的 MOS ( Mean Opinion Score ) 分数。橘红色线条表示得分的中位数。

可以看出,当前的大多数文本驱动的视频编辑模型中位数得分普遍在 5 分左右浮动,少数模型的得分中位数可以达到近 6 分,部分模型的得分中位数不到 4 分。

模型得分最低分可以下探到不到 2 分,也有个别样本最高可以达到近 9 分。

具体每个样本在 Z-score 前后的得分直方图如下图所示,可以看出极高分和极低分仍在少数:

△VE-Bench 模型得分直方图

在此基础上,团队进一步绘制了不同视频编辑模型在 VE-Bench 提示词上的表现:

△不同视频编辑模型在 VE-Bench 中不同类别的提示词上的表现

可以看出,目前的模型都相对较为擅长风格化指令,这可能是利用了 SD 在大量不同风格图片上训练的先验成果。

同时,删除指令相比于添加得分更低,因为它需要额外考虑物体或背景重建等问题,对模型语义理解与细粒度特征提取能力有更高要求。

现有模型都还不太擅长形状编辑。这方面 FateZero 模型表现较为优秀,这可能与它针对 shape-aware 提出的注意力混合方法有关。

从 3 个纬度进行评估的 VE-Bench QA

在构建的 VE-Bench DB 的基础上,团队还提出了创新的 VE-Bench QA 训练方法,目标是得到与人类感知更加接近的分数。

下面这张图展示了 VE-Bench QA 的主要框架:

VE-Bench QA 从3个维度对文本驱动的视频编辑进行评估:

文本 - 视频一致性

为了衡量所编辑视频是否与文本有关,VE-Bench QA 基于 BLIP 进行了有效的视频 - 文本相关性建模,通过在 BLIP 视觉分支的基础上加入 Temporal Adapter 将其扩展到三维,并与文本分支的结果通过交叉注意力得到输出。

源视频 - 编辑后视频动态相关性

为了更好建模随上下文动态变化的相关性关系,VE-Bench QA 在该分支上通过时空 Transformer 将二者投影到高维空间,并在此基础上拼接后利用注意力机制计算二者相关性,最后通过回归计算得到相应输出。

传统维度的视觉质量方面

VE-Bench QA 参考了过往自然场景视频质量评价的优秀工作 DOVER,通过在美学和失真方面预训练过后的骨干网络输出相应结果。

最终各个分支的输出通过线性层回归得到最终分数。

实验结果显示,VE-Bench QA 在多个数据集上所预测的结果,其与真值的相关性得分都领先于其他方法:

△VE-BenchQA 在 T2VQA-DB 数据集上的结果

△VE-Bench QA 在 VE-Bench DB 数据集上的结果

论文链接:https://arxiv.org/abs/2408.11481

代码链接:https://github.com/littlespray/VE-Bench

—  完  —

投稿请发邮件到:

[email protected]

标题注明【投稿】,告诉我们:

你是谁,从哪来,投稿内容‍

附上论文 / 项目主页链接,以及联系方式哦

我们会(尽量)及时回复你

点这里关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~  

>
熱門排行
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 賁芳蕤 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 衛青柏 | 2023-05-04
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修正案 集玲琳 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 集玲琳 | 2023-05-02
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 袁曼雁 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花板”? 謝飛揚 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 寸飛蘭 | 2023-05-05
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压处理器 習又夏 | 2023-05-05
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 郟君昊 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 袁曼雁 | 2023-05-03
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 惠惠君 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 嬴覓晴 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們