大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

北大開源首個針對視頻編輯的新指标,與人類感知高度對齊

2024-12-27 简体 HK SG TW

今天小編分享的科學經驗:北大開源首個針對視頻編輯的新指标,與人類感知高度對齊,歡迎閱讀。

視頻生成模型卷得熱火朝天,配套的視頻評價标準自然也不能落後。

現在,北京大學 MMCAL 團隊開發了首個用于視頻編輯質量評估的新指标——VE-Bench,相關代碼與預訓練權重均已開源。

它重點關注了 AI 視頻編輯中最常見的一個場景:視頻編輯前後結果與原始視頻之間的聯系。

例如,在 " 摘掉女孩的耳環 " 的任務中,需要保留人物 ID,源視頻與編輯結果應該有着較強語義相關性,而在 " 把女孩換為鋼鐵俠 " 這樣的任務中,語義就明顯發生了改變。

此外,它的數據還更加符合人類的主觀感受,是一個有效的主觀對齊量化指标。

實驗結果顯示,與 FastVQA、StableVQA、DOVER、VE-Bench QA 等視頻質量評價方法相比,VE-Bench QA 取得了SOTA 的人類感知對齊結果:

這到底是怎麼做到的呢?

簡單來說,VE-Bench 首先從原始視頻收集、提示詞收集、視頻編輯方法、主觀标注 4 個方面入手,構建了一個更加豐富的數據庫VE-Bench DB。

此外,團隊還提出了創新的測試方法VE-Bench QA,将視頻的整體效果抽成了文字 - 目标一致性、參考源與目标的關系、技術畸變和美學标準多個維度進行綜合評價,比當前常用的 CLIP 分數等客觀指标、PickScore 等反映人類偏好的指标都更加全面。

相關論文已入選 AAAI 2025(The Association for the Advancement of Artificial Intelligence)會議。

更豐富全面的數據庫 VE-Bench DB 原始視頻收集

為了确保數據多樣性,VE-Bench DB 除了收集來自真實世界場景的視頻,還包括CG 渲染的内容以及基于文本生成的AIGC 視頻。

數據來源包括公開數據集 DAVIS、Kinetics-700、Sintel、Spring 的視頻,來自 Sora 和可靈的 AIGC 視頻,以及來自互聯網的補充視頻。

來自互聯網的視頻包括極光、熔岩等常規數據集缺乏的場景。

所有視頻都被調整為長邊 768 像素,同時保持其原始寬高比。

由于目前主流視頻編輯方法支持的長度限制,每段視頻都被裁剪為 32 幀。

源視頻的具體内容構成如下圖所示,所有樣本在收集時均通過人工篩選以保證内容的多樣性并減少冗餘:

△VE-Bench 原始視頻構成。 ( a ) 視頻來源 ( b ) 視頻類型 ( c ) 視頻運動種類 ( d ) 視頻内容種類提示詞收集

參考過往工作,VE-Bench 将用于編輯的提示詞分為3大類别:

風格編輯(Style editing):包括對顏色、紋理或整體氛圍的編輯。

語義編輯(Semantic editing):包括背景編輯和局部編輯,例如對某一對象的添加、替換或移除。

結構編輯(Structural editing):包括對象大小、姿态、動作等的變化。

針對每個類别,團隊人工編寫了相應的提示詞,對應的詞雲與類别構成如下:

△VE-Bench 提示詞構成。 ( a ) 詞雲 ( b ) 提示詞類型占比統計編輯結果生成

VE-Bench 選取了 8 種視頻編輯方法。

這些方法包括早期的經典方法與近期較新的方法,涵蓋從 SD1.4~SD2.1 的不同版本,包括需要微調的方法、0-shot 的方法、和基于 ControlNet、PnP 等不同策略編輯的方法。

人類主觀評價

在進行主觀實驗時,VE-Bench 确保了每個視頻樣本均由 24 位受試者進行打分,符合 ITU 标準中 15 人以上的人數要求。

所參與受試者均在 18 歲以上,學歷均在本科及以上,包括商學、工學、理學、法學等不同的背景,有獨立的判斷能力。

在實驗開始前,所有人會線下集中進行培訓,并且會展示數據集之外的不同好壞的編輯例子。

測試時,受試者被要求根據其主觀感受,并對以下幾個方面進行綜合評價:文本與視頻的一致性、源視頻與目标視頻的相關度以及編輯後視頻的質量,分數為十分制。

最後收集得到的不同模型平均得分的箱線圖如下:

△VE-Bench 模型得分箱線圖

其中,橫坐标表示不同模型 ID,縱坐标表示 Z-score 正則化後的 MOS ( Mean Opinion Score ) 分數。橘紅色線條表示得分的中位數。

可以看出,當前的大多數文本驅動的視頻編輯模型中位數得分普遍在 5 分左右浮動,少數模型的得分中位數可以達到近 6 分,部分模型的得分中位數不到 4 分。

模型得分最低分可以下探到不到 2 分,也有個别樣本最高可以達到近 9 分。

具體每個樣本在 Z-score 前後的得分直方圖如下圖所示,可以看出極高分和極低分仍在少數:

△VE-Bench 模型得分直方圖

在此基礎上,團隊進一步繪制了不同視頻編輯模型在 VE-Bench 提示詞上的表現:

△不同視頻編輯模型在 VE-Bench 中不同類别的提示詞上的表現

可以看出,目前的模型都相對較為擅長風格化指令,這可能是利用了 SD 在大量不同風格圖片上訓練的先驗成果。

同時,删除指令相比于添加得分更低,因為它需要額外考慮物體或背景重建等問題,對模型語義理解與細粒度特征提取能力有更高要求。

現有模型都還不太擅長形狀編輯。這方面 FateZero 模型表現較為優秀,這可能與它針對 shape-aware 提出的注意力混合方法有關。

從 3 個緯度進行評估的 VE-Bench QA

在構建的 VE-Bench DB 的基礎上,團隊還提出了創新的 VE-Bench QA 訓練方法,目标是得到與人類感知更加接近的分數。

下面這張圖展示了 VE-Bench QA 的主要框架:

VE-Bench QA 從3個維度對文本驅動的視頻編輯進行評估:

文本 - 視頻一致性

為了衡量所編輯視頻是否與文本有關,VE-Bench QA 基于 BLIP 進行了有效的視頻 - 文本相關性建模,通過在 BLIP 視覺分支的基礎上加入 Temporal Adapter 将其擴展到三維,并與文本分支的結果通過交叉注意力得到輸出。

源視頻 - 編輯後視頻動态相關性

為了更好建模随上下文動态變化的相關性關系,VE-Bench QA 在該分支上通過時空 Transformer 将二者投影到高維空間,并在此基礎上拼接後利用注意力機制計算二者相關性,最後通過回歸計算得到相應輸出。

傳統維度的視覺質量方面

VE-Bench QA 參考了過往自然場景視頻質量評價的優秀工作 DOVER,通過在美學和失真方面預訓練過後的骨幹網絡輸出相應結果。

最終各個分支的輸出通過線性層回歸得到最終分數。

實驗結果顯示,VE-Bench QA 在多個數據集上所預測的結果,其與真值的相關性得分都領先于其他方法:

△VE-BenchQA 在 T2VQA-DB 數據集上的結果

△VE-Bench QA 在 VE-Bench DB 數據集上的結果

論文鏈接:https://arxiv.org/abs/2408.11481

代碼鏈接:https://github.com/littlespray/VE-Bench

—  完  —

投稿請發郵件到:

[email protected]

标題注明【投稿】,告訴我們:

你是誰,從哪來,投稿内容‍

附上論文 / 項目主頁鏈接,以及聯系方式哦

我們會(盡量)及時回復你

點這裡關注我,記得标星哦~

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~  

>
熱門排行
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們