北大開源首個針對視頻編輯的新指标，與人類感知高度對齊

今天小編分享的科學經驗：北大開源首個針對視頻編輯的新指标，與人類感知高度對齊，歡迎閱讀。

視頻生成模型卷得熱火朝天，配套的視頻評價标準自然也不能落後。

現在，北京大學 MMCAL 團隊開發了首個用于視頻編輯質量評估的新指标——VE-Bench，相關代碼與預訓練權重均已開源。

它重點關注了 AI 視頻編輯中最常見的一個場景：視頻編輯前後結果與原始視頻之間的聯系。

例如，在 " 摘掉女孩的耳環 " 的任務中，需要保留人物 ID，源視頻與編輯結果應該有着較強語義相關性，而在 " 把女孩換為鋼鐵俠 " 這樣的任務中，語義就明顯發生了改變。

此外，它的數據還更加符合人類的主觀感受，是一個有效的主觀對齊量化指标。

實驗結果顯示，與 FastVQA、StableVQA、DOVER、VE-Bench QA 等視頻質量評價方法相比，VE-Bench QA 取得了SOTA 的人類感知對齊結果：

這到底是怎麼做到的呢？

簡單來說，VE-Bench 首先從原始視頻收集、提示詞收集、視頻編輯方法、主觀标注 4 個方面入手，構建了一個更加豐富的數據庫VE-Bench DB。

此外，團隊還提出了創新的測試方法VE-Bench QA，将視頻的整體效果抽成了文字 - 目标一致性、參考源與目标的關系、技術畸變和美學标準多個維度進行綜合評價，比當前常用的 CLIP 分數等客觀指标、PickScore 等反映人類偏好的指标都更加全面。

相關論文已入選 AAAI 2025（The Association for the Advancement of Artificial Intelligence）會議。

更豐富全面的數據庫 VE-Bench DB 原始視頻收集

為了确保數據多樣性，VE-Bench DB 除了收集來自真實世界場景的視頻，還包括CG 渲染的内容以及基于文本生成的AIGC 視頻。

數據來源包括公開數據集 DAVIS、Kinetics-700、Sintel、Spring 的視頻，來自 Sora 和可靈的 AIGC 視頻，以及來自互聯網的補充視頻。

來自互聯網的視頻包括極光、熔岩等常規數據集缺乏的場景。

所有視頻都被調整為長邊 768 像素，同時保持其原始寬高比。

由于目前主流視頻編輯方法支持的長度限制，每段視頻都被裁剪為 32 幀。

源視頻的具體内容構成如下圖所示，所有樣本在收集時均通過人工篩選以保證内容的多樣性并減少冗餘：

△VE-Bench 原始視頻構成。 ( a ) 視頻來源 ( b ) 視頻類型 ( c ) 視頻運動種類 ( d ) 視頻内容種類提示詞收集

參考過往工作，VE-Bench 将用于編輯的提示詞分為3大類别：

風格編輯（Style editing）：包括對顏色、紋理或整體氛圍的編輯。

語義編輯（Semantic editing）：包括背景編輯和局部編輯，例如對某一對象的添加、替換或移除。

結構編輯（Structural editing）：包括對象大小、姿态、動作等的變化。

針對每個類别，團隊人工編寫了相應的提示詞，對應的詞雲與類别構成如下：

△VE-Bench 提示詞構成。 ( a ) 詞雲 ( b ) 提示詞類型占比統計編輯結果生成

VE-Bench 選取了 8 種視頻編輯方法。

這些方法包括早期的經典方法與近期較新的方法，涵蓋從 SD1.4～SD2.1 的不同版本，包括需要微調的方法、0-shot 的方法、和基于 ControlNet、PnP 等不同策略編輯的方法。

人類主觀評價

在進行主觀實驗時，VE-Bench 确保了每個視頻樣本均由 24 位受試者進行打分，符合 ITU 标準中 15 人以上的人數要求。

所參與受試者均在 18 歲以上，學歷均在本科及以上，包括商學、工學、理學、法學等不同的背景，有獨立的判斷能力。

在實驗開始前，所有人會線下集中進行培訓，并且會展示數據集之外的不同好壞的編輯例子。

測試時，受試者被要求根據其主觀感受，并對以下幾個方面進行綜合評價：文本與視頻的一致性、源視頻與目标視頻的相關度以及編輯後視頻的質量，分數為十分制。

最後收集得到的不同模型平均得分的箱線圖如下：

△VE-Bench 模型得分箱線圖

其中，橫坐标表示不同模型 ID，縱坐标表示 Z-score 正則化後的 MOS ( Mean Opinion Score ) 分數。橘紅色線條表示得分的中位數。

可以看出，當前的大多數文本驅動的視頻編輯模型中位數得分普遍在 5 分左右浮動，少數模型的得分中位數可以達到近 6 分，部分模型的得分中位數不到 4 分。

模型得分最低分可以下探到不到 2 分，也有個别樣本最高可以達到近 9 分。

具體每個樣本在 Z-score 前後的得分直方圖如下圖所示，可以看出極高分和極低分仍在少數：

△VE-Bench 模型得分直方圖

在此基礎上，團隊進一步繪制了不同視頻編輯模型在 VE-Bench 提示詞上的表現：

△不同視頻編輯模型在 VE-Bench 中不同類别的提示詞上的表現

可以看出，目前的模型都相對較為擅長風格化指令，這可能是利用了 SD 在大量不同風格圖片上訓練的先驗成果。

同時，删除指令相比于添加得分更低，因為它需要額外考慮物體或背景重建等問題，對模型語義理解與細粒度特征提取能力有更高要求。

現有模型都還不太擅長形狀編輯。這方面 FateZero 模型表現較為優秀，這可能與它針對 shape-aware 提出的注意力混合方法有關。

從 3 個緯度進行評估的 VE-Bench QA

在構建的 VE-Bench DB 的基礎上，團隊還提出了創新的 VE-Bench QA 訓練方法，目标是得到與人類感知更加接近的分數。

下面這張圖展示了 VE-Bench QA 的主要框架：

VE-Bench QA 從3個維度對文本驅動的視頻編輯進行評估：

文本 - 視頻一致性

為了衡量所編輯視頻是否與文本有關，VE-Bench QA 基于 BLIP 進行了有效的視頻 - 文本相關性建模，通過在 BLIP 視覺分支的基礎上加入 Temporal Adapter 将其擴展到三維，并與文本分支的結果通過交叉注意力得到輸出。

源視頻 - 編輯後視頻動态相關性

為了更好建模随上下文動态變化的相關性關系，VE-Bench QA 在該分支上通過時空 Transformer 将二者投影到高維空間，并在此基礎上拼接後利用注意力機制計算二者相關性，最後通過回歸計算得到相應輸出。

傳統維度的視覺質量方面

VE-Bench QA 參考了過往自然場景視頻質量評價的優秀工作 DOVER，通過在美學和失真方面預訓練過後的骨幹網絡輸出相應結果。

最終各個分支的輸出通過線性層回歸得到最終分數。

實驗結果顯示，VE-Bench QA 在多個數據集上所預測的結果，其與真值的相關性得分都領先于其他方法：

△VE-BenchQA 在 T2VQA-DB 數據集上的結果

△VE-Bench QA 在 VE-Bench DB 數據集上的結果

論文鏈接：https://arxiv.org/abs/2408.11481

代碼鏈接：https://github.com/littlespray/VE-Bench

— 完 —

投稿請發郵件到：

[email protected]

标題注明【投稿】，告訴我們：

你是誰，從哪來，投稿内容‍

附上論文 / 項目主頁鏈接，以及聯系方式哦

我們會（盡量）及時回復你

點這裡關注我，記得标星哦～

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~