AI模仿人類看漫畫，視頻大模型時序定位能力新SOTA - 大酷樂

今天小編分享的科技經驗：AI模仿人類看漫畫，視頻大模型時序定位能力新SOTA，歡迎閲讀。

用看漫畫的方式，大幅提升視頻大模型時序定位能力！

方法名為NumPro，無需訓練，通過數字視覺提示就能增強。

就像漫畫中用編号的畫格引導讀者按順序理解故事，将視覺内容與清晰的時間線聯系起來一樣。

NumPro 通過在視頻幀上添加獨特的數字标識符，将視頻時序定位轉化為直觀的 " 翻閲漫畫 " 式過程，使 Vid-LLMs 能夠輕松 " 讀取 " 事件時間線，準确關聯視覺内容與相應的時序信息。

實驗中，NumPro 顯著提升了視頻時序定位能力，在多個基準上超越此前 SOTA，而且還能保持對模型通用視頻理解能力影響較小。

這項工作由來自東南大學、馬克斯 · 普朗克信息學研究所、騰訊微信團隊、加州大學伯克利分校的研究人員共同完成。

NumPro 方法核心創新

視頻大語言模型（Vid-LLMs）在視頻内容理解問答對話方面已取得顯著進展，但在精确的時序定位任務（Video Temporal Grounding, VTG）上仍面臨挑戰。

例如，在實際應用中，識别視頻中事件的發生時刻，如定位廚師添加調料的精确時間，對于現有模型來説頗具難度，這一挑戰阻礙了視頻理解技術在眾多領網域的深入應用。

傳統方法在增強模型的 VTG 能力時，往往需要大量的重新訓練或復雜的模型适配，靈活性和可遷移性受限。

NumPro 是如何實現的呢？

無需訓練設定（Training-Free）：

在無訓練設定下，NumPro 直接為每個視頻幀标記對應的幀号。

借助 Vid-LLMs 内置的光學字元識别（OCR）能力，模型能夠通過與視覺内容相關聯的幀号 " 讀取 " 時間線。

為明确添加數字的目的，在每個事件查詢前添加簡單指令，告知模型幀号的含義。如此，Vid-LLMs 可直接将幀号與語言查詢鏈接，準确識别幀級邊界。

微調優化設定（Fine-tuning Setting）：

為進一步提升性能，NumPro-FT 在經過了 NumPro 增強數據集上對 Vid-LLMs 進行微調。

此過程将幀号與訓練數據中的時間跨度對齊，将時序定位能力嵌入模型的學習表示中。

微調時，凍結視覺編碼器，僅對視覺投影儀和大語言模型（LLM）組件進行優化，并采用低秩适應（LoRA）技術調整 LLM，有效減少參數數量和訓練開銷。

為确保 NumPro 的有效性，研究團隊從字體大小、顏色和位置三個關鍵因素對其進行精心設計優化。

通過基于 CLIP 的實驗，使用 Number Accuracy 和 Caption Accuracy 兩個指标平衡數字的可識别性和對視覺内容的幹擾。

最終确定了字體大小為 40、顏色為紅色、位置在右下角的最優設計，該設計能最大程度發揮 Vid-LLMs 的 OCR 和視覺語言對齊能力，實現精準的視頻時序定位。

實驗成果顯著

在标準 VTG 基準測試中，NumPro 表現卓越。

在 Moment Retrieval 任務中，無需訓練的 NumPro 使 Vid-LLMs 性能接近或超越以往最優水平。

而經過 NumPro-FT 微調後，LongVA-7B-DPO 在 Charades-STA 和 ActivityNet 數據集上的多個指标上均大幅超越現有 SOTA，展現出 NumPro 在提升模型時序定位能力方面的巨大潛力。

NumPro 不僅在領先模型上效果顯著，對多種 Vid-LLMs 也具有廣泛的适用性。

應用于不同模型如 LLaVA-Video-7B、LLaVA-OneVision-7B 和 Qwen2-VL-72B 等，均帶來了顯著的性能提升。此外，在與微調結合時，NumPro-FT 始終優于傳統微調方法，尤其在較長視頻數據集上表現出色。

将 NumPro 集成到通用視頻問答任務（如 VideoInstruct 基準測試）中，發現其對一般理解指标影響極小，在保持強大通用視頻理解能力的同時，顯著提升了視頻時序定位能力。

論文連接：https://arxiv.org/pdf/2411.10332

代碼倉庫：https://github.com/yongliang-wu/NumPro